Взвешивание выборки WEIGHT
Социологи достаточно часто работают с некорректными статистическими данными. К примеру, необходимо изучить социальные характеристики людей, занятых в правовых органах. Но известно, что в органах юстиции занято всего 2 % трудоспособного населения, и, если будет отобрано 500 человек, то среди них может оказаться только 10 занятых в органах юстиции. В этом случае данных будет недостаточно для формирования выводов. Поэтому социологи осознанно опрашивают большее число занятых в правовых органах, например 50 из 500. Иногда они рассчитывают целую половозрастную, отраслевую и т. д. таблицу, по которой решают, сколько человек в каждой социальной группе опросить. Это деформирует выборку; ее характеристики не соответствуют параметрам генеральной совокупности, т. е. она становится нерепрезентативной. Чтобы уменьшить влияние деформированности выборки на результаты статистического анализа, применяют взвешивание объектов: группы, которые были искусственно уменьшены, выбираются с весовым коэффициентом, превышающим единицу. Обычно суммарный вес всех объектов равен числу объектов в рассматриваемом файле. Пусть, например, опрошено 300 человек, из них 100 мужчин, 200 женщин. Однако из накопленного опыта известно, что в генеральной совокупности 50 % мужчин, 50 % женщин. Поэтому целесообразно для всех статистических расчетов учитывать мужчину с весом 1,5, а женщину – с весом 0,75, тогда с учетом весов их воздействие на результаты расчетов по выборке будет выравнено. Суммарный вес равен 1,5 ´ 100 + 0,75 ´ 200 = 300. Пример. Пусть переменная SEX содержит сведения по полу респондентов (1 – мужской, 2 – женский). Соответствующие веса будут назначены командами RECODE SEX (1 = 1.5)(2 = 0.75) into wsex. WEIGHT BY wsex EXECUTE. Вообще, если известно распределение объектов k групп в генеральной совокупности p 1, …, pk; получено частотное распределение n 1, …, nk, то i -й группе должен быть приписан вес wi = pi*N /ni, где . Назначить веса можно через меню редактора данных (Data>Weight Cases). Замечание. Взвешивание – это не физическое повторение наблюдения. Если значение веса отрицательное или неопределенное (предварительно определенное как SYSMIS), то оно обрабатывается статистическими процедурами как вес, равный нулю. Пример. Приемы использования команд описания и преобразования данных рассмотрим на примере обработки анкеты «Курильские острова». Задача. На основании ответов на вопросы анкеты получить переменную, отражающую степень противостояния СССР и Японии. Решением этой задачи, по мнению исследователя, может быть новая переменная, в зависимости от ответов респондентов имеющая значения 1, 2, 3, обозначающие: 1. Япония противостоит Союзу и Союз – Японии, т. е. противостояние взаимно. 2. Одна из сторон (Япония или Союз) против контактов. 3. Стороны не противостоят по отношению друг к другу. За основу конструирования такой переменной возьмем ответы на третий вопрос анкеты «III. Как Вы считаете, что мешает подписать мирный договор между СССР и Японией?» с подсказками: 1 – нет настоятельной необходимости, отношения и без того нормальные. 2 – традиционное недоверие друг к другу в результате войн в прошлом. 3 – слабая экономическая заинтересованность Японии. 4 – разные политические симпатии СССР и Японии. 5 – нежелание Японии признать послевоенные границы с СССР. 6 – нежелание СССР рассматривать вопрос о спорных островах. 7 – другое (что именно). 8 – не знаю, затрудняюсь сказать. Под ответы на вопрос III в матрице данных отведено восемь столбцов, наименованных V3S1 – V3S8; для заполнения ответов используется кодирование в виде списка. Анализируя ответы, строим переменную ТР, соответствующую трем типам, определенным в задаче. Для этого построим вспомогательные переменные Т1 и Т2, являющиеся индикаторами того, что Япония противостоит СССР и СССР противостоит Японии соответственно. Построить такие переменные можно, воспользовавшись командами COUNT T1 = V3S1 to V3S7 (2,5)/ T2 = V3S1 to V3S7 (2,6). В результате выполнения команды переменной T1 присваивается либо 1 (когда в анкете была обведена одна из двух подсказок: 2 или 5); либо 2 (когда обведены обе подсказки) и 0, если респондент не обвел ни подсказку 2, ни подсказку 5. По аналогии заполнена значениями – количеством обведенных соответствующих подсказок – переменная Т2. COMPUTE OPPOS = 3. IF (T1 > 0 | T2>0) OPPOS = 2. IF (T1 > 0 & T2>0) OPPOS = 1. EXECUTE. VARIABLE LABELS OPPOS 'Степень противостояния СССР и Японии' T1 'Противостояние Японии' T2. 'Противостояние СССР'. VALUE LABELS OPPOS 1 'Взаимное' 2 'Одна из сторон' 3 'Нет противостояния'. Здесь первая команда IF «затирает» значение 3 кодом 2, а вторая COUNT T1 = V3S1 to V3S7 (2,5) / T2 = V3S1 to V3S7 (2,6). RECODE T1 T2 (2 = 1). COMPUTE OPPOS = 3 - (T1 + T2). А можно и так: COUNT T1 = V3S1 to V3S7 (2,5) / T2 = V3S1 to V3S7 (2,6). COMPUTE OPPOS = 3 - ((T1 > 0)+(T2 > 0)). Таким образом, OPPOS= 1 для первого типа респондентов, OPPOS= 2 для второго, OPPOS = 3 – для третьего. Построенная переменная позволяет проводить в дальнейшем многосторонний анализ выделенных типов населения, например, возрастной структуры, социального положения, образования и т. д.
|