Выданные командой FREQUENCIES
Анализируя полученные данные (табл. 3.2), видим, что доход в семьях меняется в диапазоне от 21 до 1 500 р. (разброс равен 1 479). При этом средний доход составил около 229,11 р. Приближенными границами пятипроцентного доверительного интервала для матожидания будут значения 229,11 ± 1,96 ´ 5,83, где 1,96 – критическое значение нормального распределения для p = 0,05/2 = 0,025. Скошенность skewness = 3,035и пикообразность kurtosis = 15,08 значительно больше нуля. Их стандартные ошибки (0,094 и 0,188соответственно) свидетельствуют о статистической значимости такого отличия. Действительно, отношение коэффициентов к ошибкам достаточно велико и попадает в критическую область, что позволяет отклонить гипотезу о равенстве полученных статистик нулю. Результатом задания процентилей и n -тилей являются выданные в таблице процентили (у 10 % опрошенных респондентов доход меньше 100 р., у 90 % – меньше 400; имеются также процентили, ограничивающие уровни дохода для 25, 50, 75 % респондентов). 3.1.2. DESCRIPTIVES – описательные статистики Если команда FREQUENCIES получает описательные статистики «попутно», то DESCRIPTIVES специально для этого предназначена. Ею удобнее пользоваться для анализа количественных переменных. DESCRIPTIVES VAR = V9 V14 /STATISTICS = MEAN MIN MAX Синтаксис: указывается список переменных, список необходимых статистик, подкоманда сохранения в файле полученных стандартизованных переменных (/save). Список вычисляемых статистик (10) здесь значительно меньше, чем в команде Frequencies (16): MEAN MIN SKEWNESS STDDEV SEMEAN MAX KURTOSIS VARIANCE SUM RANGE. Стандартизованные переменные. Командой DESCRIPTIVES необходимо пользоваться для получения нормированных переменных. Потребность в них может появиться, например, для проведения кластерного или регрессионного анализа. Иногда это связано с необходимостью сопоставления разномасштабной информации. Пример. Мы имеем данные по заработной плате за два последних года. На основании этих данных необходимо определить, в каком социальном слое находятся респонденты. Но это затруднительно сделать, поскольку за 2 года существенно изменился масштаб цен. Для сравнения преобразуем к стандартному виду данные по каждому году, что позволит нам провести сравнительный анализ для определенных социальных слоев: , где S – cтандартное отклонение переменной Х; . Стандартизованные переменные можно получить, указав в скобках за переменной имя новой, стандартизованной, переменной: DESCRIPTIVES VAR V14(Z14) V9(Z9). Если используется подкоманда SAVE, то сообщать имена нет необходимости. Стандартизованные переменные запишутся в конец файла данных под именами, которые будут автоматически образованы добавлением буквы Z слева к имени исходной переменной. Например, DESCRIPTIVES VAR = V9 V14/SAVE. Новым переменным пакет присвоит имена ZV9 и ZV14. Напомним, что более разнообразные преобразования переменных можно получить командой RANK. С помощью этой команды можно ранжировать значения переменной, перекодировать переменную с целью получения нормального распределения, получать процентили и др. 3.1.3. EXPLORE – исследование распределений и сравнение групп объектов Команда меню Explore на языке программирования имеет имя EXAMINE. Она реализует удобный инструмент исследования распределения данных в подвыборках объектов и расcчитывает статистики для проверки нормальности распределения и однородности дисперсий в группах. Мы не будем подробно описывать эту процедуру, поскольку она хорошо описана в книге [7. С. 43 – 71]. Команда отличается развитыми графическими возможностями. В ней предусмотрены гистограммы, диаграммы типа «ствол с листьями», ящичковые диаграммы, графики сравнения эмпирического распределения с нормальным. Для описательного анализа удобны ящичковые диаграммы. Для примера рассмотрим диаграмму распределения по возрасту в группах по семейному положению, полученную командой EXAMINE VARIABLES = V9 BY V11 /PLOT BOXPLOT HISTOGRAM NPPLOT SPREADLEVEL(1) /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL. Нижние и верхние границы «ящичков» показывают 25 % и 75 % процентили распределений, черта посередине – медиана, «усы» показывают максимальные и минимальные значения в группах, если они не отстоят от верхнего (нижнего) края ящичка более чем на 1,5 его длины. Иначе они показывают эту границу, а вышедшие за эти пределы значения отмечаются отдельными точками или кружками (рис. 3.3). На диаграмме видим, что для всех групп медиана находится не в центре возрастных интервалов. Особенно велик перекос для не состоявших в браке, т. е. среди этой группы опрошенные были в возрасте 20 лет. Выборка ограничена трудоспособным возрастом 16 лет, что отчасти объясняет перекошенность в последней группе. Людям более старшего возраста свойственно заводить семью. Для женатых медиана находилось в возрасте около 40 лет. Медиана возраста разведенных приходится примерно на 44 года и вдовцов в возрасте 52 лет. Т. е. «центральный» возраст разведенных примерно на 4 года больше «центрального» возраста разведенных.
|