Тесты для связанных выборок (Related samples)
Напомним, что связанными выборками называются совокупности повторных измерений на одних и тех же объектах. Например, доходы семьи в различных волнах панельного обследования RLMS; психологические характеристики мужа и жены и т. п. Двухвыборочный критерий знаков (Sign) Для исследования связи пары измерений Х и Y рассматриваются знаки разностей di = Yi – Xi. В случае независимости измерений и отсутствия повторов значений di (связей) число знаков «+» (положительных di) должно подчиняться биномиальному распределению с параметром p =0,5. Именно эта гипотеза и проверяется с помощью статистики критерия – стандартизованной частоты положительных разностей. В качестве примера по данным RLMS проверим, какой характер имели изменения веса (кг) мужчин старше 30 лет в 1994 - 1995 гг. COMPUTE filter_$ = (a_age < 30 & ah5_1 = 1). FILTER BY filter_$. NPAR TEST / SIGN = am1 WITH bm1 (PAIRED). Таблица5. 14 Тест знаков для парных наблюдений. Частоты
Судя по табл. 5.14, мужчины чаще худели, чем толстели, причем этот факт подтверждается отрицательным значением статистики критерия, наблюдаемая значимость которой равна 0,000118 (табл. 5.15.). Таблица 5.15 Тест знаков для парных наблюдений. Значимость критерия
Двухвыборочный знаково-ранговый критерий Вилкоксона (Wilcoxon) Ранжируются абсолютные величины разностей di = Yi – Xi. Затем рассматривается сумма рангов положительных и сумма рангов отрицательных разностей. Если связь между X и Y отсутствует и распределение одинаково, то эти две суммы должны быть примерно равны. Статистика критерия – стандартизованная разность этих сумм. По сути, это проверка, не произошло ли между измерениями событие, существенно изменившее иерархию объектов? Обратимся к предыдущему примеру, но проверим, будет ли преобладать отрицательный ранг изменения веса мужчин старше 30 лет? NPAR TEST /WILCOXON = am1 WITH bm1 (PAIRED). Табл. 5.16 показывает, что преобладает уменьшение веса, что подтверждается наблюдаемой значимостью статистики критерия, равной 0,00053 (табл. 5.17). Таблица5. 16 Знаково-ранговый тест Вилкоксона. Средние ранги
Таблица5. 17 Знаково-ранговый тест Вилкоксона. Средние ранги
Критерий Фридмана (Friedman) Имеется k переменных. На каждом объекте независимо производится их ранжировка (по строке матрицы данных), затем вычисляется средний ранг по каждой переменной (по столбцу). Если все измерения независимы и равноценны (одинаково распределены), то все эти средние должны быть приближенно равны – (k + 1) / 2 – среднему рангу в строке. Статистикой критерия является нормированная сумма квадратов отклонений средних рангов по переменным от общего среднего (k + 1) / 2, которая имеет теоретическое распределение хи-квадрат. Таблица5. 18 Tест Фридмана. Средние ранги
Таблица5. 19 Tест Фридмана. Значимость
Как ни странно, тест Фридмана, запущенный командой NPAR TESTS /FRIEDMAN = am1 bm1 cm1., не показал значимых различий в измерениях веса по трем годам (см. предыдущие два примера), так как наблюдаемая значимость статистики хи-квадрат равна 0,755. Глава 6. РЕГРЕССИОННЫЙ АНАЛИЗ Задача регрессионного анализа состоит в построении модели, позволяющей получать оценки значений результирующей (так называемой зависимой) переменной по значениям объясняющих (так называемых независимых) показателей. Рассмотрим эту задачу в рамках самой распространенной в статистических пакетах классической модели линейной регрессии. Специфика социологических исследований состоит в том, что очень часто необходимо изучать и предсказывать социальные события. Вторая часть данной главы посвящена логистической регрессии, целью которой является построение моделей, предсказывающих вероятности событий.
|