Тест хи-квадрат
Критерий хи-квадрат основан на статистике , где – ожидаемая частота i -го значения переменной, Ni – расчетная. Теоретическое распределение этой статистики при больших N совпадает с распределением хи-квадрат. Число степеней свободы теоретического распределения полагается равным k – 1, где k – число значений исследуемой переменной. Эмпирическое правило говорит о том, что некорректно применять критерий, если ожидаемые частоты меньше 5, поскольку его распределение в этом случае не будет близко к теоретическому. Но использование точных методов вычисления значимости (метод Монте-Карло) позволяет избежать этого ограничения. Пример. Пусть согласно статистическим данным 30 % трудоспособного населения имеет возраст до 30 лет, 30 % от 30 до 40 лет и 40 % свыше 40 лет. Соответствует ли выборочное распределение признака «возраст» в обследовании «Курильские острова» распределению возраста в генеральной совокупности? RECODE v9 (1 THR 30 = 1)(31 THR 40 = 2)(41 THRU HI = 3) INTO w9. NPAR TESTS /CHISQUARE = W9 /EXPECTED 3 3 4. Подкоманда /CHISQUARE задает тестируемую переменную; в подкоманде /EXPECTED задаем через пробел ожидаемые пропорции распределения. Выполнение этих команд позволяет получить значение критерия и оценить степень соответствия нашей выборки распределению генеральной совокупности (табл. 5.1, 5.2). Таблица5. 1 Наблюдаемые и ожидаемые частоты
Таблица5. 2 Статистика хи-квадрат
Анализируя табл. 5.1, уже по отклонениям расчетных значений от ожидаемых (см. столбец Residual), видим, что эмпирическое распределение сильно отличается от теоретического. Достаточно высокое значение критерия (Chi-Square = 8,333, табл. 5.2) малоинформативно. Ответ о совпадении нашего распределения с теоретическим заключен в анализе наблюдаемого уровня значимости. Его малая величина (Asymp. Sig. = 0,016) показывает, что полученные отклонения значимы: вероятность получить большие значения хи-квадрат равна 1,6 %, гипотеза о соответствии выборки указанной генеральной совокупности может быть отвергнута на уровне значимости 5 %. Таким образом, для данного случая тест показал существенное различие теоретического и эмпирического распределений. Приведем пример применения метода статистического моделирования Монте-Карло. В этом примере производится 100 000 экспериментов по моделированию выборки из генеральной совокупности с заданными вероятностями (p 1=0,3, p 2=0,3, p 3=0,4): NPAR TEST /CHISQUARE = w9 /EXPECTED = 3 3 4 Естественно, при такой большой выборке был получен тот же результат (табл. 5.3). Уровень значимости оценивается этим методом приближенно, на основании статистических экспериментов – чем больше экспериментов, тем точнее. Поскольку оценка значимости получена на основе случайных экспериментов, выдается доверительный интервал для уровня значимости (99 %-й по умолчанию). Точечная оценка наблюдаемого уровня значимости (Monte Carlo Sig) совпадает с асимптотической оценкой (Asymp. Sig., табл. 5.3), «оптимистическая» нижняя граница равна 0,015, «пессимистическая» верхняя – 0,017. Таким образом, во всех отношениях отклонение распределения значимо. Таблица5. 3 Значимость критерия хи-квадрат
|