Точные методы оценки значимости
Что же делать, когда количество наблюдений не позволяет воспользоваться аппроксимацией распределения статистики CHISQ распределением хи-квадрат (больше 20 % клеток имеют Eij <5)? В действительности аппроксимация необходима лишь для того, чтобы можно было вычислить наблюдаемую значимость, т. е. вероятность P { CHISQ . > CHISQ выбороч. }. То же касается и значимости коэффициентов CTAU, BTAU. Современная вычислительная техника позволяет во многих случаях обойтись без использования аппроксимации, вычислить вероятности за счет имитации сбора данных в условиях их независимости (метод Монте-Карло) или воспользовавшись непосредственным вычислением вероятности. Во многих процедурах SPSS, в том числе и в CROSSTABS, реализованы метод Монте - Карло и метод прямого вычисления вероятностей. В методе Монте - Карло проводятся компьютерные эксперименты, в которых многократно случайно перемешиваются данные. В каждом эксперименте вычисляется значение статистики значимости и сравнивается с В методе прямого вычисления рассматривается обобщение гипергеометрического распределения для таблицы сопряженности. Процедура весьма трудоемка и имеет смысл для небольших данных. Заранее задается время счета, и, если программа не успела справиться с вычислениями, выдается результат, полученный на основе аппроксимаций. Метод Монте-Карло практически всегда позволяет получить оценку значимости за реальное время, но с определенной точностью. Метод прямого вычисления определяет вероятность точно, но расчеты требуют слишком много времени. В диалоговом окне CROSSTABS (как, впрочем, и в окнах для других непараметрических процедур) указанные методы включаются с помощью кнопки Exact. Пример. Решается вопрос, как связаны «Точка зрения на иностранную помощь» и «Возможность удовлетворить территориальные требований Японии» на выборке, ограниченной жителями Дальнего Востока (276 наблюдений). Для решения используется CROSSTABS /TABLES = v4 BY v1 /STATISTIC = CHISQ /CELLS = COUNT Row Col /METHOD = MC CIN(99) SAMPLES(10000). Параметры последней подкоманды «/METHOD = MC CIN(99) SAMPLES(10000)» говорят о том, что значимость оценивается методом Монте-Карло (MC), будет получен 99 %-й доверительный интервал для оценки наболюдаемой значимости (CIN(99)) с использованием 10 000 экспериментов (SAMPLES(10000)). В результате получаем табл. 3.8, в которой размещены значимости всех исследуемых статистик. Исследуемые в эксперименте статистики включают дополнительно обобщение точного теста Фишера (Fisher's Exact Test). Статистика для этого теста имеет вид FI =–2 log (g P), где g –константа, зависящая от итоговых частот таблицы, а P – вероятность получить наблюдаемую таблицу в условиях независимости переменных. Статистика FI также имеет асимптотическое распределение хи-квадрат (в условиях гипотезы независимости). Следует заметить, что значимость, вычисленная на основе аппроксимации, выглядит значительно оптимистичнее с точки зрения обнаружения связи, чем при прямых вычислениях, да это и не мудрено – доля клеток, в которых ожидаемая частота меньше 5, равна 56,3 %, а минимальная ожидаемая частота равна 0,47. Опыт показывает, что точный тест на основе прямого вычисления вероятности требует больших затрат времени. Для нашей задачи оказалось недостаточно 25 мин. на персональном компьютере с процессором 200 mhz. Таблица3. 8 Хи-квадрат тесты, оценка значимости методом Монте-Карло
a 9 cells (56,3 %) have expected count less than 5. The minimum expected count is.47. 3.3. Сложные табличные отчеты. Получить сложные многоуровневые таблицы, содержащие описательные статистики по числовым переменным, можно, используя раздел меню Custom Tables. Этот раздел соответствует в языке программирования команде TABLES. Синтаксис этой команды весьма сложен, и при «ручном» наборе команды TABLES можно легко ошибиться. Поэтому здесь мы не будем даже пытаться знакомить читателя с ее текстовым заданием и рекомедуем при написании использовать преимущества диалога. Хотя раздел меню состоит из четырех команд: Basic Tables, General Tables, Multiple Responcse Tables и Tables of Frequencies, мы не будем описывать все тонкости работы с этими командами, покажем лишь принципиально новые возможности по сравнению с CROSSTABS. Ячейки таблицы, получаемой с помощью Basic Tables, соответствуют комбинациям значений переменных. В этих ячейках могут располагаться частоты, всевозможные проценты, средние по количественным переменным. Например, можно вычислить средние возраст и доход при различных сочетаниях пола, семейного положения и образования. Всего в диалоговом окне может быть задано около 30 статистик. Но нет ни одной статистики, по которой можно было бы проверить значимость связи переменных и значимость различия средних в группах. Недоступны для обработки и неальтернативные вопросы. Команда Tables of Frequencies по сути объединяет в одну таблицу множество одномерных распределений одних переменных в группах по комбинациям значений других переменных и выдает только самые простые статистики – частоты и проценты. Мы предлагаем читателю самостоятельно разобраться с простыми командами Basic Tables и Tables of Frequencies, но подробно рассмотрим команду General Tables, имеющую принципиальное значение для анализа неальтернативных вопросов.
|