КРИТЕРИЙ ПИРСОНА
Рассмотрим один из наиболее часто применяемых критериев согласия – так называемый критерий c2 (критерий Пирсона). Пусть требуется проверить, согласуются ли экспериментальные данные статистического ряда (табл.1.1.) с гипотезой о том, что СВ Х имеет данный закон распределения, соответствующий выбранной нами теоретической функции распределения F(x) или плотности распределения вероятности f(x). Зная теоретический закон распределения, можно найти теоретические вероятности попадания СВ в каждый из интервалов: . Для проверки согласованности теоретического и статистического распределений, исходим из расхождений между теоретическими вероятностями и наблюденными частотами . Представляется естественным выбрать в качестве меры расхождения сумму квадратов отклонений ( - ), взятых с некоторыми «весами» : Веса интервалов вводятся потому, что отклонения, относящиеся к различным интервалам, нельзя считать равноправными по значимости. Действительно, одно и то же по абсолютной величине отклонение может быть мало значительным, если сама вероятность велика, и очень заметным, если она мала. Поэтому веса берутся обратно пропорционально вероятностям интервалов . Но как же все-таки выбирать веса? К.Пирсон показал, что если их выбирать по формуле , то при больших n закон распределения величины U обладает простыми свойствами: он практически не зависит от теоретической функции распределения F(x) и от числа опытов n, а зависит только от числа интервалов , и при увеличении n приближается к так называемому распределению c2. При таком способе выбора коэффициентов мера расхождения обычно обозначается c2: , где , - число значений в -ом интервале. Распределение c2 зависит от параметра , называемого числом степеней свободы распределения. Оно равно числу интервалов минус число независимых условий (связей), наложенных на частоты . Примерами таких условий могут быть = 1. Это условие накладывается всегда, следовательно, во всех случаях, при любых критериях от числа интервалов надо отнимать единицу. Если мы требуем, чтобы совпадали теоретические и статистические средние значения и дисперсии распределений, то необходимо, чтобы выполнялись условия , . Для определения числа степеней свободы можно записать следующее выражение , где - количество параметров в теоретическом распределении, на соответствие (согласие) которому проверяется эмпирическое распределение (статистический ряд). Нормальный закон имеет два таких параметра: математическое ожидание и дисперсию, следовательно, у него . Для распределения c2 составлены специальные таблицы (табл.П.1.2). Если бы выбранное теоретическое распределение F(x) для всех столбцов совпадало с экспериментальными данными, то все разностей были бы равны нулю, а следовательно, и значение критерия c2 также было бы равно нулю. Таким образом, c2 есть мера суммарного отклонения между теоретическим и экспериментальным распределением. Если вычисленная по опытным данным мера расхождения c2 меньше определенного по табл.П.1.2 значения для заданной вероятности Р, то гипотеза о совпадении экспериментального и выбранного теоретического распределения принимается. Это не значит, что гипотеза верна. Можно лишь утверждать, что она правдоподобна, то есть не противоречит опытным данным. Если же c2 больше значения , то гипотеза отвергается как противоречащая опытным данным. Данные соображения применимы в тех случаях, когда количество опытов n достаточно велико, больше 50, при этом достаточно большим должно быть не только общее число опытов, но и число наблюдений в отдельных интервалах. На практике рекомендуется иметь в каждом интервале не менее 5-10 наблюдений. Если количество наблюдений в некоторых интервалах очень малы (1¸ 2), то их объединяют между собой или с соседними интервалами так, чтобы количество наблюдений в интервале было не менее 5. С учетом вышеизложенного схема применения критерия c2 к оценке согласованности теоретического и статистического распределений сводится к следующему: 1. Определяются оценки среднего арифметического значения и среднего квадратического отклонения (СКО) s по формулам 2. Группируются результаты измерений (наблюдений) по интервалам длиной h, число которых определяют так же, как и при построении гистограммы. 3. Определяются границы интервалов . 4. Для каждого интервала находятся вероятности попадания в него наблюдений. Если в качестве теоретического используется нормальное распределение вероятностей СВ Х, то используются формулы. ,
где - функция Лапласа, определяемая по таблице П.1.3, при и . Для распределений, отличающихся от нормального, используются другие формулы. 5. Определяется количество наблюдений , попавших в каждый -й интервал. Если в какой-либо интервал попадает меньше 5 наблюдений, то его объединяют с соседним. 6. Заполняется таблица 1.2 на основе табл.1.1, используемой при построении статистического ряда (п.1.1.1). Таблица 1. 2.
Таблица расчета критерия согласия c2
7. Определяется мера расхождения c2 по ранее приведенной формуле. 8. Определяется число степеней свободы , и задается вероятность Р, которая обычно выбирается равной 0, 95 или 0, 9. 9. По числу степеней свободы и вероятности из табл.П.1.2 находится критическое значение . 10. Сравнивается рассчитанное c2 и критическое значение , найденное по таблице, если при этом c2 < , то гипотеза о соответствии выбранной теоретической функции распределения F(x) и статистической F*(x) с вероятностью Р принимается, и функцию F(x) можно использовать для описания статистического распределения, если c2 > , то гипотеза с вероятностью Р отвергается и выбранную теоретическую функцию распределения F(x) нельзя использовать для описания статистического распределения.
|