Проверка статистических гипотез о равенстве средних. При ис-
следовании часто возникает вопрос о сравнении центров распределения двух или более случайных величин. Здесь важно выяснить,
являются ли полученные статистические оценки математического
ожидания по разным выборкам оценкой одного и того же математического ожидания для определенного закона распределения F (х).
При проверке гипотез о равенстве средних вначале необходимо
проверить гипотезу о независимости одинаково нормально распре-
деленных случайных величин в выборке (х1, х2,..., хn) при неизвес-
тных параметрах М (х) и D(x). Выборку записывают в том же порядке, в каком записывались результаты наблюдений, например, (42,
63, 23, 47, 52, 98, 97, 73, 85, 88). По имеющейся выборке вычисляем D(x) двумя способами:
Определяют статистику q = d2/2S2
Гипотеза о независимости случайных величин Н 0принимается
если
q ≥ qn(α),
где q(α) — табличное значение статистики q при объеме выборки n и
уровне значимости α(см. табл. 2.7) принимаем α = 0,010 тогда q 10 = 0 3759.
При уровне значимости α = 0,01 гипотеза о независимости Н 0
принимается, это говорит о том, что наблюдения имеют систематический сдвиг математических ожиданий.
Если принять, α= 0,05, то q 10(0,05) = 0,5311,
тогда Q =0,468< q10 (0,05) = 0,5311.
В этом случае гипотеза Н 0отвергается и принимается гипотеза о
зависимости результатов наблюдений Н 1т.е. наблюдения не соде-
ржат систематического сдвига математических ожиданий.
При n >60 для вычисления qn(α) используется формула
где n — объем выборки;
иα - критерий, определяемый при заданном α, как F (uα)=1- α,
и определяется по таблице (см. приложение 1).
Гипотеза Н0 онезависимости случайных величин принимается
при условии
q ≥ qn2(α).
Проверка гипотез о равенстве средних в зависимости от условий проводится по разным критериям. Рассмотрим их.
Таблица 2. 7
Значения q-статистики
n
| α;
| qn (α;)
|
| 0,001 0,010 - 0,050
| 0,2080 0,2690 0,4102
|
| 0,001 0,010 0,050
| 0,2408 0,3759 0,5311
|
| 0,001 0,010 0,050
| 0,3926 0,5203 0,6498
|
| 0,001 0,010 0,050
| 0,4822 0,5975 0,7091
|
| 0,001 0,010 0,050
| 0,5425 0,6467 0,7461
|
| 0,001 0,010 0,050
| 0,5853 0,6814 0,7718
|
| 0,001 0,010 0,050
| - - 0,7906
|
1. Проверка гипотезы о равенстве средних двух выборок, сделанных из нормально распределенной совокупности с известной
величиной дисперсии D(х) и D(y), при nx>30 и ny>30 осуществляется сравнением статистики z b равной
и критического значения zα, определяемого как
где а — уровень значимости;
zα — значение, определяемое по таблицам (см. приложение 1) при
и= zα.
Гипотеза Н0 оравенстве средних принимается, если | z b|<zα. В
противном случае, когда | z b| > zα гипотеза Н0 отвергается и прини-
мается гипотеза Н 1отом, что средние нельзя считать равными т.е.
выборки nx и ny сделаны из разных генеральных совокупностей.
Пример. При испытании двух типов фильтров для очистки
воздуха в объемах nx= ny = 50 штук получено среднее значение
чистоты воздуха х = 92%, у = 96%. Проверить, является ли рас-
хождение значений х и у случайными, если известны D(x)= 0,09%;
D(y) = 0,04%.
Решение. Выдвигаем гипотезу Н0: М (х) = М (у). Определяем
статистику
При уровне значимости, а = 0,05, находим:
По таблице (см. приложение 1) находим и =za и za = 1,96.
Сравниваем zb = 8 >za = 1,96. Следовательно, гипотеза Н 0отвергается, так как имеются качественные различия между двумя
типами фильтров.
2. При малых объемах выборок: n x < 30, n y< 30, по которым
найдены и и выборочные дисперсии S x2 и S y2 гипотезу Н0: М(х) =М(у) проверяют вычислением статистики при альтерна-
тивной гипотезе Н 1: М(х) w М(у).
Гипотеза Н0 принимается при условии | Тb| < ta,k, где ta,k — табличное значение критерия Стьюдента при заданном уровне значи-
мости а и числе степеней свободы K = n x+ny-2 (см. приложение 2).
При | Тb| < ta,k гипотеза Н0 отклоняется и принимается альтернативная гипотеза Н 1:М(х) w М(у).
Пример. При исследовании местности случайным образом были
отобраны 16 участков (nx=16) и установлено среднее число пораженных болезнью растений = 350 с дисперсией =16. Проверить, является ли расхождение среднего числа пораженных растений случайным или же болезнь пошла на убыль.
Решение. Выдвигаем гипотезу Н;. М(х) = М(у) при уровне
значимости а = 0,05 и определяем статистику Тb
По таблицам (см. приложение 2) находим
T0.05;16+20-2=t0.05;34 = 2.03.
Сравниваем Т =1,188 < 10.05;34=2,03.
Следовательно, принимаем гипотезу Н 0: М (x) = M (у), т.е. различие в среднем числе пораженных растений, измеренном в различные моменты времени, в данном случае объясняется случайностью
выборок.
3. Если выборка объемом n сделана из генеральной совокупно-
сти нормально распределенных величин х сизвестными М(х) = аk,
D(x) = а2, то при уровне значимости а можно проверить гипотезу
Н 0: a = a0 — предполагаемое значение математического ож
идания. Предложение о величине а оделается либо по результатам
выборки n, либо по имеющейся априорной информации о генеральной совокупности.
Для проверки гипотезы Н0: а=а 0
вычисляется статистика иb при конкурирующей гипотезе Н 1:a ≠ а о
Критическое значение и αопределяется по таблице (см. приложение 1) по заданному значению , как
Гипотеза Н0 принимается при условии
альтернативная гипотеза Н 1: а ≠ а0 принимается при условии
Пример. Разработанная схема очистки промышленных стоков
дает экономический эффект 88 руб. с 1т при среднем квадратическом отклонении
=5 руб./т. Обследовано сто очистных сооружений
(n =100) и определен средний экономический эффект = 90 руб./т.
Требуется при уровне значимости = 0,05 проверить гипотезу
Н0: а ≠ а0.
Р е ш е н и е. Определяем статистику иb
По таблице (см. приложение 1) находим иa
откуда u 0,05 = 1,96. Сравниваем ub = 4 > u 0,05 = 1,96.
Следовательно, гипотеза Н0: а = а0 отклоняется, т.е. выбороч-
ное и гипотетическое среднее различаются значимо.
4. При неизвестной дисперсии D(x) проверка гипотезы
Н 0: а ≠ а0, при конкурирующей гипотезе Н 1: а ≠ а0 проводится с
помощью статистики
где и S 2 — соответственно выборочные средние и дисперсия.
Критические значения статистики ta,k при заданном уровне значимости а и числе степеней свободы k = n - 1 выбирается по таблице (см. приложение 2).
Если Т b < ta,k, то тогда принимается гипотеза Н 0, при Тb > ta,k
гипотеза Н 0отклоняется и принимается гипотеза Н 1.
5. Имеется k выборок (k >2) из нормальных генеральных совокупностей с равными, но неизвестными дисперсиями. Необходимо
проверить гипотезу оравенстве средних Н0: а1 =а2 =... =аk при заданном уровне значимости α. Альтернативная гипотеза Н 1гово-
рит отом, что средние различны.
Для проверки гипотезы Н 0вычисляем статистику
где
Гипотеза Н0 принимается при
и отвергается при
где —табличное значение критерия при уровне значимости α и степенях свободы р1 = k — 1; р2 = n — k которое выбирается по таблице
(см. приложение 6).
Пример. Имеется три выборки (k = 3), n 1 = 3, n2 =4, n 4 = 5 (n =12).
Вычисленное значение Fb = 0,43.
Решение. При α; =0,05: р1= 3 - 1= 2; р2 = 12 - 3 = 9;
F 1-0,05;2,9 = 4,26. Тогда F b = 0,43 < F1-0,05;2,9 = 4,26, т.е. гипотеза о равенстве средних должна быть принята.
Проверка статистических гипотез о равенстве дисперсии. Дисперсии играют в экологии очень важную роль, поскольку измеряемая
дисперсией величина рассеивания характеризует такие важные показатели, как колебание точности тех или иных технологических процессов, например, зараженности различных участков местности, загрязненности участков водоемов и т.д. Средняя величина как бы сглаживает эти колебания, а дисперсия их выявляет.
Для проверки гипотез о равенстве дисперсий в различных генеральных совокупностях по независимым выборкам необходимо знать
такую функцию статистических оценок, распределение которой не
зависело бы от каких-либо неизвестных параметров.
Предположим, что независимые случайные величины х1, х2,..., хn 1,
распределены по закону F(x) с параметрами М(х) и D(x), которые
известны. Имеются также независимые нормально распределенные
F(y) случайные величины у1, у2,..., уn1 параметры M(y) и D(y) кото-
рых также известны. Нужно проверить гипотезу Н 0:оравенстве D (x) =D (y), предполагая, что эти два множества Х и У независимы.
При малых и средних объемах выборок для проверки гипотезы
Н0: D(x) = D(y) используется статистика
где и — дисперсии, определяемые по выборкам nx и ny, причем в
числитель ставится большая из двух дисперсий и .
Выборочное значение Fb сравнивается с критерием Фишера
при заданном уровне значимости α и числах степеней свободы
k 1 = n x - 1; k2 = ny - 1. Справедливость гипотезы Н 0подтверждается при условии
F b ≤
значение определяется по таблице (см. приложение 6).
При Fb > гипотеза Н 0отвергается и принимается аль-
тернативная гипотеза Н 1: D(x) ≠ D(y).
Пример. Для проверки точности дозировки двух автоматов при
упаковке химического вещества отобраны от первого автомата 21
проба (nx = 21), от второго — 15 (ny = 15). По отобранным пробам
, определены выборочные среднеквадратические отклонения в дозировке Sx = 20г, Sy = 15г. Проверить гипотезу о том, что автоматы
имеют одинаковую точность, т.е. Н 0: D(x) = D(y), при уровне зна-
чимости α = 0,10 и конкурирующей гипотезе Н 1: D(x) ≠ D(y).
Решение. Вычисляем выборочную статистику
=
По уровню значимости, а = 0,10 и числу степеней свободы
k3 = nx — 1;
kM= ny — 1, т.е. k3 = 14; kM= 20 находим по таблице
F 1-a/2;14,20 = 2,23 (см. приложение 6). Сравниваем
F b = 3,06 > F 1-a/2;14,20 = 2,23.
Следовательно, гипотезу Н 0оравной точности автоматов отвергаем, так как разницу в дозировке химического вещества нельзя
объяснить случайностью.
При больших объемах выборки статистику F b можно определять по формуле:
где .
При проверке гипотезы Н о: D(x) = D(y) сравнивают F' b и
U1-a/2, где — уровень значимости; U1-a/2 — квантиль уровня
(1 — а/2) стандартного нормального распределения (см. приложение 1).
При F' b < U1-a/2,
где Ф(U1-a/2) = 1 — а/2 и х = U1-a/2, гипотеза Н 0
принимается, в противном случае, когда F' b ≤ U1-a/2, Н 0отвергается и
принимается гипотеза Н 1: D(x) ≠ D(y).
Если взята одна выборка n из генеральной совокупности, для
которой предполагаемое значение дисперсии равно , хотя сама
дисперсия D(x) неизвестна, то можно проверить при заданном уров-
не значимости гипотезу Н 0: D(x) = , при альтернативной гипоте-
зе Н 1: D(x) ≠ . Для проверки гипотезы Но определяют статистику
где S2 — выборочная дисперсия;
— гипотетическая дисперсия.
Гипотеза Н 0принимается, если удовлетворяется условие
;
в противном случае принимается альтернативная гипотеза Н 1,где k — число степеней свободы, k = n — 1.
Критерий Пирсона и принимается по таблице
(см. приложение 3).
Пример. Для проверки правильности высева семян взяты 20
участков. Отклонение от нормы высева оценивалось среднеквадратическим отклонением числа семян на участке, оно составило S =16
семян. Требуется при заданном уровне значимости а = 0,1 прове-
рить нулевую гипотезу Н о: D(x) = , при норме = 225. Конку-
рирующая гипотеза Н 1: D(x) ≠ .
Р е ш е н и е. Определяем — статистику
При = 0,10 и k = 20 — 1 =19 определяем по таблице (см.
приложение 3)
Записываем условие
,
т.е. принимается гипотеза Н 1: D(x) = . Это означает, что сеялка
настроена правильно в соответствии с заданной нормой и точностью высева.
Если исследуется нормально распределенные совокупности
х1, х2,..., хp, из которых извлечены независимые выборки n1, n2,...,
np различных объемов, для которых определены дисперсии , ,
..., , то при заданном уровне значимости можно проверить гипотезу Н 0: D (x1) = D (x2) =... = D (хp)по критерию Бартлетта. Для этого определяют статистику
где
Величина является оценкой генеральной дисперсии D (x).
Гипотеза Н 0 принимается при условии
;
где k — число степеней свободы, k = р - 1; величина принимается
по таблице (см. приложение 3).
Критерий Бартлетта очень чувствителен к отклонениям от нормального распределения выборочных совокупностей. Если выборки равны n 1, n 2,..., np, то для проверки гипотезы
Н0: D (x1) = D (x 2) =... = D (xp) используют критерий Кохрена (Кочрена). Для проверки гипотезы Н0 вычисляют статистику
где — максимальная дисперсия из р дисперсий, т.е.
Полученное значение G b сравнивают с критическим значением
, k = n - 1; n — объем одной выборки. Гипотеза Н 0 принимается при условии
в противном случае принимается гипотеза Н 1: D(x 1) ≠ D(x 2) ≠... ≠ D(xp).
Значение принимается по таблице (см. приложение 7).
Пример. На 17 предприятиях региона в течение семи месяцев изучалась загрязненность промышленных стоков. Вычисленные эмпирические дисперсии для каждого из этих месяцев оказались равными: 0,067; 0,136; 0,168; 0,068; 0,066; 0,102; 0,107. Необходимо проверить гипотезу Н 0 об отсутствии существенного различия в загрязненности промышленных стоков за семь месяцев.
Решение. Вычисляем статистику
При уровне значимости = 0,05; р =7; k =17 — 1 =16;
F1-0,05;7;16= 0,27 (см. приложение 7). Тогда
G b = 0,235 < F1-0,05;7;16 = 0,27,
т.е. гипотеза H 0 об отсутствии существенного различия в загрязненности промышленных стоков в течение семи месяцев принимается.
Проверка статистических гипотез об однородности выборок. Для проверки однородности независимых выборок (х1, х2,..., хp) и (у1, у2,..., уn2) случайных величин х и у выдвигаем нулевую гипотезу H 0 о равенстве функций распределения H 0: F (x) = F (y), при уровне значимости и конкурирующей гипотезе Н 1: F (x) ≠ F (y). Если объем каждой из выборок не превосходит 25, проверку гипотезы H 0 проводят с помощью статистики W b. Для определения W b статистики располагают варианты обеих выборок в возрастающем порядке (табл. 2.8). Например, для выборок n x: 3, 4, 6, 10, 13, 17 и ny: 1, 2, 5, 7, 16, 20, 22 общий ряд будет иметь вид
Таблица 2.8
Определение вариантов выборок
Порядковый номер
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Значение
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Варианты
| y1
| y2
| х1
| х2
| y3
| x3
| y4
| x4
| x5
| y5
| x6
| y6
| y7
|
Определяем сумму порядковых номеров варианта выборки n x:
3+4+6+ 8+9+ 11=41.
Эта сумма принимается в качестве статистики Wb ( x ) = 41.
Для проверки гипотезы H о используется условие:
W н.к < W b(x) < W в.к
где W н.к и W в.к — нижнее (н.к) и верхнее (в.к) критические значения
критерия Вилкоксона (Уилкоксона). При заданном значении уровня значимости и объемах выборок n x и n y величина W н.к. определяется по таблице (см. приложение 8). Для нашего примера при = 0,01, n x = 6, n y = 7, величина
W н.к =
Если объем хотя бы одной из выборок превышает величину 25, значение W н.к определяется по формуле
где zкр определяется из условия по таблице (см. приложение 1).
x = zкр
Верхнее критическое значение величины W в.к во всех случаях
определяется по формуле
W в.к = (n x + n y +1) n x - W н.к.
Для нашего примера
W в.к = (6 +7 +1)6 — 24 = 60.
Тогда условие принятия гипотезы Н 0: F (x) = F (y) и
W н.к = 24 < W b(x) < W в.к = 60
соблюдается. Следовательно, можно считать, что выборки n x и n y принадлежат одной генеральной совокупности, т.е. выборки однородны. Проверка статистических гипотез о виде распределения случайных величин. При построении математической модели исследуемых процессов часто возникают задачи сопоставления полученного материала экспериментов с известными теоретическими распределениями. Если сопоставить вероятность попадания в интервалы, на которые разбита выборка, с соответствующими частотам и, полученными из наблюдений, или проводить графическое сравнение полигонов и гистограмм с некоторой теоретической функцией распределения, то можно получить представление о степени близости теоретического и эмпирического распределений. Наиболее широко для проверки статистических гипотез о сходимости теоретического и эмпирического распределения используется
критерий Пирсона ( — хи-квадрат). Рассмотрим его применение.
Пусть вся область изменения случайной величины х разбита на конечное число k (i = 1, 2,..., k) интервалов (в случае непрерывной величины) или групп (для дискретных величин). Например, в статистический ряд, полученный в результате эксперимента (табл. 2.9).
Таблица 2.9
Статистический ряд, полученный в результате эксперимента
Значение величины х i
| x 1
| x 2
| …
| x i
| …
| x k
|
Частота mi
| m 1
| m2
| …
| mi
| ….
| mk
|
Пусть Рi есть вероятность для х при заданном распределении
F (x) принять значение, принадлежащее i -тому интервалу. Тогда те-
оретическое значение частоты в этом интервале будет определяться,
как mi,T = рin, где п — объем выборки.
Очевидно, что должны выполняться условия
; .
Если проверяемая гипотеза H 0: F (x) = F 0(x) где F 0(x) — предпо-
лагаемое теоретическое распределение, из которого извлечена вы-
борка, верна, то опытные значения тi и теоретические тi,T не должны значительно отличаться друг от друга, т.е. их расхождение не
должно быть большим.
В качестве меры расхождения рассматривается статистика ,
равная
При проверке гипотезы Н 0статистика сравнивается при заданном уровне значимости с табличным значением
При условии < , где (k - 1) — число степеней свободы,
гипотеза Н 0 принимается. В случае, если ≥ , гипотеза Н 0
отвергается и принимается альтернативная гипотеза Н 1: F(x) ≠ F 0(x).
При проверке гипотез о виде распределения с помощью критерия Пирсона следует учитывать некоторые условия и допущения,
влияющие на полученный результат.
1) Если гипотеза Н0 подтверждается, то это означает лишь су-
ществование некоторой функции F 1(х), которая приводит к тем же
значениям р i что и проверяемая функция F 0(x).
2) Рекомендуется число интервалов брать не менее 8 с количеством вариантов в интервале не менее 8, кроме крайних интервалов, в которых число вариантов может быть меньше 8.
Пример. Используя критерий Пирсона при уровне значимости
α = 0,05 проверить, согласуется ли гипотеза Н 0онормальном рас-
пределении генеральной совокупности х с эмпирическим распреде
лением выборки объема n = 200 (табл. 2.10).
Таблица 2.10
Выборка из генеральной совокупности
Решение. По выборке определяем и S2.
.
Составляем статистическую таблицу (табл. 2.11). Для столбца
четыре вычисляем статистику
иi = (xi - ) /S.
Например,
иi =
= -1,62 и т.д.
По статистике иi находим р i по таблицам для нормального
распределения (см. приложение 9).
pi = φ;(u i).
Например,
pi = φ;(u1) = φ;(-1,62) = 0,1074 и т.д.
Теоретическую частоту вычисляем с учетом ширины интервала
результатов наблюдения n = хi+1 - хi = 2 по формуле
тi,T = nh φ;(иi) /S.
Например, для х 1
mi,T = = 9,15 и т.д.
Таблица 2.11
Статистическая таблица
Номер
| Частота mi
| Статистика
ui
| Вероятность
pi
| Теорети- ческая частота mi,т
| Относительная разность частот
|
интервала
| варианта
xi
|
|
|
|
| 5
|
|
|
|
|
| — 1,62
| 0,1074
| 9,15
| 3,74
|
| 7
|
| — 1,20
| 0,1942
| 16,55
| 5,39
|
|
|
| — 0,77
| 0,2966
| 25,27
| 0,01
|
5
|
|
| — 0,35
| 0,3752
| 32,00
| 0,13
|
|
|
| 0,08
| 0,3977
| 33,90
| 0,23
|
|
|
| 0,51
| 0,3503
| 29,85
| 2,62
|
|
|
| 0,93
| 0,2589
| 22,05
| 0,17
|
|
|
| 1,36
| 0,1582
| 13,50
| 3,13
|
|
|
| 1,78
| 0,0818
| 7,0
| 5,14
|
|
| -
| -
| 189,27
| 20,56
|
и заполняем столбец 7, в котором определяем относительную разность частот
например, = =3,74 и т.д.
Суммируя по всем интервалам, получим:
Потаблице (см. приложение 3) находим
= 12,6
Так как
,
то гипотезу Н 0онормальном распределении генеральной совокуп-
ности отвергаем, т.е. эмпирические и теоретические частоты разли-
чаются значимо.
назад