Предварительная обработка реализации выборки
Рассмотрим основные понятия, связанные с реализацией выборки. Пусть имеется реализация выборки объёма n. Если упорядочить значения по возрастанию, то полученная цепочка чисел называется вариационным рядом. Пусть xi – элемент вариационного ряда. Тогда число повторений этого элемента в реализации выборки называется частотой выборочного значения xi и обозначается ni. Величина называется относительной частотой значения xi. Выделим очевидные равенства: , . (2) Пусть x 1, x 2, …, xm – все различные значения вариационного ряда, упорядоченные по возрастанию. Таблица
называется статистическим рядом. Он в некотором смысле характеризует закон распределения г.с. Теперь предположим, что объём выборки большой. В этом случае строят так называемый интервальный (или группированный) статистический ряд. Рассмотрим реализацию выборки x 1, x 2, …, xn объёма n. Выбираем некоторый отрезок I (обычно это либо отрезок [min{ xi }, max{ xi }], либо чуть больший, чем он). Делим отрезок I точками z 0, z 1, …, zk на равные частичные промежутки D 1=[ z 0, z 1[, D 2= [ z 1 z 2[, …, Dk =[ zk –1 zk ]. Здесь z 0 и zk – начало и конец отрезка I соответственно. Частотой ni i -го промежутка Di называется число значений реализации выборки, попавших в Di (i =1, 2, …, k). Интервальным статистическим рядом называется таблица
Проверьте, что для частот и относительных частот выполняются равенства (2). Статистической (или эмпирической) функцией распределения называется . Теорема. Если F(x) – функция распределения г.с., то для любого действительного значения x и любого e > 0 выполняется равенство: . Смысл этой теоремы в том, что при больших объёмах выборки значения статистической функции распределения являются приближёнными значениями функции распределения, т.е. статистическая функция распределения является оценкой неизвестной функции распределения г.с. Для непрерывно распределённой г.с. наглядную оценку для плотности распределения даёт гистограмма относительных частот. Гистограмма относительных частот – это ступенчатая фигура, построенная следующим образом. На оси Ох откладываются частичные промежутки D 1, …, Dk. Над каждым из них строится прямоугольник с высотой n i / h, где h – длина частичного промежутка. Функция, график которой задаётся гистограммой относительных частот, также называется гистограммой относительных частот. Вычислим площадь фигуры, «ограниченной» гистограммой. . Это аналог свойства нормировки плотности распределения. Оказывается, что гистограмма относительной частоты равна приближённо неизвестной плотности непрерывно распределённой г.с., т.е. гистограмма даёт приближённо представление о виде плотности распределения г.с. Пример 1. Дан интервальный статистический ряд
Задание. Построить график статистической функции распределения и гистограмму относительных частот. Построить, соответственно, приближённые графики неизвестных функции и плотности распределения г.с. Объём выборки n = 100. Длина h частичного промежутка равна 2. Относительные частоты равны: n1=10/100=0.1, n2=32/100=0.32, n3=0.2, n4=0.24, n5=0.14. Вычислим значения статистической функции распределения: На рисунке 5 приведены график статистической функции распределения и приближённо график функции распределения.
Рис. 5. График статистической Рис. 6. График плотности и теоретической функции распределения: распределения: р (x) – плотность распределения F *(x) – статистическая функция распределения; F (x) – функция распределения Вычислим высоты прямоугольников гистограммы: 0.1/2=0.05, 0.32/2=0.16, 0.1, 0.12, 0.07. На рисунке 6 приведены гистограмма относительной частоты и приближённый график плотности. Основные понятия проверки статистических гипотез Во многих практических задачах реализации выборки применяются для проверки гипотез (предположений) о свойствах закона распределения генеральной совокупности. Статистической гипотезой называется предположение о параметрах, свойствах закона распределения генеральной совокупности. Пример 2. «Математическое ожидание г.с., распределённой по показательному закону, равно 10», «Г.с. имеет нормальный закон распределения» – статистические гипотезы. «Завтра будет снег», «Существуют внеземные цивилизации» – не являются статистическими гипотезами. В дальнейшем под гипотезой будем понимать исключительно статистические гипотезы. Гипотеза называется простой, если она однозначно определяет закон распределения г.с. В противном случае гипотеза называется сложной. В приведённых выше гипотезах первая – простая, потому что гипотеза определяет точно один показательный закон распределения с параметром l = 1/10. Вторая гипотеза является сложной, потому что она определяет бесконечно много нормальных законов распределения с разными математическими ожиданиями и дисперсиями. Параметрическими гипотезами называются гипотезы о параметрах распределения г.с. Например, первая из вышеприведённых гипотез является параметрической. Нулевой (или основной) гипотезой H 0 называется проверяемая ги-потеза. Альтернативной (или конкурирующей) гипотезой называется гипотеза, которая принимается в случае, когда основная гипотеза отвергается. Альтернативных гипотез у одной и той же основной гипотезы может быть несколько. Например, если принять за основную гипотезу «Математическое ожидание г.с. равно 10», то в качестве альтернативной могут быть: «Математическое ожидание г.с. меньше 10”, «Математическое ожидание г.с. равно 9». При проверке гипотез применяется некоторое правило. Критерием K проверки гипотез называется правило, по которому принимается или отвергается гипотеза H 0. Обычно в критерии участвует некоторая статистика Z=Z (X 1, …, Xn), по значению которой решается вопрос, принять или отвергнуть основную гипотезу. Z называется статистикой критерия. Общая схема критерия K выглядит следующим образом. Задаётся некоторая малая вероятность a(обычно a= 0.1, 0.05, 0.01), называемая уровнем значимости критерия. В основе критерия лежит принцип теории вероятностей: маловероятные события (события с вероятностью a) считать практически невозможными. Из области значений V статистики Z критерия выделяется подмножество Vk, такое, что условная вероятность события Z Î Vk при условии, что гипотеза H 0 верна, мала (равна a): P (Z Î V k / H 0 ) = a. Множество Vk называется критической областью. Пусть теперь по реализации выборки вычислено значение zв статистики критерия Z. Если zв Î Vk, то это означает, что произошло маловероятное событие. Тогда по приведённому выше принципу скорее всего неверна гипотеза H 0, и она должна быть отвергнута. Если zв Î V \ Vk, то гипотеза H 0 может быть принята. Множество V \ Vk называется областью принятия основной гипотезы. Рассмотрим критерий проверки параметрической гипотезы H0 : q = q 0 при альтернативной гипотезе H1: q < q0. Пусть p (z / H0 ) – плотность условного закона распределения статистики Z. За область принятия основной гипотезы принимается такой промежуток [z1, +¥), что P (Z ³ z1/H0 ) = 1– a, P (Z < z1/H0 ) = a (рис. 7). Из второго равенства видно, что z1= za – квантиль распределения статистики Z порядка a.
Таким образом, критической областью является промежуток (–¥, za), а областью принятия основной гипотезы – промежуток [ za, +¥). Критерий состоит в следующем. По реализации выборки из г.с. вычисляем значение zв статистики критерия Z. Вычисляется (по таблице) квантиль za. Если zв ³ za, то основная гипотеза q = q0 принимается. Если zв < za, то основная гипотеза q =q0 отвергается (принимается альтернативная гипотеза q < q0). Как видно, основная или альтернативная гипотезы принимаются или отвергаются с некоторой вероятностью. Это означает, что возможны ошибки при принятии того или иного решения. В теории проверки статистических гипотез различают ошибки первого и второго рода. Ошибкой первого рода называется вероятность отвергнуть правильную основную гипотезу, т.е. P (Z Î Vk / H 0 ) = a. Таким образом, уровень значимости совпадает с ошибкой первого рода. Ошибкой второго рода называется вероятность принять ошибочную основную гипотезу, т.е. P (Z Î V\Vk / H 1 )=b. 3. Критерий согласия Критерием согласия называют критерии проверки статистических гипотез о виде закона распределения г.с. Примером статистической гипотезы о виде закона распределения г.с. X является: «Г.с. X имеет нормальный (равномерный и т.д.) закон распределения». Такая гипотеза принимается за основную гипотезу H 0. Рассмотрим подробно эффективный критерий согласия Пир-сона . Пусть проверяется гипотеза «Г.с. X имеет гипотетическую функцию распределения », где – неизвестные параметры распределения, вид функции F известен, l ³ 1. Рассмотрим случай непрерывного распределения. На первом этапе по реализации выборки объёма n строится интервальный статистический ряд с k = [1+3.32 lg n ] +1 частичными промежутками (см. п. 1). Пусть получены равные промежутки с границами в точках . Рассмотрим промежутки: . (3) Пусть по выборке найдены точечные оценки неизвестных параметров (методом максимального правдоподобия). Тогда при помощи гипотетической функции распределения можно найти вероятности (4) . Известно, что при достаточно больших значениях объёма выборки n случайная величина (5) имеет распределение, близкое к распределению (хи- квадрат) со степенью свободы s = k– l – 1, где k – число интервалов, l – число неизвестных параметров, заменённых их точечными оценками, mi – частота i -го интервала. Если основная гипотеза верна, то величина npi будет близка к частоте ni, т.е. сумма будет мала. В качестве статистики критерия выбирается случайная величина . Тогда при заданном уровне значимости a основная гипотеза отвергается, когда . Это равенство эквивалентно . А это означает, что – квантиль распределения порядка 1–a со степенью свободы s = k– l – 1. Таким образом, если выборочное значение статистики окажется меньше квантили , то основная гипотеза принимается. Сформулируем кратко критерий проверки гипотезы о виде закона распределения г.с. 1) По данной реализации выборки построить интервальный статистический ряд, найти промежутки (3). 2) Вычислить по реализации выборки точечные оценки неизвестных параметров . 3) Вычислить величины npi (i = 1, …, k) по формулам (4). Проверить выполнение условий npi ³ 5. Если для некоторых интервалов это условие нарушается, то этот интервал объединяется с соседним (при этом складываются вероятности pi и частоты этих интервалов). Эта процедура продолжается до тех пор, пока для всех интервалов не будет выполняться условие npi ³ 5. 4) По формуле (5) вычислить выборочное значение статистики . 5) По таблице найти квантиль распределения порядка 1– a со степенью свободы s = k– l – 1, где k – число интервалов после пересчёта в пункте 3, l – число неизвестных параметров, заменённых их точечными оценками в пункте 2. 6) Если < , то основная гипотеза принимается на уровне значимости a; если ³ , то основная гипотеза отвергается.
|