Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Решение. Условное математическое ожидание случайной величины




p(x1)=0.15+0.30=0.45, p(y1/x1 )= p(x1 ,y1 )/p(x1)=0.15/0.45=1/3,

p(y2/x1 )= p(x1 ,y2 )/p(x1)=0.30/0.45=2/3,

=> .

Условное математическое ожидание случайной величины при условии, что другая случайная величина приняла заданное значение, определяет число-точку, относительно которой группируются результаты конкретных испытаний над одной случайной величиной при условии, что в этом испытании (над двумерной случайной величиной XY) вторая случайная величина приняла заданное фиксированное значение. Условная дисперсия определяет степень концентрации результатов конкретных испытаний над одной случайной величиной относительно условного математического ожидания.

При решении практических задач условное математическое ожидание и условная дисперсия обычно используются, когда при проведении испытания над X и Y, имеется возможность измерять результаты испытания над одной случайной величиной, а измерение другой недоступно. Если условные дисперсии малы, то в качестве неизвестного значения не измеряемой случайной величины можно взять математическое ожидание.

 

§ 5. Закон больших чисел
Центральная предельная теорема

Закон больших чисел– общий принцип, в силу которого совместное действие случайных факторов приводит при некоторых общих условиях к результату, почти не зависящему от случая. Единичные явления в большей степени подвержены воздействию случайных и несущественных факторов, чем их масса в целом. При большом числе наблюдений случайные отклонения погашаются. Под законом больших чисел понимается ряд математических теорем, в которых устанавливаются факты приближения средних характеристик большого числа опытов к некоторым определенным постоянным.

Теорема Чебышева. Если Х1, Х2,…, Хп –независимые случайные величины, дисперсии которых равномерно ограничены (D(Xi) ≤ C), то для сколь угодно малого числа ε вероятность неравенства

будет сколь угодно близка к 1, если число случайных величин достаточно велико.

Вывод: среднее арифметическое достаточно большого числа случайных величин принимает значения, близкие к сумме их математических ожиданий, то есть утрачивает характер случайной величины. Например, если проводится серия измерений какой-либо физической величины, причем:

а) результат каждого измерения не зависит от результатов остальных, то есть все результаты представляют собой попарно независимые случайные величины;

б) измерения производятся без систематических ошибок (их математические ожидания равны между собой и равны истинному значению а измеряемой величины);

в) обеспечена определенная точность измерений, следовательно, дисперсии рассматриваемых случайных величин равномерно ограничены;

то при достаточно большом числе измерений их среднее арифметическое окажется сколь угодно близким к истинному значению измеряемой величины.

Теорема Чебышева дает одну из наиболее возможных форм закона больших чисел. Она устанавливает связь между средним арифметическим и ее математическим ожиданием наблюдаемых значений случайной величины. Доказательство этой теоремы основывается на неравенстве Чебышева:

P( | X – M(X)| ≤ ε ) > 1-D(X)/ε².

Пример.Для определения среднего дохода налогоплательщиков города налоговой инспекцией была проведена проверка 250 жителей этого города, отобранных случайным образом. Оценить вероятность того, что средний годовой доход жителей города отклонится от среднего арифметического годовых доходов выбранных 250 жителей не более чем на 1000 руб., если известно, что среднее квадратичное отклонение годового дохода не превышает 2500 руб.

Решение. Согласно неравенству Чебышева, которым можно пользоваться, поскольку все , получаем

.

Теорема Бернулли. Если в каждом из п независимых опытов вероятность р появления события А постоянна, то при достаточно большом числе испытаний вероятность того, что модуль отклонения относительной частоты появлений А в п опытах от р будет сколь угодно малым, как угодно близка к 1:

.

Замечание. Из теоремы Бернулли не следует, что . Речь идет лишь о вероятности того, что разность относительной частоты и вероятности по модулю может стать сколь угодно малой. Разница заключается в следующем: при обычной сходимости, рассматриваемой в математическом анализе, для всех п, начиная с некоторого значения, неравенство выполняется всегда; в нашем случае могут найтись такие значения п, при которых это неравенство неверно. Этот вид сходимости называют сходимостью по вероятности.

Рассмотрим справедливость этого утверждения на историческом примере. При бросании монеты и «герб», и «решка» имеют одинаковые шансы оказаться сверху, таким образом, вероятность выпадения «герба» равна ½ из соображений равновозможности. Французский естествоиспытатель XVIII века Бюффон бросил монету 4040 раз, «герб» выпал при этом 2048 раз. Частота появления «герба» в опыте Бюффона равна 0,507. Английский статистик К.Пирсон бросил монету 12000 раз и при этом наблюдал 6019 выпадений «герба» – частота 0,5016. В другой раз он бросил монету 24000 раз, «герб» выпал 12012 раз – частота 0,5005. Как видим, во всех этих случаях частоты лишь незначительно отличаются от теоретической вероятности 0,5.

Теорема Бернулли дает возможность связать математическое определение вероятности (по А.Н.Колмогорову) с определением ряда естествоиспытателей, согласно которому вероятность есть предел частоты в бесконечной последовательности испытаний.

Вопрос исследования вида предельного закона распределения суммы случайных величин рассмотрен в группе теорем, которые носят название центральной предельной теоремы (ЦПТ).Эти теоремы утверждают, что закон распределения суммы случайных величин, каждая из которых может иметь различные распределения, приближается к нормальному при достаточно большом числе слагаемых. Этим объясняется важность нормального закона для практических приложений.

Рассмотрим одну из наиболее общих форм центральной предельной теоремы:

Центральная предельная теорема. Пусть имеется взвешенная сумма независимых случайных непрерывных величин x1, x2, x3, …., xn с произвольными законами распределения:

,

где постоянные, фиксированные числа. Каждая i-ая случайная величина имеет и (i=1,2,3,…,n-1,n) => ,

.

Тогда при достаточно общих условиях распределения суммарной Yn при стремится к нормальному распределению .

Центральной предельной теоремой пользуются для приближённого вычисления вероятностей, связанных с суммами большого числа независимых и одинаково распределённых величин. Опыт показывает, что для суммы даже десяти и менее слагаемых закон их распределения можно заменить нормальным.

Частным случаем центральной предельной теоремы для дискретных случайных величин является теорема Муавра-Лапласа.


Элементы математической статистики

§ 1. Предмет математической статистики

Для решения задач, связанных с анализом информации при наличии фактора случайности, разработана совокупность методов, которая носит название математической статистики. Математическая статистика – это раздел математики, занимающийся разработкой методов сбора, регистрации, систематизации результатов многократных наблюдений с целью познания массовых явлений и процессов. Методы математической статистики позволяют анализировать результаты опытов (наблюдений) и на основе анализа строить оптимальные математико-статистические модели изучаемых явлений и процессов. Исследование математико-статистических моделей позволяет делать обоснованные выводы и прогнозы, решать задачи прогнозирования в различных сферах человеческой деятельности.

Математическая статистика возникла в 17 веке и развивалась параллельно с теорией вероятностей. Между основными понятиями в математической статистике и теории вероятностей существует тесная взаимосвязь, которая обосновывает практическую ценность теории вероятностей и подтверждает теоретическую основу математической статистики.

Общим для статистических и вероятностных характеристик является техника их вычислений. Главное различие между ними состоит в том, что статистические характеристики относятся к эмпирическим, а вероятностные к теоретическим понятиям. Статистические характеристики - это величины, которые при соблюдении определенных условий стремятся к вероятностным. Вероятностные характеристики можно рассматривать как предельные значения сопоставимых им характеристик математической статистики при возрастании числа наблюдений или опытов.

Закономерность, проявляющаяся лишь в большой массе явлений через преодоление свойственной ее единичным элементам случайности, называется статистической закономерностью.

Первая теорема, установившая связь между теорией (теория вероятностей) и ее практической стороной (математическая статистика) была доказана в конце 17 века Якобом Бернулли (При соединении большого числа случайных явлений в общих характеристиках всей массы случайность исчезает в тем большей мере, чем больше соединено единичных явлений.). Эта теорема дала начало развитию предельных теорем. Несмотря на колебания отдельных результатов наблюдений при повторных измерениях проявляется определенная закономерность (устойчивость). Она состоит в том, что средний результат при большом числе наблюдений не зависит от отдельных наблюдений.

Основные понятия теории вероятностей и математической статистики тождественны, но не равны в смысле их количественного выражения. Их можно сопоставить следующим образом:

Теория вероятностей Математическая статистика
Генеральная совокупность Выборочная совокупность
Вероятность Частость
Математическое ожидание Средняя арифметическая (простая и взвешенная)
Закон распределения и теоретическая функция Вариационный ряд распределения

Задачи математической статистики можно разбить на три типа:

§ определение неизвестного закона распределения случайной величины,

§ определение параметров распределения и их оценка,

§ проверка правдоподобия гипотез о распределении статистических параметров.

Математическая статистика указывает, как наилучшим способом использовать имеющуюся информацию для получения по возможности более точных характеристик массового явления. Методы статистического анализа являются универсальными и могут применяться в самых различных областях человеческой деятельности.

 

§ 2. Выборочная совокупность и ее характеристики

Перед построением и анализом модели, описывающей исследуемое массовое явление или некоторый процесс, необходим сбор опытных данных результатов обследования объектов, отображающих массовое явление. Пусть произведено n независимых испытаний, в результате которых получены некоторые значения X1, X2, X3,………Xn. Совокупность, состоящая из всех возможных в данных условиях наблюдений, обладающих качественной общностью и подлежащих исследованию называется генеральной совокупностью.Генеральная совокупность содержит достаточно большое количество элементов, поэтому обычно производится анализ некоторого ограниченного количества элементов взятых из генеральной совокупности. На основе анализа делаются выводы о генеральной совокупности или, другими словами, обо всей вероятной ситуации. Таким образом, задачи математической статистики практически сводятся к обоснованному суждению об объективных свойствах генеральной совокупности по результатам случайной выборки.

Выборочной совокупностью (выборкой) называется множество наблюдений, отобранных из генеральной совокупности.

Выборка должна правильно отражать пропорции генеральной совокупности (быть репрезентативной), то есть все объекты генеральной совокупности должны иметь одинаковую вероятность попасть в выборку. Репрезентативность выборки обеспечивается случайностью отбора объектов. При отборе объектов в выборочную совокупность возможны два варианта:

§ объект возвращается в генеральную совокупность. Выборочная совокупность, полученная таким образом, называется случайной выборкой с возвратом или повторной выборкой,

§ объект, включенный в выборку, не возвращается назад в генеральную совокупность. Такая выборка называется случайной выборкой без возврата (или бесповторной выборкой).

Очевидно, что в повторной выборке возможна ситуация, когда один и тот же объект будет обследован несколько раз. Если объем генеральной совокупности велик, то различие между повторной и бесповторной выборками (которые составляют небольшую часть генеральной совокупности) незначительно. В таких случаях, как правило, используют выборку без возврата. Если генеральная совокупность имеет не очень большой объем, то различие между указанными выборками будет существенным.

Отдельные значения генеральной совокупности X1, X2, X3,………Xn называются вариантами признака. Если F(x) – функция распределения генеральной совокупности X, то у каждой случайной величины Xi функция распределения также равна F(x). Понятно, что получить n значений случайной величины X все равно, что получить одно значение n -мерной случайной величины (X1, X2, X3,………Xn). Поэтому каждую выборку x1, x2, x3,………xnобъема n мы можем рассматривать как одно значение
-мерной случайной величины (X1, X2, X3,………Xn).

Числа, показывающие, сколько раз наблюдается определенная варианта, называют частотами (m1, m2……..mn).Расположив варианты в возрастающем или убывающем порядке (ранжирование ряда) и поставив в соответствие с этими вариантами их частоты, получим упорядоченный ряд. Такой ряд называется вариационным рядом.

Все возможные значения признака, принимающие изолированные значения, отличающиеся на некоторую конечную величину, называются дискретными. Значения признака, принимаемые в некотором числовом интервале, называют непрерывными. Помимо частоты в статистике используется понятие накопленной частоты, показывающей, сколько наблюдалось элементов со значением признака меньшим или равным
Xi. ( ).

Отношение частоты (накопленной частоты) к общему числу наблюдений называется частостью (накопленной частостью) и обозначается ( ), т.е.

.

Накопленные частоты выражаются в относительных числах или в процентах. В дискретном вариационном ряду, накопленные частоты и частости являются результатом последовательного суммирования частот и частостей, начиная от первой варианты.

Пример. На телефонной станции проводилось исследование качества ее работы. Для исследования измеряли число неправильных соединений в минуту (X). В течение часа были получены следующие 60 значений наблюдаемого признака:

Очевидно, что X является дискретной случайной величиной, и полученные данные являются значениями этой случайной величины. Анализ данных, представленных в таблице, затруднителен, поэтому произведем группировку. В результате группировки получено семь значений случайной величины (варианты): 0; 1; 2; 3; 4; 5; 7. При этом значение 0 в этой группе встречается 8 раз, значение 1 – 13 раз, значение 2 – 17 раз, значение 3 – 11 раз, значение 4 – 7 раз, значение 5 – 2 раза, значение 7 – 1 раз. Вычисленные значения частот и частостей запишем в таблицу:

Индекс 1, 2, 3, 4, 5, 6, 7
Варианта 0, 1, 2, 3, 4, 5, 7
Частота 8, 13, 17, 11, 7, 2, 1
Частость

Полученный дискретный ряд представлен в таблице:

где во второй строке указаны соответствующие частоты. В отличие от исходных данных этот ряд позволяет делать некоторые выводы о статистических закономерностях.

Если число возможных значений дискретной случайной величины достаточно велико или наблюдаемая случайная величина является непрерывной, то строят интервальный вариационный ряд. Под интервальным вариационным рядом понимают упорядоченную совокупность интервалов варьирования значений случайной величины и соответствующие частоты или частости попаданий в каждый интервал значений случайной величины.

Как правило, частичные интервалы, на которые разбивается весь интервал варьирования, имеют одинаковую длину и представимы в виде

,

где L - число интервалов, h – длина интервала. Длину h следует выбирать так, чтобы построенный ряд не был громоздким, но в то же время позволял выявлять характерные изменения случайной величины. Рекомендуется для вычисления h использовать формулу Стерджеса:

,

где – наибольшее и наименьшее значения случайной величины. Величина ( ) – называется размахом ряда. Если при вычислении hнеобходимо округлить результат, следует помнить, что последний интервал группирования будет меньше ширины hпри округлении в большую сторону и больше h при округлении в меньшую сторону. При этом необходимо выполнение условий:

.

После нахождения частичных интервалов определяется сколько значений случайной величины попадает в каждый конкретный интервал. При этом в интервал включают значения большие или равные нижней границе и меньшие верхней границы.

Одной из основных характеристик выборки является выборочная (эмпирическая) функция распределения:

,

где – количество элементов выборки меньших х. Другими словами, есть относительная частота появления события в независимых испытаниях. По теореме Бернулли относительная частота появления события в независимых испытаниях сходится при увеличении к вероятности этого события. Следовательно, при больших объемах выборки выборочная функция распределения близка к теоретической функции . Главное различие между и состоит в том, что определяет вероятность события , а выборочная функция распределения – относительную частоту этого события.

Из определения следует, что функция обладает следующими свойствами:

1. ;

2. – неубывающая функция;

3.

Как известно, аналогичными свойствами обладает и функция распределения F(x).

Для приближенного представления теоретической функции распределения F(x) случайной величины X, которую наблюдаем в эксперименте, целесообразно использовать эмпирическую функцию распределения выборки .

Пример.Используя дискретный вариационный ряд, полученный в предыдущем примере, вычислим значения . Результаты представим в таблице:

Значения x Накопленная частость
x £ 0
0 < x £ 1
1 < x £ 2
2 < x £ 3
3 < x £ 4
4 < x £ 5
5 < x £ 7
x > 7

Графическое изображение вариационных рядов дает наглядное представление о распределении.

По данным таблицы построим график выборочной функции распределения (рис. 2.1).

Рис. 2.1. График выборочной функции распределения (накопленных частот)

Характер изменения значений частот (частостей) наглядно представляется в виде графического изображения вариационных рядов. Наиболее простым способом графического изображения вариационных рядов является точечная диаграмма. Кроме точечной диаграммы применяются следующие формы: полигон, гистограмма, кумулята, огива.

Полигон - графическое изображение вариационного ряда в виде многоугольника, при этом по горизонтальной оси откладываются значения признака, а по вертикальной – частота встречаемости соответствующего значения признака.

Гистограмма - ряд прямоугольников, основания которых равны ширине интервала, а высоты частоте или частости. Гистограмма позволяет «зрительно» определить нормальность эмпирического распределения. Гистограмма позволяет качественно оценить различные характеристики распределения. Например на ней можно увидеть, что распределение бимодально (имеет 2 пика). Это может быть вызвано, например, тем, что выборка неоднородна, возможно, извлечена из двух разных генеральных совокупностей, каждая из которых более или менее нормальна.

Кумулятаграфическое изображение вариационного ряда с накопленными частотами.

Огива графическое изображение вариационного ряда с накопленными частотами, но в отличие от кумуляты по вертикальной оси откладываются значения признака, а по горизонтальной накопленные частоты (частости).

Пример.Распределение предприятий по издержкам обращения (млн.руб.), полученным в отчетном периоде, представлено в ранжированном виде интервалами объема издержек обращения xj и количеством nj предприятий, издержки которых попадают в jинтервал.

xj -xj+1 2-6 6-10 10-14
nj
nx
3/20 = 0.15 13/20 = 0.65 20/20 = 1

Общее количество предприятий .

По данным таблицы построим график выборочной функции распределения или график накопленных частот (рис. 2.2) и полигон частот (рис.2.3).

Рис. 2.2. График выборочной функции распределения (накопленных частот)

Рис. 2.3. Полигон частот случайной величины

Также для данных примера

xj-xj+1 2-6 6-10 10-14
¾=0,75 10/4=2,5 7/4=1,75

построим гистограмму частот (рис. 2.4).

Рис. 2.4. Гистограмма частот случайной величины

Рассмотренная выборочная функция распределения и гистограмма позволяют делать выводы о закономерностях исследуемого массового явления, но при анализе данных возникает вопрос об описании их положения, разброса, характере разброса. Для этого используются числовые характеристики выборочной совокупности, из которых сначала рассмотрим выборочное среднее и выборочную дисперсию.

Выборочным средним называется случайная величина, определяемая формулой

.

Выборочное среднее называют также выборочным математическим ожиданием. Оно характеризует положение распределения случайной величины на оси x.

Если данные представлены в виде вариационного ряда, то целесообразно для вычисления выборочного среднего использовать одно из следующих соотношений:

· для дискретного вариационного ряда

;

· для интервального вариационного ряда

,

где – частость (относительная частота), соответствующая i-й варианте или i-му частичному интервалу; – середина i-го частичного интервала, т.е.

Пример.Вычислим значение выборочного среднего по выборке примера о телефонной станции:

.

К другим характеристикам положения распределения случайной величины относятся медиана Ме и мода Мo.

Медиана (Ме) - среднее (серединное) значение вариационного ряда.

· при четном числе вариант – ,

· при нечетном числе вариант – ,

где и серединные значения.

Медиана делит совокупность на две равные части. Ее приближенное значение можно получить по графику распределения.

Мода (Мo) - наиболее часто встречающееся значение наблюдения. Мода имеет большое практическое значение. Она находит отражение при планировании производства товаров, при их распределении, при определении часов пик на станциях для оптимального планирования работы транспорта и т.д.

В вариационных рядах близких к нормальному закону распределения медиана (Мe), мода (Мо), математическое ожидание М(х) (среднее арифметическое) практически совпадают по своим численным значениям.

Рис. 2.5. . Соотношение характеристик медиана Ме и мода Мo на графике плотности распределения вероятностей

Для характеристики совокупности признака по необходимости применяют ряд других характеристик: квартили, децили, перцентили. Квартили – значение изучаемой величины, полученное при делении совокупности на четыре части, децили- на десять, перцентили - на сто частей.

Дисперсия и среднеквадратическое отклонение являются характеристиками рассеяния или разброса распределения случайной величины, и чем больше разброс, тем сильнее варьируются значения случайной величины:

.

Число , полученное для отдельной выборки, является одним из значений случайной величины, которая называется выборочной дисперсией.

Если данные представлены в виде вариационного ряда, то целесообразно для вычислений использовать одно из следующих соотношений:

· для дискретного вариационного ряда

;

· для интервального вариационного ряда

,

где – те же, что и в предыдущих формулах.

Рис. 2.6. Графики плотности распределения вероятностей с различными значениями дисперсии и одинаковыми математическими ожиданиями

Выборочная дисперсия обладает одним существенным недостатком: если среднее арифметическое выражается в тех же единицах, что и значения случайной величины, то, как следует из формул, задающих дисперсию, последняя выражается уже в квадратных единицах. Этого недостатка можно избежать, взяв, в качестве меры рассеивания, арифметический квадратный корень из дисперсии. Выборочным средним квадратическим отклонением называется арифметический квадратный корень из выборочной дисперсии (обозначение σв).

Пример.Используя выборку первого примера, вычислим значение выборочной дисперсии. Первоначально, используя дискретный вариационный ряд (пример о телефонной станции), получим

.

Так как значение было уже вычислено ранее ( ), то по формуле для вычисления дисперсии получим:

.

В качестве характеристики формы распределения, отражающей его асимметрию, служит коэффициент асимметрии (Аs иногда обозначаетсяβi), который рассчитывается по формуле:

.

Коэффициент асимметрии Аs изменяется в пределах ( ). Для симметричного распределения Аs равен 0. Например, для модели нормального распределения Аs = 0. При Аs < 0 распределение имеет левостороннюю асимметрию, при Аs > 0 – правостороннюю. Например, правосторонняя асимметрия характеризуется тем, что середина ряда сдвинута влево от вершины распределения, т.е. частоты сначала быстро возрастают, а, достигнув наибольшего значения, в дальнейшем убывают значительно медленнее. Аналогично определяется левосторонняя асимметрия.

Рис. 2.7. Зависимость формы плотности распределения вероятности от коэффициента асимметрии

Неприведенный коэффициент эксцесса Ех также является характеристикой формы распределения, а именно его островершинности, и определяется из выражения

.

Неприведенный коэффициент эксцессаЕх изменяется в пределах . Для нормального распределения Ех=0. Величина γ = Ех -3 называется приведенным коэффициентом эксцесса.

Рис. 2.8. Зависимость формы плотности распределений вероятности от приведенного коэффициента эксцесса γ

 

§ 3. Законы распределения выборочных характеристик

После получения вариационного ряда как выборочного распределения возникает первая задача – найти на основе этого распределения общий закон распределения для данного признака. На основе всестороннего анализа имеющегося распределения и изучения рассматриваемого признака выбирают из известных распределений определенный закон распределения в качестве предполагаемого теоретического закона распределения для рассматриваемого признака в генеральной совокупности.

Рассмотрим несколько распределений, которые имеют важные статистические приложения:

· нормальное распределение,

· c2-распределение (распределение Пирсона),

· t-распределение (распределение Стьюдента),

· F-распределение (распределение Фишера).

а) Нормальный закон распределения случайной величины. Нормальное распределение рассмотрено впервые А. Муавром в I733 г., а в I809 г. открыто независимо от исследований А. Муавра К. Гауссом. Распределение Муавра - Лапласа - Гаусса занимает ведущее место в теории и практике вероятностно-статистических исследований.

Как уже было введено в разделе «Теория вероятностей», нормальным называется распределение, имеющее вид:

.

По этой формуле при различных значениях среднего арифметического ( ) и среднеквадратичного отклонения ( ) получается семейство нормальных кривых. Нормальное распределение симметрично относительно и имеет следующие числовые характеристики: математическое ожидание a= , дисперсия , коэффициент асимметрии Аs=0, неприведенный коэффициент эксцесса Ех = 3, приведенный коэффициент эксцесса γ = 0.

Для нормального распределения значения моды, медианы и среднего арифметического равны между собой.

При решении статистических задач во многих случаях применяется стандартное нормальное распределение (единичное, нормальное). Оно получается при условии, что и , т.е. имеет параметры (0,1). Использование стандартного нормального распределения позволяет анализировать любое нормальное распределение на основе характеристик единичного нормального распределения.

б) Распределение (распределение К. Пирсона). Пусть независимые нормально распределенные случайные величины с параметрами (0,1). Распределение случайной величины

называется распределением хи-квадрат с п степенями свободы, а сама величина случайной величиной хи-квадрат с п степенями свободы.

Заметим, что количество степеней свободы пявляется единственным параметром хи-квадрат распределения и значения неотрицательны, т.е..

При больших значениях п распределение случайной величины близко к нормальному распределению с параметрами . Однако при малых значениях п функция плотности случайной величины значительно отличается от кривой нормального распределения.

На рис. 3.1 показаны плотности распределения случайной величины при и . Видно, что при увеличении плотность «приближается» к плотности нормального распределения.

Рис. 3.1. Плотность распределения χ-квадрат

Сумма независимых случайных величин также распределена по закону хи-квадрат со степенями свободы.

в) Распределение Стьюдента (t-распределение). Если случайная величина z – нормально распределена с параметрами , а величина ω имеет распределениес к степенями свободы, то величина

распределена по закону Стьюдента с k степенями свободы и называется t-распределением. Это распределение впервые в 1908 году было использовано английским математиком В.Госсетом, который подписывал свои работы псевдонимом Стьюдент (Студент).

Распределение Стьюдента симметрично относительно нуля (рис.3.2.), и значения t табулированы в зависимости от степеней свободы k и вероятности α.

Рис. 3.2. Плотность распределения Стьюдента

При больших значениях k кривая плотности близка к кривой нормального распределения . Поэтому в практических расчетах при k>30 часто считают, что

.

г) Распределение Фишера ( -распределение). Пусть и – независимые случайные величины, имеющие хи-квадрат распределения с п и m степенями свободы, соответственно. Распределение случайной величины

называется F-распределением или распределением Фишера с п и m степенями свободы. Так как случайные величины и то .

Дальнейшие рассуждения будут базироваться на теореме о распределении выборочных характеристик и , доказанную Р.Фишером.

Теорема (о распределении выборочных характеристик). Если генеральная совокупность Храспределена по нормальному закону с параметрами и , то:

а) случайная величина распределена нормально с параметрами ,

б) случайная величина имеет распределение ,

в) случайные величины и независимы.

Пусть из генеральной совокупности Х, имеющей нормальный закон распределения с математическим ожиданием и дисперсией , взята случайная выборка объемом n, тогда выборочные характеристики (статистики) будут представлены следующим образом:

1) - имеет нормированный нормальный закон распределения N(0,1) с математическим ожиданием, равным нулю, и дисперсией, равной единице, где - выборочная средняя арифметическая, - среднее квадратическое отклонение;

2) - имеет распределение Стьюдента (t - распределение) с n-1 степенями свободы, где S - выборочное среднее квадратическое отклонение, равное ;

3) - имеет нормированное нормальное распределение N(0,1);

4) - имеет распределение Стьюдента (t-распределение) с n-1 степенями свободы;

5) - имеет распределение (хи-квадрат) с n-1 степенями свободы;

6) В случае двух независимых выборок их нормальных генеральных совокупностей Х и Y c одинаковыми математическими ожиданиями μхуи дисперсиями статистика

– имеет распределение Стьюдента (t - распределение) с (nх + nу -2) степенями свободы, где - выборочные средние двух независимых выборок хи у из генеральных совокупностей с одинаковыми, но неизвестными параметрами a и σ; - выборочные дисперсии соответственно первой и второй выборок.

После получения распределения выборки приходим к необходимости рассмотрения двух вопросов:

1) выбрать вид теоретического распределения в качестве предполагаемого для рассматриваемого признака, а затем найти его параметры;

2) проверить правильность сделанного выбора, проверить согласованность имеющегося эмпирического материала с предполагаемым теоретическим распределением признака в генеральной совокупности.

 

§ 4. Статистическое оценивание числовых характеристик случайной величины и ее закона распределения

В связи с тем, что состав выборки может быть различным, выводы, сделанные относительно генеральной совокупности по выборочным значениям могут быть различными, а иногда и ложными. Решение этой проблемы приводит к рассмотрению критериев согласия, анализ которых позволяет сделать вывод:

· имеющиеся опытные данные и избранный вид теоретического распределения не противоречат друг другу,

· избранное распределение в качестве предполагаемого теоретического для исследуемого признака отклоняется.

Статистической оценкой неизвестного параметра генеральной совокупности называется любая функция вариант выборки, которая дает представление о значении неизвестного параметра. Основной задачей статистического оценивания является получение значений неизвестных параметров на основе выборки из генеральной совокупности. Так, например, если случайная величина распределена по нормальному закону, то по выборке необходимо оценить математическое ожидание и среднеквадратическое отклонение.

Выборочная характеристика, используемая в качестве приближенного значения неизвестной генеральной характеристики, называется ее точечной статистической оценкой. Она определяется одним числом.Ранее были рассмотрены выборочные среднее и дисперсия , которые интерпретировались как приближенные значения неизвестных математического ожидания и дисперсии изучаемой случайной величины , т.е. являлись точечными оценками этих неизвестных характеристик.

Обозначим через некоторый неизвестный параметр генеральной совокупности, а через – точечную оценку этого параметра. Оценка есть функция от независимых элементов генеральной совокупности, где – объем выборки. Поэтому оценка , как функция случайных величин, также является случайной и свойства можно исследовать с использованием понятий теории вероятностей.

В общем случае точечная оценка не связана с оцениваемым параметром . Поэтому естественно потребовать, чтобы была близка к . Это требование формируется в терминах несмещенности, состоятельности и эффективности.

Статистическая оценка неизвестного параметра называется несмещенной, если математическое ожидание равно самому параметру:

.

Статистическая оценка неизвестного параметра называется эффективной, если она имеет минимальную дисперсию среди остальных оценок параметра .

Статистическая оценка называетсясостоятельной, если для нее соблюдается условие:

для любого .

Это означает, что чем больше число наблюдений , тем больше уверенность (вероятность стремится к 1) в незначительном отклонении от неизвестного параметра . Очевидно, что «хорошая оценка» должна быть состоятельной, иначе эта оценка не имеет практического смысла, так как увеличение объема исходной информации не будет приближать оценку к «истинному» значению .

Теорема.Выборочное среднее есть состоятельная и несмещенная оценка генеральной средней .

Теорема.Выборочное среднее является эффективной несмещенной оценкой для , если случайная величина имеет нормальное распределение , где – математическое ожидание, – дисперсия случайной величины .

Теорема.Выборочная дисперсия является состоятельной, но смещенной оценкой генеральной дисперсии .

Таким образом, если в качестве оценки генеральной дисперсии принимать выборочную дисперсию, то эта оценка будет приводить к систематическим ошибкам. В результате значение генеральной дисперсии будет занижаться. Легко «исправить» выборочную дисперсию так, чтобы ее математическое ожидание было равно генеральной дисперсии. Для этого достаточно умножить на дробь п/(п-1). Сделав это, получим «исправленную» дисперсию, которую обычно обозначают через :

.

Теорема. Исправленная дисперсия является состоятельной и несмещенной оценкой для генеральной дисперсии .

Замечание: На практике пользуются исправленной дисперсией, если п<30.

Теорема.Относительная частота появления события в испытаниях является состоятельной оценкой вероятности .

Одним из первых приемов оценивания параметров является метод моментов, разработанный Пирсоном. На практике этот метод сравнительно прост в вычислениях, но иногда приводит к малоэффективным оценкам.

Исследуя свойства оценок, получаемых с помощью метода моментов, английский математик Р. Фишер предложил более надежный метод оценивания параметров распределения по данным выборки случайной величины X— метод максимального правдоподобия. Метод максимального правдоподобия приводит к более сложным вычислениям, но оценки, получаемые сего помощью, как правило, оказываются более надежными. Этот метод наиболее полно использует данные выборки об оцениваемом параметре, поэтому он особенно эффективен в случае малых выборок.

Пусть X —случайная величина, которая в результате n испытаний приняла значения х1,x2, , хn c распределением, зависящим от параметра θ. Требуется найти его точечную оценку.

Функцией правдоподобия случайной величины X называют функцию аргумента θ:

а) ,

если X — непрерывная случайная величина с плотностью распределения ,

б)

если X — дискретная случайная величина, - вероятность того, что в результате испытания величина X примет значение xi .

В качестве точечной оценки параметра θ принимают такое его значение θ*=θ*(х1,x2, , хn), при котором функция правдоподобия достигает максимума. Оценку θ* называют оценкой наибольшего правдоподобия. Функции L и LnL достигают максимума при одном и том же значении θ, поэтому вместо максимума функции L целесообразно находить максимум функции LnL, которую называют логарифмической функцией правдоподобия. Точку максимума функции LnL, аргумента θ можно найти, например, следующим образом:

1) найти производную: ;

2) приравнять производную нулю и найти критическую точку — корень полученного уравнения (уравнение правдоподобия);

3) найти вторую производную:







Дата добавления: 2015-08-12; просмотров: 4820. Нарушение авторских прав


Рекомендуемые страницы:


Studopedia.info - Студопедия - 2014-2020 год . (0.056 сек.) русская версия | украинская версия