Доказательство. Вычислим
. Запишем неравенство Чебышева для средней арифметической , или . При достаточно большом числе испытаний величина является числом, близким к нулю. Поэтому для сколь угодно малого числа выполняется неравенство , определяющее свойство состоятельности выборочных оценок. Получение эффективных оценок - сложное дело. Приведём без доказательства важный для практики факт. Если случайная величина Х распределена по нормальному закону с параметрами , то несмещённая оценка математического ожидания имеет минимальную дисперсию , поэтому средняя арифметическая в этом случае является эффективной оценкой математического ожидания . Т. 3. Если случайная выборка состоит из п независимых наблюдений над случайной величиной Х с математическим ожиданием и дисперсией , то выборочная дисперсия не является несмещённой оценкой генеральной дисперсии. Доказательство. По условию и тогда Упростим выражение , подставив полученное в выражение для эмпирической дисперсии получим Но так как и то . То есть является смещённой оценкой дисперсии генеральной совокупности. Несмещённой оценкой дисперсии генеральной совокупности является . Обычно эту оценку называют исправленной выборочной дисперсией. Дробь называют поправкой Бесселя. Тогда имеем равенство . При малых значениях п поправка Бесселя довольно сильно отличается от единицы, с увеличением п она быстро стремится к единице. При практически нет разницы между и . Можно показать, что оценки и являются состоятельными оценками . Несмещённой, состоятельной и эффективной оценкой является оценка , для вычисления которой необходимо знать математическое ожидание. Заметим, что оценка эффективна лишь при условии нормальности распределения случайной величины Х в генеральной совокупности. Оценки и не являются эффективными. В том случае, когда значение математического ожидания неизвестно, то для оценки дисперсии используют состоятельную и несмещённую оценку .
41. Метод максимального правдоподобия Основным способом получения оценок параметров генеральной совокупности по данным выборке является метод максимального правдоподобия. Основная идея метода заключается в следующем. Пусть - результаты независимых наблюдений над случайной величиной Х, которая может быть как дискретной, так и непрерывной; - вероятность значения (если случайная величина дискретна) и плотность вероятности (если случайная величина непрерывна). Функция зависит от неизвестного параметра , который требуется оценить по выборке. Если - независимые случайные величины, то функцией правдоподобия называется выражение . В качестве оценки неизвестного параметра берется такое значение , при подстановке которого вместо параметра получаем максимальное значение функции . Оценку обычно называют оценкой максимального правдоподобия. Оценка зависит от количества и числовых значений случайных величин , следовательно, сама является случайной величиной. При максимизации функции подразумевается, что значения фиксированы, а переменной является параметр (иными словами, максимум отыскивается в предположении, что заменены их числовыми значениями). Если дифференцируема относительно параметра , то для отыскания максимума надо решить уравнение . В качестве оценки выбрать решение, которое обращает функцию в максимум. Иногда удобно рассматривать уравнение . Согласно методу максимального правдоподобия для нормально распределенной генеральной совокупности в качестве оценок математического ожидания и дисперсии нужно брать соответственно среднюю арифметическую и эмпирическую дисперсию . Пример 40. Найти методом максимального правдоподобия по выборке точечную оценку неизвестного параметра показательного распределения, плотность которого . Решение. Составим функцию правдоподобия . Найдём логарифмическую функцию правдоподобия . Найдём первую производную по . Отсюда или . Так как в силу положительности то оценкой метода максимального правдоподобия параметра является величина, обратная среднему арифметическому.
42. Метод наименьших квадратов Изложенный ранее метод максимального правдоподобия всегда приводит к состоятельным оценкам, хотя иногда смещённым. Известно, что этот метод использует наилучшим образом всю информацию о неизвестном параметре, содержащуюся в выборке. Однако часто его применение связано с необходимостью решения сложных систем уравнений. Другим способом, имеющим большое практическое применение в задачах оценивания неизвестных параметров генеральной совокупности по выборке и часто приводящим к более простым выкладкам, является метод наименьших квадратов. Пусть, как и прежде, Х - случайная величина (дискретная или непрерывная) с законом распределения , (где - неизвестный параметр генеральной совокупности, который нужно оценить по выборке). - независимые наблюдения, - оценка параметра , зависящая от количества наблюдений и их числовых значений. Основная идея метода наименьших квадратов в приложении к оцениванию параметров сводится к тому, чтобы в качестве оценки неизвестного параметра принимать значение, которое минимизирует сумму квадратов отклонений между оценкой и параметром для всех наблюдений. То есть находится минимум функции . Если исходная случайная величина имеет нормальный закон распределения, то метод максимального правдоподобия и метод наименьших квадратов дают одинаковые результаты. Особенно часто метод наименьших квадратов применяется в задачах выравнивания или сглаживания. Пусть в результате наблюдений получен ряд точек с координатами . Если заранее известно, что зависимость между переменными имеет вид , то необходимо определить числовые параметры , которые наилучшим образом, в смысле наименьших квадратов, описывали бы зависимость, полученную при наблюдении. То есть найти минимум функции . Для этого нужно решить систему уравнений Пример 41. Найти методом наименьших квадратов коэффициенты линейной зависимости по полученным эмпирическим точкам с координатами . Решение. Функция имеет вид система уравнений или Выражая из второго уравнения имеем , подставляя в первое получим . Отсюда , подставляя полученное в выражение для , находим его. Используя понятие средней арифметической результат можно записать гораздо компактней и .
43. Распределение средней арифметической для выборок из нормальной совокупности. Распределение Стьюдента Выборочная средняя, вычисленная по конкретной выборке, есть определённое число. Так как состав выборки случаен, то средняя арифметическая, вычисленная для элементов другой выборки того же объёма из той же генеральной совокупности, определяется числом, как правило, отличным от первого, то есть средняя меняется от выборки к выборке. Следовательно, выборочную среднюю можно рассматривать как случайную величину, что позволяет говорить о законе распределения выборочной средней. Приведём без доказательства следующую теорему. Т. Если случайная величина Х подчиняется нормальному закону распределения с параметрами , а - ряд независимых наблюдений над случайной величиной Х, каждое из которых имеет те же характеристики, что Х, то выборочная средняя также подчиняется нормальному закону распределения с параметрами . Нормированное отклонение подчиняется нормальному закону распределения со средним значением, равным нулю, и дисперсией, равной единице. Действительно, используя свойства математического ожидания, а также тот факт, что и независимы, имеем: и . Пример 42. Автомат штампует детали. Контролируется длина детали которая подчиняется нормальному закону распределения. Найти вероятность того, что средняя длина деталей, отобранных случайным образом, отклонится от математического ожидания более чем на 2 мм, если дисперсия случайной величины Х равна мм2, а количество деталей в выборке п =16. Решение. Случайная величина Х имеет нормальное распределение с математическим ожиданием и дисперсией или . Найдём вероятность того, что при она равна , следовательно: , то есть практически можно быть уверенным, что наблюдаемая средняя длина детали отклонится от заданной не более чем 2 мм. Итак, если случайная величина Х имеет нормальное распределение, то нормированное отклонение также подчиняется нормальному закону распределения. Однако дисперсия генеральной совокупности почти всегда оказывается неизвестной, поэтому вызывает большой практический интерес изучение распределения статистики , где - несмещенная и состоятельная оценка дисперсии, вычисленная по выборочным данным. Распределение статистики не зависит ни от математического ожидания случайной величины Х, ни от дисперсии , а лишь зависит от объёма выборки п. Закон распределения статистики называют распределением Стьюдента. Распределение Стьюдента табулировано во всех учебниках по математической статистике. Из анализа распределения Стьюдента при п >50 видно, что оно мало отличается от нормального.
44. Распределение дисперсии в выборках из нормальной генеральной совокупности. Распределение Пирсона Рассмотрим закон распределения выборочной дисперсии, рассчитанной для наблюдений, взятых из нормальной генеральной совокупности. Так как состав выборки подвержен случайности, то выборочную дисперсию, как и , следует рассматривать как случайную величину и говорить о законе распределения выборочной дисперсии. При анализе распределения выборки следует иметь в виду два случая: 1) математическое ожидание случайной величины известно; 2) математическое ожидание неизвестно. Случай 1. Предположим, что математическое ожидание случайной величины известно. Условимся считать, что случайная величина Х подчиняется нормальному закону распределения с параметрами , а - ряд независимых наблюдений, каждое из которых подчиняется нормальному закону распределения с математическим ожиданием и дисперсией . Тогда выборочная дисперсия вычисляется по формуле . Разделим обе части этого равенства на и умножим на п. Имеем . Статистика имеет нормальный закон распределения с параметрами и . Пусть . Случайная величина, представляющая собой сумму квадратов независимых случайных величин, каждая из которых подчиняется нормальному закону распределения с параметрами , называется случайной величиной с распределением и степенями свободы. Распределение статистики не зависит ни от математического ожидания случайной величины Х, ни от дисперсии , а зависит лишь от объёма выборки п. Найдём математическое ожидание распределения : . Следовательно, математическое ожидание случайной величины с распределением и степенями свободы равно числу степеней свободы. В специальной литературе можно найти доказательство того, что дисперсия распределения равна удвоенному числу степеней свободы. Дифференциальная функция распределения сложна, и интегрирование её является весьма трудоёмким процессом, поэтому составлены таблицы распределения . Случай 2. Рассмотрим закон распределения выборочной дисперсии, когда математическое ожидание случайной величины неизвестно. Как и прежде, случайная величина подчиняется нормальному закону распределения с параметрами , а - ряд независимых наблюдений, каждое из которых подчиняется нормальному закону распределения с математическим ожиданием и дисперсией . Тогда дисперсия выборки вычисляется по формуле . Примем без доказательства тот факт, что случайная величина имеет распределение с степенями свободы.
45. Понятие доверительного интервала. Доверительная вероятность Оценку неизвестного параметра генеральной совокупности одним числом называют точечной оценкой. Наряду с точечным оцениванием статистическая теория занимается вопросами интервального оценивания. Задачу интервального оценивания в самом общем случае можно сформулировать так: по данным выборки построить числовой интервал, относительно которого с заранее выбранной точностью можно сказать, что внутри находится числовой параметр. Интервальное оценивание особенно необходимо при малом числе наблюдений, когда точечная оценка мало надёжна. О. 1. Доверительным интервалом для параметра называют такой интервал, относительно которого можно с заранее выбранной вероятностью , близкой к единице, утверждать, что содержит неизвестное значение параметра , то есть . Чем меньше для выбранной вероятности разность , тем точнее оценка неизвестного параметра , и на оборот, если этот интервал велик, то оценка, произведенная с его помощью, мало пригодна для практики. Концы доверительного интервала и зависят от элементов выборки, поэтому их значения могут меняться от выборки к выборке. Вероятность принято называть доверительной вероятностью, а число - уровнем значимости.
46. Доверительный интервал для математического ожидания при известной дисперсии генеральной совокупности Пусть случайная величина Х распределена нормально, причём среднее квадратическое отклонение этого распределения известно. Требуется построить доверительный интервал для неизвестного математического ожидания с заданным уровнем значимости . Ранее показано, что выборочное среднее распределено нормально с параметрами , нормированное отклонение распределено также нормально с параметрами и . Поэтому вероятность любого отклонения может быть вычислена по формуле . Для заданной доверительной вероятности имеем или затем по таблице функции находим . Преобразуем формулу к удобному виду или , откуда . Таким образом, с вероятностью (надёжностью) можно утверждать, что интервал является доверительным для оценки математического ожидания. Пример 43. Случайная величина Х имеет нормальное распределение с известным средним квадратическим отклонением . Найти доверительный интервал для оценки математического ожидания по выборочной средней , если объём выборки и доверительная вероятность . Решение. Используя соотношение , по таблице (см. приложение таб.2) находим . Вычисляем , следовательно, доверительный интервал имеет вид или .
47. Доверительный интервал для математического ожидания при неизвестной дисперсии генеральной совокупности Пусть случайная величина Х распределена нормально, причём среднее квадратическое отклонение этого распределения неизвестно. Требуется построить доверительный интервал для неизвестного математического ожидания с заданным уровнем значимости . Как показано ранее, случайная величина распределена по закону Стьюдента, поэтому, выбрав вероятность р и зная объём выборки п, можно по таблице найти такое , что . Проведём преобразование формулы, позволяющее оценить : или откуда . Поэтому с вероятностью (надёжностью) можно утверждать, что интервал является доверительным для оценки неизвестного математического ожидания . Пример 44. Пусть требуется построить доверительный интервал для оценки неизвестного математического ожидания при . Решение. По таблице (см. приложение табл. 3) значениям соответствует , поэтому или . Окончательно, имеем .
48. Доверительный интервал для дисперсии Пусть случайная величина Х распределена нормально. Требуется построить доверительный интервал для дисперсии генеральной совокупности либо по выборочной дисперсии , либо по . То есть два случая: 1) математическое ожидание генеральной совокупности известно, 2) математическое ожидание генеральной совокупности неизвестно. Построение доверительного интервала для дисперсии основывается на том, что случайная величина имеет распределение с степенями свободы, величина имеет распределение с степенями свободы. Подробно рассмотрим построение доверительного интервала для второго случая, так как именно он наиболее часто встречается на практике. Итак, для выбранной вероятности , учитывая, что имеет распределение с степенями свободы, можно записать . Далее по таблице -распределения (см. приложение таб. 4) нужно выбрать два значения и , чтобы площадь, заключённая под дифференциальной функцией распределения между и , была равна . Обычно и выбирают такими, чтобы . Так как таблица содержит то . Отсюда . Преобразуем двойное неравенство . Запишем неравенство, обратное данному, тогда знаки неравенства изменятся на противоположные или . Умножая обе части неравенства на положительное число , отличное от нуля, окончательно получаем доверительный интервал для дисперсии генеральной совокупности . Пример 45. Построить доверительный интервал с вероятностью для дисперсии генеральной совокупности случайной величины Х, распределённой нормально, если . Решение. Доверительная вероятность . По таблице (см. приложение табл. 4) находим для значение , для значение . Тогда доверительный интервал имеет вид или . Для оценки среднего квадратического отклонения доверительный интервал или .
49. Понятие статистической гипотезы Общая постановка задачи проверки гипотез Под статистической гипотезой понимают всякое высказывание о генеральной совокупности, проверяемое по выборке. Статистические гипотезы классифицируются на гипотезы о законах распределения и гипотезы о параметрах распределения. О. 1. Статистическая гипотеза называется непараметрической, если в ней сформулировано предположение относительно функции распределения. О. 2. Статистическая гипотеза называется параметрической, если в ней сформулировано предположение относительно значений параметров функции распределения известного вида. Наиболее полное и безошибочное суждение относительно истинности такого вида гипотез можно было бы сделать при исследовании всей генеральной совокупности. Однако на практике сплошное исследование по ряду причин провести невозможно. Таким образом, суждения об истинности (ложности) статистических гипотез относительно вида функции распределения генеральной совокупности или о значениях параметров распределения известного вида принимаются на основании выборки объёма . Процесс использования выборки для проверки истинности (ложности) статистических гипотез называется статистическим доказательством истинности (ложности) выдвинутой гипотезы. Наряду с выдвинутой гипотезой рассматривают одну или несколько альтернативных (конкурирующих) гипотез. Если выдвинутая гипотеза будет отвергнута, то её место занимает конкурирующая гипотеза. С этой точки зрения статистические гипотезы подразделяются на нулевые и альтернативные. О. 3. Нулевой гипотезой называют основную (выдвинутую) гипотезу. Нулевую гипотезу обозначают символом . Обычно нулевые гипотезы утверждают, что различие между сравниваемыми величинами (параметрами или функциями распределения) отсутствует, а наблюдаемое отклонение объясняется лишь случайными колебаниями выборки. О.4. Альтернативной называется гипотеза, конкурирующая с нулевой гипотезой в том смысле, что если нулевая гипотеза отвергается, то принимается альтернативная. Альтернативную гипотезу обозначают символом .
|