Статистические оценки параметров распределения случайных величин по выборкам
Основная задача выборочного метода заключается в том, что- Чтобы выборочную оценку можно было считать, доброкачественной и пригодной для решения поставленных задач, она должна обладать определенными свойствами. Наилучшие оценки обладают такими свойствами, как несмещенность, состоятельность, эффективность и достаточность. Выборочная оценка называется несмещенной, если ее математическое ожидание при любом объеме выборки равно значению пара- М(Θb) — Θ = 0.
М(Θb) — Θ = β, то величина β отражает это смещение. Пусть исследуется признак Х в генеральной совокупности, из является оценкой генеральной средней M(x), так как M(x)=M Математическое ожидание выборочной средней равно средней Выборочная оценка Θb параметра Θ, полученная на основе n P (Θb - Θ < ) =1. Таким образом, разность |Θb – Θ| будет сколь угодно малой, а Выборочная несмещенная оценка называется эффективной, если Точечные оценки — это оценки некоторых неизвестных числовых параметров распределения случайных величин. Они представляют собой числа, полученные путем подстановки выборочных значений х1, х2,..., хn, в формулу для оценивания искомого параметра. Интервальной оценкой параметра Θ называется интервал, гра- Р{ Θ b1 < Θ < Θ b2} = . Величина называется доверительной вероятностью или надежностью, с которой оценка Θ заключается в интервал (Θ b1 и Θ b2), она Ширина доверительного интервала равна Н = Θ b1 - Θ b2. Точечные оценки параметров распределения случайных величин. Основными методами получения точечных оценок являются метод моментов, метод наименьших квадратов (МНК) и метод максимально- го правдоподобия (ММП). Метод моментов является наиболее простым и общим способом Таким образом, представляет собой эмпирическое, или выборочное среднее. Если вычислено среднее, то легко найти отклонение каждого наблюдения δ, от среднего δi = х i — . Величину S 2 = называют дисперсией или вторым центральным моментом эмпирического распределения m 2 = S 2 В случае одномерного эмпирического распределения произволь- где k может принимать любые значения натурального ряда чисел. что мы видели ранее. Если С = , то имеем центральные моменты ………………… Среднеквадратическое отклонение равно Выборочное значение коэффициента вариации V, являющееся или в процентах Если известна форма связи искомого параметра с моментами, то
Если Аs > 0, то график плотности вероятности имеет «скос» с В качестве меры «крутости» графиков распределения случайных Если Ek ≥ 0, то кривая островершинная, при Ek < 0 — плоско- Метод наименьших квадратов в основном используется для оценки коэффициентов уравнения регрессии, например в ального параметра используется процентная частота, то ее ошибка вычисляется по формуле
и будет рассмотрен в регрессионном анализе. Метод максимального правдоподобия имеет большое преимущество по сравнению с другими методами точечной оценки. Он Метод состоит в следующем. Пусть имеется выборка (х 1, х 2,..., хn),
Такая функция называется функцией правдоподобия выборки и обозначается через L, т.е. Выборочная оценка, которая обращает в максимум функцию правдоподобия, называется оценкой максимума правдоподобия. Для нахождения максимума определяем частную производную
Прологарифмируем функцию L
Для оценки величины рассеивания средних выборочных относительно математического ожидания генеральной совокупности в
где n — объем выборки. Средняя ошибка выборочной средней Несмещенная оценка дисперсии, получается, по методу максимального подобия с поправкой Характеристика рассеивания дисперсии S определяется по формуле Средняя ошибка выборочной дисперсии Для нормального распределения При обработке статистических данных используют следующие виды оценок: 1. Средняя арифметическая для объема выборки n При разделении выборки на k групп, в которых xj встречается mj раз Средняя арифметическая в группе k Средняя групповая 4.2. Средняя геометрическая используется тогда, когда вариант х i или
4.3. Средняя гармоническая имеет свойство усреднять при неизменной сумме величин, обратных усредняемым. Она применяется 4.4. Средняя квадратическая используется тогда, когда варианта 5.5. Медиана делит ранжированный ряд распределения вариант х i на две равные части. Таким образом, в ранжированном ряду распределения 5.6. Мода показывает значение величины х i, имеющей наибольшую частоту в статическом ряду распределения. Так, в табл. 3.1 и на 4.7. Выборочная дисперсия Среднее квадратическое отклонение . 4.8. Дисперсия альтернативного признака используется тогда, когда признак измеряется двумя альтернативными значениями, например 0 и 1, да и нет, присутствует или не присутствует. Доля элементов выборки, обладающих признаком 1, равна . признаком 0 Средняя Дисперсия Интервальные оценки параметров распределения случайных вели-
Интервальной оценкой параметра Θ называется интервал, границы которого Θb1 и Θb2 являются функциями выборочных значений х 1, х 2, ... хn и который с заданной вероятностью накрывает оцениваемый параметр Θ
Интервал (Θb1, Θb2) называется доверительным, его границы Θb1
Общая процедура получения интервальной оценки состоит в 1. Записывают определенное вероятное утверждение вида где f (g) — функция распределения плотности вероятностей случайной 2. Аргумент g преобразуют так, чтобы в окончательном виде В качестве примера получим интервальную оценку математи- подчиняется нормированному нормальному распределению (см. приложение 1). Тогда можно записать: После преобразования аргумента получим:
Следовательно, для данного случая:
а ширина доверительного интервала Для нормально распределенной случайной величины доверительный интервал определяется по формулам: • если теоретическое значение дисперсии неизвестно, то для где k — число степеней свободы, k = n - 1; ta,k — табличное значение критерия Стьюдента, определяемое по таблице, приведенной в приложении 2; • для теоретической дисперсии где k = n – 1, χ 2k;α /2, χ 2k;1-α /2 - нижнее и верхнее значения критерия Пирсона при заданных k и α/2, определяемое по таблице, приведенной в приложении 3. Используя интервальные оценки, можно определить объем выборки, задаваясь точностью оценки. Если оценивается математическое ожидание, то точность оценки будет равна При заданном значении δ и D(x) объем испытаний будет равен При неизвестном D(x) объем испытаний определяется по фор- Если оценивать дисперсию D(x), то, задаваясь значением δg,
Доверительный интервал для генеральной доли P устанавливается по формуле
где Pb — выборочная доля; Ua/2 — критерий, выбираемый по таблице (см. приложение 4, Величина Ua/2, вычисляется по формуле Откуда где S pf – ошибка выборочной доли. Если вместо доли в качестве оценки генерального параметра используется процентная частота, то ее ошибка вычисляется по формуле Границы доверительного интервала p+UpS ~ для генеральной доли устанавливаются с достаточной точностью в тех случаях, когда выборочные доли равны или не сильно отклоняются от Эта величина, предложенная Р.Фишером, имеет распределение, близкое к нормальному. Ее параметром служит выборочная ошибка, равная . Значения φ; зависят только от р. Для практического использования этой величины служит таблица, приведенная в приложении 5, в которой содержатся значения Пример. Из общего числа 5800 чел., проживающих в населен- Доля больных или 13% Ошибка доли или 8% Для доверительной вероятности γ;=0,9 величина Uα/2=1,96=2. Отсюда с вероятностью 0,90 следует заключить, что генеральная доля находится между Рверх. = 0,15 и Рниж. = 0,11. Так как генеральная доля меньше 25%, исправим доверительный интервал с по- для Р %=13,0025 величина φ; > 0,738 (см. приложение 5). Определим S pf Отсюда границы для доверительного интервала р равны: · нижняя 0,738 — 2 х 0,07 = 0,601;
· верхняя 0,738+ 2 х0,07 = 0 875. Переводим значения р в исходные величины по таблице (см.
|