Проверка гипотезы о показательном распределении
Загрузим пакет stats и подпакеты transform, describe. > restart: with(stats): with(transform): with(describe): Вводим реализацию выборки (см. данные своего варианта): > Y: =[0.63, 16.04, 6.09, 3.42, 9.25, 2.87, 1.34, 11.24, 4.96, 3.74, 9.25, 1.71, 20.96, 6.72, 8.71, 1.06, 19.12, 0.02, 8.58, 31.52, 0.29, 8.13, 17.40, 1.62, 3.13, 18.48, 30.30, 9.16, 2.39, 1.48, 5.28, 13.82, 1.77, 2.26, 1.70, 7.87, 9.74, 21.21, 7.79,.67, 18.76, 8.34, 1.87, 7.02, 2.32, 2.43, 3.07, 4.85, 5.14, 5.85, 1.14, 2.78, 4.99, 7.51, 2.59, 2.00, 11.62, 1.65, 9.02, 1.51, 11.21, 22.13, 0.48, 13.20, 12.34, 5.25, 5.73, 0.72, 14.11, 9.62, 13.54, 12.87, 27.11, 1.08, 5.94, 1.86, 30.53, 6.30, 20.13, 3.41];
Определим объём выборки (подсчитаем количество значений в выборке) и рассчитаем количество интервалов разбиения k: > n: =count(Y); k: =round(1+1.4*ln(n)); Проведём сортировку выборки (варианты расположим в порядке возрастания): > Y1: =statsort(Y);
Находим минимальное и максимальное значения выборки и длину интервала разбиения: > ymin: =Y1[1]; ymax: =Y1[n]; h: =(ymax-ymin)/k;
Вычислим границы интервалов разбиения: > Y2: =[seq(ymin+(i-1)*(h+0.0001)..ymin+i*(h+0.0001), i=1..k)]; Находим вектор точек разбиения: > Z: =[seq(ymin+(i-1)*(h+0.0001), i=1..k+1)]; Составляем интервальный ряд частот Y3 (каждому интервалу поставим в соответствие частоту ni, т.е. число элементов выборки, попадающих в данный интервал) и вектор частот Y3f: > Y3: =statsort(transform[tallyinto](Y1, Y2)); > Y3f: =transform[frequency](Y3); Получим интервальный ряд относительных частот (каждому интервалу поставим в соответствие относительную частоту, т.е. частоту, делённую на объём выборки): > Y4: =transform[scaleweight[1/n]](Y3);
Строим гистограмму относительных частот: > Hist: =statplots[histogram](Y4, color=green):
> plots[display](Hist);
По виду гистограммы выдвигаем гипотезу о показательном распределении генеральной совокупности. Находим накопленные частоты Y5 (накопленная частота показывает, сколько наблюдалось значений, меньших заданного x) и относительные накопленные частоты Y6: > Y5: =transform[cumulativefrequency](Y3); > Y6: =transform[cumulativefrequency](Y4);
Строим график эмпирической функции распределения: > p: =[seq(plot(Y6[i], Y2[i], color=blue), i=1..k)]: plots[display](p);
Находим точечные оценки математического ожидания a (выборочное среднее значение), дисперсии S и среднего квадратического отклонения s: > a: =mean(Y); > S: =variance(Y); > s: =standarddeviation(Y1); Находим исправленные оценки дисперсии (несмещённая оценка дисперсии) и среднего квадратического отклонения: > S1: =S*n/(n-1); > s1: =sqrt(S1);
Находим точечную оценку параметра показательного распределения: > lambda: =1/a; Вычислим вероятности попадания значения случайной величины в первый и последний (k- ый) интервалы: > p[1]: =int(lambda*exp(-lambda*t), t=0..Z[2]); p[k]: =int(lambda*exp(-lambda*t), t=Z[k]..infinity); Вычислим вероятности попадания значения случайной величины во 2, 3, …, k -1 интервалы по формулам : > for j from 2 to k-1 do p[j]: =int(lambda*exp(-lambda*t), t=Z[j]..Z[j+1]) od; Находим теоретические частоты npi: > for j from 1 to k do n*p[j] od; Так как на трёх последних интервалах npi < 5, то объединим эти интервалы и пересчитаем соответствующие вероятности и частоты, при этом число интервалов будет 5: > p[5]: = p[5]+p[6]+p[7]; Y3f[5]: =Y3f[5]+Y3f[6]+Y3f[7];
Сравним эмпирические ni и теоретические npi частоты, для этого находим наблюдаемое значение по формуле , где i = = 1, 2, …, 5, так как три последних интервала объединили. > chi2: =sum((Y3f[i]-n*p[i])^2/(n*p[i]), i=1..5); По таблице критических точек распределения , по заданномууровню значимости aи числу степеней свободы ν = s- l -1 (s – число интервалов после пересчёта, l – число параметров в гипотетической функции распределения) находят критическую точку . В нашем случае a = 0, 01(см. задание), s = 5, l = 1, т.е. ν = 5-1-1=3, тогда . Так как , то гипотеза о показательном распределении генеральной совокупности принимается. Запишем гипотетическую функцию плотности распределения и построим на одном рисунке гистограмму относительных частот и график плотности гипотетического распределения. > f: =piecewise(x< 0, 0, x> =0, evalf(lambda*exp(-lambda*x))); > f1: =plot(f, x=-10..ymax+10): > plots[display](Hist, f1); Запишем гипотетическую функцию распределения и построим её график. > F: =piecewise(x< 0, 0, x> =0, 1-exp(-lambda*x)); > F1: =plot(F, x=-10..ymax+10): > plots[display](F1); Контрольные вопросы к лабораторным работам 4 и 5 1. Что называется генеральной совокупностью, выборкой, реализацией выборки? Привести примеры. 2. Как построить сгруппированный и интервальный статистические ряды? 3. В чём заключается выборочный метод построения математической модели эксперимента? 4. Что называется эмпирической функцией распределения? Какими свойствами она обладает? 5. В чём состоит отличие эмпирической функции распределения от теоретической? 6. Как построить гистограмму частот, относительных частот? Что называется статистикой, оценкой неизвестного параметра? 7. Какая оценка называется состоятельной, несмещённой, эффективной? 8. Какие оценки математического ожидания и дисперсии генеральной совокупности вы знаете? 9. Что такое интервальная оценка и чем она отличается от точечной? 10.Что такое статистическая, нулевая и альтернативная гипотезы? Какую гипотезу называют простой, сложной, параметрической, непараметрической? 11. Дайте определение статистического критерия. Что такое ошибки первого и второго рода? 12. Какую гипотезу вы проверяете в этой работе? На какой статистике строится соответствующий критерий? Как найти число степеней свободы? 13. Какой смысл имеет уровень значимости критерия? 14. Опишите подробно критерий Пирсона.
|