Дискретный вариационный ряд
Рис.1 Рис.2
На основании полученных выборочных данных необходимо сделать предположение, что изучаемая величина распределена по некоторому определённому закону. Для того чтобы проверить, согласуется ли это предположение с данными наблюдений, вычисляют частоты полученных в наблюдениях значений, т.е. находят теоретически сколько раз величина Х должна была принять каждое из наблюдавшихся значений, если она распределена по предполагаемому закону. Для этого находят выравнивающие (теоретические) частоты по формуле: (7) где n – число испытаний, - вероятность наблюдаемого значения , вычисленная при допущении, что Х имеет предполагаемое распределение. Эмпирические (полученные из таблицы) и выравнивающие частоты сравнивают, и при небольшом расхождении данных делают заключение о выбранном законе распределения. Предположим, что случайная величина Х распределена нормально (см. комментарии к задаче № 4). В этом случае выравнивающие частоты находят по формуле: (8) где n -число испытаний, h -длина частичного интервала, -выборочное среднее квадратичное отклонение, ( - середина i – го частичного интервала) – функция Лапласа (9) Результаты вычислений отобразим в таблице №8. Сравнение графиков (рис.2) наглядно показывает близость выравнивающих частот к наблюдавшимся и подтверждает правильность допущения о том, что обследуемый признак распределён нормально.
Таблица 8 Расчёт выравнивающих частот
Интервальный вариационный ряд графически изобразим в виде гистограммы (рис.3). На оси Х отложим интервалы длиной h =3, а на оси Y значения ,расчёт которых представлен в таблице №7. Площадь под гистограммой равна сумме всех относительных частот, т.е. единице. Графическое изображение вариационных рядов в виде полигона и гистограммы позволяет получать первоначальное представление о закономерностях, имеющих место в совокупности наблюдений.
3) Найдём числовые характеристики вариационного ряда, используя таблицу №4. Выборочная средняя (): или , (10) где - частоты, а -объём выборки. Выборочная средняя является оценкой математического ожидания (среднего значения теоретического закона распределения). В некоторых случаях удобнее рассчитать с помощью условных вариант. В нашем случае варианты - большие числа, поэтому используем разность: (11) где С – произвольно выбранное число (ложный нуль). В этом случае . (12) Для изменения значения варианты можно ввести также условные варианты путём использования масштабного множителя: , (13) где (b выбирается положительным или отрицательным числом). . Здесь С – середина 8-го интервала. Выборочная дисперсия (): (14) также может быть рассчитана с помощью условных вариант: (15) = (1*441+0*324+…+1*324)- 1,95²=40,21 Среднеквадратическое отклонение: = (16) = =6,34 Найдем несмещённую оценку дисперсии и среднеквадратического отклонения («исправленную» выборочную дисперсию и среднеквадратическое отклонение) по формулам: и (17)
= =40,41 и S = 6,34=6,36 Доверительный интервал для оценки математического ожидания с надёжностью 0,95 определяют по формуле: P( - t Ф(t)= (18) Из соотношения Ф(z)= /2 вычисляют значение функции Лапласа: Ф(z)=0,475. По таблице значений функции Лапласа (Приложение А) находят z =1,96. Таким образом, 168,55-1,96 , 167,67< a <169,43. Доверительный интервал для оценки среднего квадратичного отклонения случайной величины находят по формуле: , (19) где S – несмещённое значение выборочного среднего квадратичного отклонения; q – параметр, который находится по таблице (Приложение В) на основе известного объёма выборки n и заданной надёжности оценки . На основании данных значений =0,95 и n =200 по таблице (Приложение В) можно найти значение q =0,099. Таким образом, , 5,79 < V = (20) 4) Проведём статистическую проверку гипотезы о нормальном распределении. Нормальный закон распределения имеет два параметра (r =2): математическое ожидание и среднее квадратическое отклонение. По выборочным данным (таблицы 5 и 7) полученные оценки параметров нормального распределения, вычисленные выше: , , S =6,36. Для расчёта теоретических частот используют табличные значения функции Лапласа Ф(z). Алгоритм вычисления состоит в следующем: - по нормированным значениям случайной величины Z находят значения Ф(z), а затем : , =0,5+ Ф(). Например, ; ; Ф (-3,0) = -0,4987; ; - далее вычисляют вероятности = P (; - находят числа , и если некоторое <5, то соответствующие группы объединяются с соседними. Результаты вычисления , , и приведены в таблице 9. По формуле = (21) можно сделать проверку расчетов. По таблице (приложения Г) можно найти число по схеме: для уровня значимости α;=0,05 и числа степеней свободы l=k-r-1 =9-2-1=6 =12,6. Следовательно, критическая область - (12,6; ). Величина =15,61 входит в критическую область, поэтому гипотеза о том, что случайная величина Х подчинена нормальному закону распределения, отвергается. При α;=0,1 =10,6. Критическая область - (10,6; ). Величина =15,61 также входит в критическую область и гипотеза о нормальном законе распределения величины Х отвергается. При α;=0,01 =16,8, (16,8; ). В этом случае нет оснований отвергать гипотезу о нормальном законе распределения. Таблица 9 Определение
,0000 2 часть 1) Данные таблицы 3 сгруппируем в корреляционную таблицу 10. 2) Строим в системе координат множество, состоящее из 200 экспериментальных точек (рисунок 4). По расположению точек делаем заключение о том, что экономико-математическую модель можно искать в виде . 3) Найдём выборочные уравнения линейной регрессии. Для упрощения расчётов разобьём случайные величины на интервалы и выберем средние значения. Для величины Х указанные действия были выполнены в 1 части задания. Таблица 10 Корреляционная таблица
Рис.4 Для случайной величины Y, используя (1), получим h =2, число интервалов равно 13. Результаты внесём в таблицу со сгруппированными данными №11. Находим средние значения , по формулам:
, (22) , (23) , (24) . (25)
149,5*86+155,5(82+…+90)+…+188,5*104=2986101
Используя формулы: , (26) , (27)
получим
= , =
Таблица 11 Сгруппированные данные выборки
4) Вычисляем выборочный коэффициент корреляции по формуле: . (28) = Принято считать, что если 0,1< <0,3 – связь слабая, если 0,3< <0,5 – связь умеренная, если 0,5< <0,7 – связь заметная, если 0,7< <0,9 – связь высокая, если 0,9< <0,99 – связь весьма высокая. Для данного примера связь между X и Y умеренная. Затем получают выборочное уравнение линейной регрессии Y на X в виде: (29) и выборочное уравнение линейной регрессии X на Y: . (30) и или Вычисления сумм рекомендуем проводить с помощью пакетов прикладных математических программ (сегодня их существует много).
|