Предварительная математическая обработка статистических данных
После получения результатов эксперимента для дальнейшего их анализа проводится упорядочение данных, их графическое представление и расчет основных числовых характеристик. Наблюдаемые значения исследуемого признака Х называют вариантами и обозначают , числа их наблюдений называют частотами и обозначают Общее число наблюдений называют объёмом выборки и обозначают n, Последовательность вариант, записанных в возрастающем порядке, называется вариационным рядом. К характеристикам вариационного ряда относятся: 1) Размах варьирования R — это разность между наибольшим и наименьшим значениями, ; 2) Мода Мо — это варианта, имеющая наибольшую частоту; 3) Медиана Ме — это варианта, делящая вариационный ряд пополам по числу вариант. Статистическим распределением выборки называют множество вариант и соответствующих им частот. Обычно статистическое распреде-ление выборки представляют в виде таблицы:
Эмпирической функцией распределения называется числовая функция , определяющая относительную частоту события Она вычисляется по формуле: (1) где — сумма частот вариант, значения которых меньше х, n — объём выборки. является неубывающей функцией, значения которой принадлежат отрезку . служит оценкой теоретической функции распределения , определяющей вероятность события Основными графическими формами представления данных наблюдений являются полигон частот и гистограмма. Полигоном частот называется ломаная линия, звенья которой соединяют точки с координатами , , …, . Гистограммой называется ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат интервалы одинаковой длины h, а высотами — плотности интервальных частот . Основными характеристиками выборки являются: 1) Выборочная средняя , вычисляется по формуле: . (2) 2) Выборочная дисперсия , вычисляется по формуле: . (3) 3) Исправленная дисперсия , вычисляется по формуле: (4) 4) Выборочное среднее квадратическое отклонение , вычисляется по формуле: (5) 5) Исправленное среднее квадратическое отклонение s, вычисляется по формуле: (6) 6) Коэффициент вариации V, вычисляется по формуле: . (7) Перечисленные характеристики относятся к точечным оценкам, при малых объёмах выборки предпочтительнее пользоваться интервальными оценками. Доверительным интервалом для параметра , точечной оценкой которого является , называют интервал , содержащий с заданной вероятностью значение параметра , называют надежностью оценки. Например, в случае нормально распределённой случайной величины доверительный интервал для среднего значения при неизвестном параметре определяется формулой: (8) где t — критическая точка распределения Стьюдента с степенями свободы для двусторонней области на уровне значимости определяется по таблицам, например в . Пример. Статистическая обработка результатов измерений (вычисления выполнять с точностью до двух знаков после запятой) Даны результаты измерений значений случайной величины Х. Составить статистическое распределение выборки и найти: а) характеристики вариационного ряда: размах варьирования, моду, медиану; б) эмпирическую функцию распределения и построить ее график; в) построить полигон частот и гистограмму; г) выборочную среднюю; д) выборочную и исправленную дисперсии; е) выборочное и исправленное средние квадратические отклонения (стандарт); ж) коэффициент вариации (%); з) доверительный интервал для среднего значения признака Х с надежностью =0,95; 12; 9; 16; 17; 10; 9; 15; 12; 15;16; 20; 18; 17; 9; 15; 9; 16; 9; 18; 16 Составим статистическое распределение выборки. Для этого расположим варианты в порядке возрастания: 9; 9; 9; 9; 9; 10; 12; 12; 15; 15; 15; 16; 16; 16; 16; 17; 17; 18; 18; 20 и подсчитаем числа наблюдений каждой варианты — частоты. Получим: а) Размах варьирования мода Мо =9; объём выборки n =20, поэтому середина вариационного ряда находится между 10-й и 11-й вариантами в упорядоченном вариационном ряду, и медиана вычисляется как их среднее арифметическое, Ме = (15+15)/2=15. б) Эмпирическую функцию распределения найдём по формуле (1): ; ; ; ; ; ; ; ;
Построим график (рис. 1)
в) Построим полигон частот (рис. 2). Для этого по оси отложим наблюдаемые значения , а по оси частоты . Отметим точки с координатами и соединим их последовательно отрезками прямых.
Для построения гистограммы разобьём интервал изменения x (9,20) на два интервала одинаковой длины h =5,5, подсчитаем интервальные частоты и плотности интервальных частот. Результаты внесём в таблицу 1. Таблица 1
Построим гистограмму (рис. 3).
г) Вычислим выборочную среднюю по формуле (2): . д) Вычислим выборочную дисперсию формуле (3): . Исправленную дисперсию найдём по формуле (4): е) Выборочное и исправленное средние квадратические отклонения найдём по формулам (5) и (6): ж) Коэффициент вариации вычислим по формуле (7): з) Доверительный интервал для среднего значения признака Х найдём по формуле (8). Сначала по таблице [1] найдём критическую точку распределения Стьюдента с числом степеней свободы и уровнем значимости Получим t = 2,09 и подставим в формулу (8): . После вычисления получим доверительный интервал для среднего значения
|