Способы отображения вариационного ряда
Существует несколько способов графического изображения рядов – полигон, гистограмма и кумулята. Полигон распределения в основном используется для изображения дискретного ряда, но можно построить полигон и для интервального ряда, если предварительно привести его к дискретному. Полигон распределения представляет собой замкнутую ломаную линию в прямоугольной системе координат с координатами (xi;qi), где xi – значение i-го признака, qi – его частота или частость. При этом xi откладывают по горизонтальной оси, qi – по вертикальной. Гистограмма распределения применяется для изображения интервального ряда. Для построения гистограммы на горизонтальной оси откладываются последовательно отрезки, равные интервалам признака, и на этих отрезках, как на основаниях, строят прямоугольники, высоты которых равны частотам или частостям для ряда с равными интервалами, плотностям — для ряда с неравными интервалами. Пример 14. Построим гистограмму распределения душ по размеру прирезки в Вельском уезде Смоленской губернии по данным табл. 2 (рис. 2) *.
Как уже отмечалось, для интервального ряда также можно построить полигон распределения. Для этого за значения признака принимают середины интервалов и для полученного дискретного ряда обычным способом строят полигон. Полигон распределения можно получить и по готовой гистограмме. Достаточно соединить отрезками прямых середины верхних оснований прямоугольников и замкнуть фигуру описанным способом. Результаты такого построения изображены на рис. 2 пунктирной линией. Кумулята есть графическое изображение вариационного ряда, когда на вертикальной оси откладываются накопленные частоты или частости, а на горизонтальной — значения признака. Кумулята служит для графического представления как дискретных, так и интервальных вариационных рядов. Пример 15. Построим кумуляту по данным интервального ряда табл. 2. Предварительно рассчитаем накопленные частости. Обозначим на горизонтальной оси интервалы (рис. 3). Нижней границе первого интервала соответствует частость, равная нулю, а верхней границе — вся частость этого интервала (24,5). Верхней границе второго интервала соответствует накопленная частость первых двух интервалов (51,2) и т. д. 0 10 20 30 40 50 60 Возможности графического изображения статистических данных не ограничиваются воспроизведением материала в наглядном, легко воспринимаемом виде. Представление данных в виде графика позволяет просто и быстро получить приблизительные значения таких средних характеристик ряда, как мода и медиана. Используя определенные виды графического изображения вариационного ряда, можно приближенно оценить моду и медиану. 2. Закон нормального распределения. Если уменьшать интервалы и одновременно увеличивать число наблюдений в них, то гистограмма распределения будет все более приближаться к плавной линии. Кривая, к которой стремится график при указанном преобразовании, называется кривой распределения. График нормального распределения представляет собой симметричную одновершинную кривую, напоминающую по форме колокол. Нормальным считается распределение, в котором на признаки вариационного ряда все случайные величины оказывают одинаковое влияние. Форма нормальной кривой и положение ее на оси абсцисс (х) полностью определяется двумя параметрами – средним арифметическим значением и средним квадратичным отклонением s. Ось ординат отражает плотность распределения. При нормальном распределении наиболее часто встречаются величины, близкие к среднему арифметическому, а по мере удаления от среднего значения варианты встречаются все реже. Каждому значению признака х соответствует при этом определенное значение так называемой функции распределения F(x), показывающее, какова вероятность существования вариант, меньших данного значения х. Геометрически вероятность вариант, меньших х, изображается площадью под кривой слева от точки х. Площадь под всей кривой равна 1, что соответствует полной достоверности (т. е. вероятности того, что признак примет вообще какое-то значение). Таким образом, видно, что функция распределения F(x) обобщает понятие накопленной частоты вариационного ряда. Ввиду своей важности для практических приложений функция нормального распределения табулирована, т.е. имеются таблицы, где каждому значению х ставится в соответствие вероятность F(x) существования значений, меньших х. Для удобства табулирования в качестве значений признака берутся не сами величины х, а так называемые нормированные отклонения их от среднего значения t, где . При замене х на t центр распределения смещается в точку 0, а единицей измерения становится величина среднего квадратического отклонения s, но вид кривой распределения не изменяется. Среднее значение нормированного отклонения t равно нулю, а его среднее квадратическое отклонение равно единице (рис. 7). Нормированная функция нормального распределения обладает следующими свойствами: F(—¥) =0; F(¥) = l; F(0)=1/2; F(—t) = 1—F(t). То есть, если нормированное распределение признака равно t = 2, то F(t) =0,97725. Соответственно, в 97 случаев из 100 значения признака не отклоняются от своего среднего не более чем на 2s. На рис. 7 площадь, соответствующая этой вероятности, заштрихована. Довольно часто приходится определять вероятность того, что нормированное отклонение не превысит по модулю некоторой величины t, т.е. значения признака х отклоняются от своего среднего не более чем на ts. Это вероятность обозначается Ф(t) и равна F (t) — F( — t)=2F(t) —1. Чаще всего на практике используется именно вероятность Ф(t), поэтому эта функция также табулирована. Найдем, например, вероятность того, что нормированное отклонение по модулю не превышает 2, другими словами, значения признака х отличаются от своего среднего по модулю не более чем на 2s (|t|£2). По табл. 1 приложения величине t = 2 соответствует Ф(t) =0,9545, т.е. примерно в 95 случаях из 100 значения признака отклоняются от своего среднего не более чем на 2s. При использовании статистических методов часто возникает задача проверки нормальности распределения, поскольку нормальность является существенным условием их корректного применения. Любой вариационный ряд с нормально распределенными признаками, подчиняется закону нормального распределения. Закон нормального распределения (часто называемый законом Гаусса) играет очень важную роль в теории вероятностей и занимает особое место среди других законов. Суть его сводится к следующему. Зная среднее арифметическое значение среднее квадратичное отклонение s мы можем спрогнозировать математическое ожидание плотности распределения значений изучаемого явления. Математическое ожидание . При этом при построении графика на оси абсцисс откладывается математическое ожидание. При нормальном распределении математическое ожидание m равно медиане вариационного ряда и равно приведенной средней арифметической . В том случае, если эти показатели совпадают, мы можем говорить о нормальном распределении, и наш вариационный ряд является нормально распределенным и подчиняется закону нормального распределения. Используя математические вычисления, можно доказать, что если случайная величина распределена нормально, то абсолютная величина ее отклонения от математического ожидания не превосходит утроенного среднего квадратического отклонения. Это так называемое правило трех сигм. На практике это означает, что если распределение случайной величины не известно, но условие, приведенное в данном правиле, выполняется, то есть основание предполагать, что изучаемая величина распределена нормально.
|