Вариационный ряд, его построение. Полигон частот. Гистограмма частот
Первым этапом практически любого метода статистического анализа является построение вариационного ряда. Обычно этот этап выполняется программами статанализа автоматически, незаметно для пользователя, но полезно знать, что из себя представляет вариационный ряд, т.к. это понятие является одним из базовых в статистике. Итак, вариационный ряд – это ряд числовых значений случайным образом изменяющегося признака, упорядоченных по величине (обычно – по нарастанию, от минимального к максимальному). Значения в вариационном ряду называют вариантами. Для удобства восприятия и анализа (чтобы не указывать одинаковые варианты, количество которых может быть весьма велико) вариационный ряд обычно представляют в виде упорядоченного списка значений вариант с указанием количества повторов каждой из них. Это количество повторов называется «частота варианты». Например, приведем экзаменационные оценки 45 студентов к виду вариационного ряда: 1) Исходный вид: 5 3 3 4 2 4 4 3 5 4 4 5 5 4 4 3 3 3 2 5 5 4 4 4 3 4 3 4 5 4 4 4 4 3 3 4 3 4 3 2 3 2 3 3 3. При таком представлении информации трудно делать какие-либо выводы об успеваемости студентов, поскольку данные визуально не воспринимаемы. 2) Приведем список оценок к виду вариационного ряда – список вариант оценок по нарастающей с указанием частоты каждой из них (в скобках): 2 (n=4), 3 (n=16), 4 (n=18), 5 (n=7). Таким образом, вместо 45 чисел осталось 8, при этом повысилась информативность представления данных: видно, что более 50% студентов сдали предмет на хорошо и отлично. Вариационный ряд используется для построения эмпирической функции распределения, о которой пойдет речь в следующем разделе. Графическим выражением вариационного ряда является т.н. полигон частот – график (обычно – линейный), где значения оси Х соответствуют ряду вариант, упорядоченных по величине, а значения оси Y – частотам соответствующих вариант (см. рис. 2).
Рис. 2. Полигон частот как графическое отображение вариационного ряда.
Построение полигона частот – первый этап анализа эмпирической функции распределения данных. Помимо этого, полигон частот позволяет путем визуального анализа сделать ряд предварительных выводов о центральной тенденции и дисперсии (разбросе) данных в вариационном ряду, преобладании в анализируемой выборке более высоких или более низких значений изучаемого признака, (не)однородности выборки и т.п. В том случае, когда количество вариант очень велико, что затрудняет визуальное восприятие полигона частот, а анализируемый признак является непрерывным (не дискретным), весь диапазон значений вариант разбивается на произвольные (лучше – равные) интервалы, число которых, как правило, составляет 8-15 (границы интервалов не должны пересекаться). Вариационный рад, представленный в подобном виде, называется интервальным. При графическом отображении интервального вариационного ряда на оси Х отмечаются границы интервалов, сами интервалы упорядочиваются по возрастанию, а значения, откладываемые по оси Y, равны суммарным частотам всех вариант, попадающих в соответствующие интервалы. Образующаяся при этом диаграмма в виде сдвинутых прямоугольников («столбчатая») носит название «гистограмма частот», причем площадь указанных прямоугольников прямо пропорциональна частотам соответствующих вариант. Так, например, в таблице 1 приведено количество лиц, умерших от несчастных случаев в различном возрасте за один год наблюдения, причем весь диапазон учтенных возрастов для удобства исследователей разделен на 10 интервалов:
Таблица 1. Количество лиц различного возраста, умерших за 1 год наблюдения.
Соответствующая данной таблице гистограмма частот приведена на рис. 3.
Рис. 3. Гистограмма частот, соответствующая интервальному вариационному ряду, приведенному в таблице 1 (повозрастная смертность).
|