Анализ медико-биологических данных на основе числовых статистических характеристик
Кроме графического способа для описания случайных величин используется целый ряд числовых статистических характеристик. Условно их можно разделить на характеристики положения и характеристики разброса. Если эти характеристики определены по выборке, то они называются выборочными. Необходимо помнить, что выборочные характеристики являются лишь оценкой (приближением) генеральных характеристик, т.е. отражают их с некоторой ошибкой. Учитывая, что в основном, исследователь имеет дело с выборкой, в дальнейшем мы будем опускать слово «выборочный». Пусть имеется случайная величина X (x1, x2, x3 …..xi……xn) К характеристикам положения относятся Среднее значение (выборочная средняя обозначается как , генеральная средняя - буквой μ; )
Среднее значение показывает, где на числовой оси располагается изучаемая совокупность, другими словами это некоторое значение случайной величины, возле которого группируются все другие. Из рисунка 8 видно, что первая совокупность группируется около значения 184,1 см, вторая – вокруг значения 165,5 см. По числовой оси вторая группа расположена ниже, чем первая.
Рисунок 8 Медиана (Ме) – это значение случайной величины, которое делит ранжированную выборку на две равные части. Если число объектов выборки четное, то медиана равна среднему двух соседних центральных значений. Половина объектов выборки имеет значение меньше медианы, половина – больше медианы.
Мода (Мо) – наиболее часто встречающееся значение случайной величины. Для того, чтобы определить моду все значения выборки выстраиваются в ранжированный ряд (по возрастанию или по убыванию). Может быть несколько значений моды, может ее и не быть. Мы уже упоминали о том, что одних средних значений недостаточно для описания групповых свойств. Такой случай представлен на рисунке 9. При равенстве средних значений состав этих совокупностей значительно разница – если члены первой группы все одинаковые по росту, то во второй встречаются низкорослые, среднего роста и высокие – т.е. здесь больше разброс изучаемого признака. Рисунок 9
К характеристикам разброса (рассеяния) относятся Дисперсия (D)
Чем больше дисперсия, тем больше разброс данных, однако, это не просто разница между минимальным и максимальным значениями. В случае, который представлен на рисунке 10, размах (от min до max) в обеих выборках одинаков, но вторая дисперсия больше первой, поскольку, как видно из формулы, при вычислении дисперсии учитывается отклонение каждой величины от среднего значения.
Коэффициент вариации представляет собой относительную меру разброса, выраженную в процентах V% (иногда обозначается Cv)
Коэффициент вариации используют для сравнения разброса двух и более признаков, имеющих различные единицы измерения. Он позволяет судить об однородности совокупности: считаем выборку однородной при V% ≤ 33%. Однако это правило не всегда приемлемо, например нормальные значения в крови фосфатазы щелочной: 30-120 Ед/л. – т.е. может быть достаточно большой разброс.
Минимальное значение , максимальное значение и размах Нижний квартиль Q25 – это значение случайной величины, ниже которого находится 25% выборки (рисунок 11). В ранжированном ряду нижний квартиль находится под номером, определяемым по формуле:
Верхний квартиль Q75 – это значение случайной величины, выше которого находится 25% выборки. В ранжированном ряду верхний квартиль находится под номером, определяемым по формуле: Если номер квартиля получился дробным, то его можно округлить до ближайшего целого. Рисунок 11 Межквартильный (интерквартильный) размах ΔQ=Q75 - Q25. 50 % данных лежит в пределах от нижнего до верхнего квартилей. Еще одно понятие, которое мы должны ввести, это стандартная ошибка среднего. Так как среднее значение, как правило, определяется по ограниченной выборке, то оно отличается от истинной (генеральной) средней, то есть имеет определенную ошибку. Если вычислить средние по многим выборкам и усреднить их стандартные отклонения от генеральной средней мы и получим эту величину, которая обозначается буквой m и вычисляется по формуле
Статистические характеристики удобно отображать с помощью графика «ящик с усами» (whiskers box). При анализе таких графиков обязательно надо обратить внимание на «легенду» - условные обозначение, которые приводятся в нижней части графика (рисунок 12). Если на первом графике (12А) приведены минимальное, максимальное, среднее значения и стандартное отклонение, то из второго графика (12Б) мы получаем информацию о медиане и квартилях.
Рассмотрим примеры практического использования перечисленных характеристик и убедимся, что они реально помогают оценивать ситуацию, когда анализируются большие по объему и разнообразные по свойствам совокупности.
|