Анализ достоверности различий количественных и качественных данных
Прежде всего, хотелось бы напомнить о том, что существуют параметрические и непараметрические методы статистического анализа. Параметрические методы используются для обработки нормально распределенных данных (и только их), поскольку базируются на центральной предельной теореме теории вероятностей (см. раздел 4 настоящей главы). Непараметрические методы могут использоваться как для обработки нормально распределенных данных, так и данных с иными типами распределения (т.е. любых). Предполагается, что непараметрические методы должны использоваться для разведочного анализа в ситуациях, когда вид распределения изучаемых данных неизвестен. Данная рекомендация не лишена оснований, поскольку параметрические методы более чувствительны, иначе говоря, при обработке одинаковых наборов данных параметрические методы возвращают меньшее значение р, что может быть существенно для оценки результатов исследования. Тем не менее, в реальности нормальное распределение данных в биомедицинских исследованиях встречается чуть чаще, чем никогда, ввиду чего непараметрические методы составляют основу математического аппарата медицинского статистика. Это не исключает использования параметрических методов анализа в тех случаях, когда ситуация это позволяет (все анализируемые данные нормально распределены). Способы проверки распределения данных на соответствие нормальному были приведены в разделе 4 настоящей главы. Второе, на что хотелось бы указать, начиная рассмотрение прикладных методов медицинской статистики – это на мнение зарубежных экспертов, согласно которому, «…правильно спланированное и тщательно выполненное исследование не нуждается в сложных методах статистической обработки» [10]. Анализ количественных и качественных данных на предмет достоверности их различий – одна из наиболее распространенных разновидностей статистического анализа. Действительно, задача биомедицинских исследований преимущественно состоит в том, чтобы сравнить некие важные параметры пациентов до лечения и после, или в группе пациентов – с группой здоровых (контрольной), или у пациентов с несколькими различными заболеваниями – между собой, причем на основе результатов сравнения делаются выводы об эффективности (или сравнительной эффективности) различных методов терапии, роли изучаемого явления в патогенезе определенного заболевания, диагностической ценности определения различных параметров организма и т.д. Проводя сравнение экспериментальных данных на предмет статистической значимости их различий, нельзя забывать о нескольких обязательных правилах данной процедуры: 1. Сравниваемые наборы данных (переменные) должны относиться к одному и тому же параметру и иметь одинаковую размерность. Проще говоря, нельзя сравнивать метры с килограммами, а также дюймы с сантиметрами; 2. Сравниваемые группы должны быть корректно сформированы (в идеале – таким образом, чтобы все важные параметры в обоих группах, кроме сравниваемых, не различались). Указанный аспект подробно рассмотрен в Главе III настоящего руководства; 3. При сравнении данных зависимых (парных) и независимых (непарных) наблюдений необходимо пользоваться разными статистическими методами, учитывающими особенности обоих вариантов сравнения. Зависимые (парные) наблюдения – это серия наблюдений, полученных от одного и того же участника (участников) исследования до и после некоего вмешательства, либо одновременно – при проведении нескольких вмешательств на различных участках тела испытуемого. Суть подобного метода заключается в том, что данные сравниваются между собой попарно, и каждая пара наблюдений получена при исследовании одного и того же подопытного лица. С определенными оговорками к зависимым наблюдениям можно причислить исследования, выполненные на парах однояйцевых близнецов, включенных в разные группы сравнения, а также на пациентах, тщательно подобранных в пары по совпадению всех важнейших параметров, могущих оказать влияние на результат исследования. Независимые (непарные) наблюдения – это наблюдения, полученные путем замера определенного параметра в группах сравнения (в общем случае – в опытной и контрольной). При этом пары не формируются, попарное сравнение данных не производится; лица, подвергшиеся и не подвергшиеся изучаемому воздействию – разные люди. Рекомендации по использованию конкретных статистических (параметрических и непараметрических) методов для сравнения количественных и качественных данных, полученных в зависимых и независимых наблюдениях, приведены в таблице 4.
Таблица 4. Рекомендации по использованию методов вариационной статистики для анализа статистической значимости различий данных биомедицинских исследований.
Анализ статистической значимости различий признака в независимых и зависимых выборках с использованием t-критерия Стьюдента имеет несколько критериев применимости: 1. Значения признака в каждой из сравниваемых групп должны иметь нормальное распределение (т.к. данный тест – параметрический); 2. Дисперсии распределения признаков в сравниваемых группах должны быть равны (проверяется при помощи F-критерия или критерия Левена; данная проверка включена во все программные пакеты для прикладного статанализа). Критерий наличия статистически значимых различий сравниваемых данных: p<0,05 (при р>0,05 для критерия Левена, т.е. при равенстве дисперсий в группах сравнения). Анализ достоверности различий по t-критерию Стьюдента – частный случай однофакторного дисперсионного анализа (ANOVA) при сравнении двух групп.
Параметрическим методом, применяемым для сравнения трех и более независимых рядов данных, является однофакторный дисперсионный анализ (ANOVA). Основной целью дисперсионного анализа является исследование значимости различий между средними арифметическими сравниваемых рядов данных. Критерии применимости данного метода анализа: 1. Анализируемый признак должен быть количественным; 2. Анализируемый признак в каждой из сравниваемых групп должен иметь нормальное распределение; 3. Дисперсии распределения признаков в сравниваемых группах должны быть равны; 4. Группирующий признак должен являться качественным. Критерий наличия статистически значимых различий сравниваемых данных: p<0,05 (при р>0,05 для критерия Левена, т.е. при равенстве дисперсий в группах сравнения). При выявлении статистически значимых различий между тремя и более сравниваемыми группами (р<0,05) компьютерная реализация однофакторного дисперсионного анализа позволяет сравнить указанные группы еще раз – попарно, уточнив характер этих различий. Обычно для этого используется метод множественных сравнений Шеффе.
Непараметрические методы статистического анализа, используемые для попарного сравнения рядов данных, полученных из независимых выборок – U-тест Манна-Уитни-Уилкоксона (стандарт de facto), тесты Колмогорова-Смирнова и Вальда-Вольфовитца. Критерии применимости данных методов анализа: 1. Анализируемые признаки должны быть количественные или порядковые; 2. Допускается любая форма частотного распределения, т.к. проверяется гипотеза о равенстве средних рангов (вместо средних арифметических); 3. Позволяет выявлять различия в значении параметра при сравнении переменных, полученных из малых выборок. В каждой из сравниваемых переменных должно быть не меньше 3 значений признака (допустимо 2 значения в одной из переменных, но тогда во второй сравниваемой переменной должно быть не менее 5 значений). Критерий наличия статистически значимых различий сравниваемых данных: p<0,05 (одно- либо двусторонний, в соответствии с исходной гипотезой).
Непараметрические методы статистического анализа, используемые для сравнения трех и более переменных, полученных из независимых выборок – тест Краскела-Уоллиса, а также медианный тест). Тест Краскела-Уоллиса предназначен для проверки равенства медиан нескольких выборок (функциональный аналог ANOVA). Данный критерий является многомерным обобщением критерия Манна-Уитни-Уилкоксона, ввиду чего имеет те же свойства и ограничения. Медианный тест – грубый вариант теста Краскела-Уоллиса, предназначенный для случаев, когда шкала измерения признака искусственно ограничена, т.к. большое число значений приходится на крайние области шкалы. Использует анализ таблиц сопряженности при помощи критерия χ2. Критерий наличия статистически значимых различий сравниваемых данных: p<0,05. При получении р<0,05 рекомендуется провести попарное сравнение групп с использованием U-теста Манна-Уитни-Уилкоксона.
Непараметрические методы статистического анализа, используемые для сравнения двух переменных, полученных из зависимых выборок – ранговый критерий знаков (signed-rank test), Т-критерий Уилкоксона. Критерии применимости данных методов анализа: Ранговый критерий знаков: анализируемый признак должен быть количественный, а вид его распределения – неизвестен (либо не является нормальным хотя бы в одной из выборок). Используется при проверке нулевой гипотезы о равенстве медиан двух непрерывно распределенных случайных величин. Критерий Уилкоксона: анализируемый признак может быть как количественный, так и порядковый. Данный способ более мощный, чем ранговый критерий знаков. Объем анализируемой выборки должен составлять от 5 до 50 элементов. Критерий Уилкоксона целесообразно применять, когда амплитуда колебаний значений исследуемого признака составляет не менее 10-15% от его максимальной величины. Критерий наличия статистически значимых различий сравниваемых данных: p<0,05.
Непараметрические методы статистического анализа, используемые для сравнения двух качественных (номинальных) переменных – тест по критерию Chi-square (χ2), точный тест Фишера. При этом производится сравнение частоты встречаемости изучаемых качественных признаков в двух выборках (обычно – в опытной и контрольной группах). Оба метода требуют построения и заполнения т.н. «четырехпольной таблицы сопряженности», или «таблицы 2×2» (см. таблицу 5).
Таблица 5. Принцип построения четырехпольной таблицы (таблицы 2×2).
Пример. Сравниваются 2 группы пациентов по 60 человек. В группе №1 – 21 больной стенокардией напряжения, в группе №2 – 34 больных. Четырехпольная таблица сопряженности для указанных данных имеет следующий вид:
Таблицу подобного вида придется строить также при вычислении отношений рисков (RR) и отношений шансов (OR) (см. далее).
Условия применимости теста по критерию Хи-квадрат: 1. Сравниваемые переменные – номинальные или порядковые; 2. Наблюдения в сравниваемых выборках – независимые; 3. В каждой из сравниваемых переменных – не менее 5 наблюдений; 4. Используются только количественные характеристики изучаемого признака (как в четырехпольной таблице, приведенной выше), но не доли или проценты. Если количество наблюдений в любой из ячеек менее 10, используется поправка Йетса на непрерывность, которая увеличивает значение р. Критерий наличия статистически значимых различий сравниваемых данных: p<0,05.
Условия применимости точного теста Фишера: 1. Используется при количестве наблюдений менее 5 в любой из ячеек четырехпольной таблицы (т.е. данный тест пригоден для сравнения ОЧЕНЬ МАЛЫХ выборок); 2. Сравниваемые переменные – номинальные или порядковые; 3. Наблюдения в сравниваемых выборках – независимые; 4. Используются только количественные характеристики изучаемого признака (как в четырехпольной таблице, приведенной выше), но не доли или проценты. Критерий наличия статистически значимых различий сравниваемых данных: p<0,05. По мере увеличения размера сравниваемых групп (n) результаты точного теста Фишера приближаются к таковым, полученным с помощью теста по критерию Хи-квадрат. Программа Statistica позволяет быстро проверить статистическую значимость различий двух коэффициентов корреляции, средних арифметических (происходящих из нормально распределенных выборок) и пропорций при помощи особого диалогового окна (см. рис. 22).
Рис. 22. Диалоговое окно программы Statistica версий 7.0 и 8.0, используемое для быстрой проверки статистической значимости различий пары средних арифметических, коэффициентов корреляции и пропорций.
Необходимо отметить, что отечественные исследователи наиболее часто сравнивают частоты и доли с помощью t-критерия Стьюдента, то время как за рубежом для таких сравнений чаще всего используется критерий Хи-квадрат (χ2) Пирсона. Причина, вероятно, кроется в простоте применения критерия Стьюдента и в слабой информированности исследователей об ограничениях применения данного критерия. Биномиальное распределение приближается к нормальному лишь при наличии больших выборок и при частотах, близких к 0,5. Игнорирование ограничений метода может приводить к обнаружению различий там, где их нет, так как оценка статистической значимости в подобном случае дает слишком оптимистичные результаты для ситуаций, когда частота события меньше 0,25 или больше 0,75 [2].
|