В ЭТОМ РАЗДЕЛЕ
Роль случайных факторов Величинар Вероятность того, что существующие различия останутся незамеченными Пример оценки непрерывных переменных при оценке клинических исходов Внесение поправок на исходные различия Одновременная проверка множества гипотез Проблемы, с которыми приходится сталкиваться при проверке гипотез ,. Как уже отмечалось в предыдущей главе, истинный размер эффекта лечения можно оценить только в ходе эксперимента (см. главу 1 Лечение и риск: причины недостоверности результатов —систематические и слу- чайные ошибки). Для более точной оценки истинного эффекта лечения исследователи применяют различные статистические методы. В неко- торых исследованиях последние используются главным образом для проверки той или иной гипотезы, начиная с нулевой гипотезы, которую нужно рассмотреть и, возможно, опровергнуть. Как правило, нулевая гипотеза предполагает отсутствие различий между сравниваемыми ме- тодами лечения. В рандомизированных контролируемых испытаниях (РКИ), в которых сравнивается эффективность изучаемого метода ле- чения и плацебо, нулевая гипотеза будет звучать так: истинное различие по частоте наступления определенного клинического исхода в основ- ной и контрольной группах отсутствует (т.е. равно 0). Например, в од- ном исследовании (804 мужчины с сердечной недостаточностью) эффек- тивности вазодилататоров сравнивали уровень выживаемости среди больных, получавших эналаприл или гидралазин в сочетании с нитра- тами [1]. В начале исследования было выдвинуто предположение, что эффективность описанных схем лечения одинакова. Исследователи при- держивались данной гипотезы до тех пор, пока ее не опровергли полу- ченные результаты. В данном случае нулевая гипотеза подразумевает отсутствие истинных различий по выживаемости среди больных, при- нимавших эналаприл или получавших комбинированную терапию. При проверке гипотезы статистический анализ призван ответить на вопрос, соответствуют ли полученные данные нулевой гипотезе. Логика подобного подхода такова: даже если изучаемое лечение в действитель- ности не оказывает ни положительного ни отрицательного влияния на кли- нические исходы (т.е. его эффективность равна 0), результаты, полученные в основной и контрольной группах, редко совпадают полностью. Чем боль- ше различаются полученные данные, тем менее достоверна нулевая гипо- теза. В случае получения значительных различий между группами лечения и контроля исследователи вправе от нее отказаться. В дальнейшем описан- ная логическая цепочка будет дополнена информацией о роли, которую играют в клинических исследованиях случайные факторы. РолЬ СЛУЧАЙНЫХ ФАКТОРОВ В главе 1 Лечение и риск: причины недостоверности результатов —сис- емагпические и случайные ошибки рассматривается случай, когда веро- ть выпадения орла или решки при каждом подбрасывании идеаль- но сбалансированной монеты составляет 0,5. Было отмечено, что если подбросить такую монету 10 раз, орел и решка не обязательно выпадут одинаково часто. Иногда это соотношение может составлять 8:2 или даже 9:1. Более того, в редких случаях все 10 раз может выпасть только орел или только решка. Подобный разброс результатов обусловлен влиянием случайных фак- торов. Каким образом они действуют, можно продемонстрировать на при- мере некоторых игр. Иногда при подбрасывании двух костей с идеально ровными гранями (т.е. костей, в которых вероятность выпадения любой цифры от 1 до 6 одинакова) могут выпасть две двойки или две шестерки. Аналогичным образом банкомет может сдать игроку в покер 5 карт одной масти (к великой радости игрока). Еще реже эти 5 карт могут оказаться не только одинаковой масти, но и последовательного достоинства. Влияние случайных факторов проявляется не только в вышеописан- ных игровых ситуациях. При включении в исследование участников из общей популяции необычная распространенность какого-либо хрони- ческого заболевания также может оказаться случайной. Кроме того, при сравнении одинаково эффективных препаратов частота наступления того или иного клинического исхода в 2 группах может также оказаться раз- личной под влиянием случайных факторов. По большей части стати- стическая обработка данных направлена на определение степени, в ко- торой подобные различия можно объяснить влиянием случайных фак- торов, а в каких случаях необходимо искать другие причины (например, большая или меньшая эффективность того или иного метода лечения). Как будет показано, результаты статистического анализа в большой мере зависят от размера выборки. ВЕЛИЧИНА Р Исследователь может ошибочно предположить, что между группами лечения и контроля существуют различия, хотя на самом деле они от- сутствуют. Согласно статистической терминологии, подобные ошибки называют ошибкой I рода (а-ошибкой), а их вероятность соответствует уровню а. Вообразите ситуацию, когда мы не имеем информации о сба- лансированности монеты. Предположив, что чаще будет выпадать либо орел, либо решка, мы можем выдвинуть нулевую гипотезу, согласно ко- торой монета сбалансирована и частота выпадения ее сторон будет оди- наковой (т.е. вероятность выпадения орла и решки составит 50%). Мы можем проверить данную гипотезу экспериментальным путем, подбро- сив монету несколько раз. Статистический анализ полученных резуль- татов должен будет ответить на вопрос, в какой степени они оказались следствием влияния случайных факторов. Проведем гипотетический эксперимент. Допустим, мы подбросили монету 10 раз и все 10 раз выпал орел. Насколько вероятен подобный исход в том случае, если монета действительно идеально сбалансирова- на? Большинство людей придут к выводу, что вероятность получения подобного результата под действием случайных факторов очень мала. Мы готовы отвергнуть гипотезу об идеальной сбалансированности мо- неты (нулевую гипотезу) и сделать вывод о том, что у нее смещен центр тяжести. С помощью статистических методов мы можем более точно оценить вероятность того, что полученные результаты обусловлены влия- нием случайных факторов в том случае, если нулевая гипотеза все же верна. Правило перемножения вероятностей независимых событий (ко- гда одно из них никак не влияет на другое) гласит, что вероятность по- следовательного выпадения орла 10 раз рассчитывается путем перемно- жения вероятностей его однократного выпадения, т.е. SSS и т.д. Тогда вероятность данного исхода меньше '/|000. В научных статьях эту вероят- ность отражает величина р (т.е. р<0,001). Каково точное значение вели- чины />? Если при условии сбалансированности монеты (правильности нулевой гипотезы) повторить эксперимент с ее 10-кратным подбрасы- ванием много раз, орел случайно выпадет 10 раз подряд менее чем в 0,1 % серий бросков. Вероятность случайного выпадения или орла или решки 10 раз подряд составит 0,002 (2 из 1000 раз). При проверке гипотез эксперимент не может быть завершен до гех пор, пока не будет принято окончательное решение об отказе от нуле- вой гипотезы, после чего исследователь делает окончательный вывод, в нашем примере —вывод о несбалансированности монеты. Выбор эта- па, на котором будет прекращен эксперимент, зависит от того, насколь- ко мы уверены в сбалансированности монеты в том случае, когда на са- мом деле у нее смещен центр тяжести (другими словами, насколько мы Уверены в том, что не совершим ошибку I рода). Таким образом, мы вы- бираем определенное пороговое значение или границу, по одну сторону °т которой мы примем нулевую гипотезу, а по другую откажемся от нее. Возвращаясь к эксперименту с выпадением орла 10 раз подряд, следует отметить, что большинство людей отвергнут нулевую гипотезу при ве- Роятности подобного исхода ниже 0,001. Повторим эксперимент. На этот раз решка выпала 9 раз, а орел — Данный результат также нельзя объяснить исключительно влия- случайных факторов. Величина р при этом составляет 0,02. Таким Разом, если монета сбалансирована, а нулевая гипотеза верна, по- добный (9 орлов и 1 решка или 9 решек и 1 орел) или описанный ранее (10 орлов или 10 решек) исход может быть случайным лишь в 2 случаях из 100. Должны ли мы отвергнуть нулевую гипотезу в данном случае? Выбор величины р произволен и может быть оспорен. Законы статистики дик- туют положительный ответ, так как за точку разделения правдоподоб- ных и неправдоподобных результатов исследования традиционно при- нимают величину р, равную 0,05. Однако в некоторых случаях это не исключает возможности выбора другого значения р. При р<0,05 полу- ченные результаты расцениваются как статистически значимые. Это означает, что они, по всей видимости, обусловлены не только влиянием случайных факторов, а, следовательно, нулевая гипотеза неверна. Повторим наш эксперимент еще дважды, использовав каждый раз другую монету. Первый раз орел выпал 8, а решка —2 раза. Расчет вели- чины р показывает, что при условии сбалансированности монеты по- добное (2/8 или 8/2) или более неравномерное распределение в резуль- тате действия случайных факторов встречается в 11 случаях из 100 (р=0,11). Таким образом, мы оказываемся по другую сторону от тради- ционно выбранной точки разделения правдоподобных и неправдопо- добных результатов исследования. Если придерживаться общепринято- го мнения, нулевую гипотезу отвергать не следует, а полученные данные следует считать статистически незначимыми. Проведем эксперимент в последний раз. Допустим, что решка выпа- ла 7, а орел 3 раза. Опыт говорит нам, что такой исход (хотя и не очень часто) может наступить даже при использовании сбалансированной монеты. Величина р, равная 0,34, подтверждает наше предположение. Полученные результаты могут встречаться в 34 случаях из 100, т.е. нуле- вая гипотеза оказалась верной. Несмотря на то что проблемы, затрагиваемые в клинических испыта- ниях, несколько отличаются от оценки сбалансированности монеты, при- веденный пример помогает понять значения величины р, которые приво- дятся в научных статьях. При сравнении двух методов лечения исследова- тели задаются вопросом: ≪Какова вероятность того, что наблюдаемые раз- личия обусловлены только влиянием случайных факторов?≫ Если мы со- гласны с точкой разделения р<0,05, следует отвергнуть нулевую гипотезу и сделать вывод о большей (или меньшей) эффективности изучаемого вме- шательства, когда при повторении эксперимента такие же или более выра- женные различия будут наблюдаться менее чем в 5% случаев. Вернемся к РКИ, в котором сравнивали эффективность эналаприла или гидралазина в сочетании с нитратами у 804 мужчин с сердечной не- достаточностью. В нем продемонстрирован метод оценки гипотезы с применением дихотомического клинического исхода —смерти [1]. В течение периода наблюдения от 6 мес до 5,7 года в группе эналаприла умерли 132 из 403 (33%) больных, а в группе комбинированной терапии __ 153 из 401 (38%) больных. При сравнении полученных результатов (доли умерших больных) с помощью критерия %2 было показано, что если нулевая гипотеза верна (т.е. уровень смертности в обеих группах одина- ков), то указанные или более выраженные различия между группами могут встретиться в 11 из 100 случаев (р=0,11). Таким образом, приняв за точку разделения величину р<0,05, мы не можем отвергнуть нулевую гипотезу и вынуждены считать, что наблюдаемые различия случайны. ВЕРОЯТНОСТЬ ТОГО, ЧТО СУЩЕСТВУЮЩИЕ РАЗЛИЧИЯ ОСТАНУТСЯ НЕЗАМЕЧЕННЫМИ Некоторые врачи могут прокомментировать сравнение эффективно- сти эналаприла и гидралазина в сочетании с нитратами, следующим об- разом: ≪Нулевую гипотезу отвергнуть нельзя (так как р>0,05), однако нельзя утверждать, что эналаприл не более эффективен, чем комбини- рованная терапия. Полученные результаты все же неубедительны≫. По- добное заключение заставляет обсудить ошибку II рода, которую может совершить исследователь —не заметить существующих различий, т.е. отрицать бблыпую или меньшую эффективность изучаемого лечения. Вероятность ошибочного заключения об одинаковой эффективно- сти эналаприла и комбинированной терапии может показаться большой. Исследование показало, что прием эналаприла снижает уровень смерт- ности на 5% по сравнению с применением вазодилататоров. Если бы различие по уровню смертности на самом деле составляло 5%, следова- ло бы сделать заключение, что эналаприл имеет важные преимущества. Несмотря на это, мы вынуждены придерживаться нулевой гипотезы. Почему же исследователи, наблюдая столь значительные различия по Уровню смертности, не могут сделать вывод о том, что эналаприл эффек- тивнее гидралазина в сочетании с нитратами? Потому что число участни- ков исследования было недостаточным для подтверждения истинности этих Рэзличий. Вероятность того, что клинически значимые различия останут- незамеченными (вероятность возникновения ошибки II рода), умень- ается по мере увеличения размера выборки. Если эта вероятность доста- чНо высока, статистическая мощность исследования низка. Чем больше ' °рка, тем меньше риск совершения ошибки II рода и тем выше его ста- ^еская мощность. В исследование были включены 804 больных, чего, казалось бы, должно быть достаточно, однако при выборе дихотомическо- го клинического исхода, такого как смерть, для выявления небольшого раз- мера эффекта лечения требуются очень большие выборки. Так, в исследо- вании эффективности тромболитических препаратов при остром инфарк- те миокарда авторы предполагали и наблюдали различие по уровню смерт- ности между группами лечения и контроля, не достигшее 5%. Поэтому в исследование пришлось включить несколько тысяч больных, после этого оно обрело достаточную статистическую мощность. Если нулевую гипотезу отвергнуть не удалось (т.е. р>0,05), истинная эффективность вмешательства могла быть оценена неверно. В этом слу- чае следует решить, достаточна ли статистическая мощность исследова- ния. При этом чем более выражены (статистически незначимые) разли- чия между группами лечения и контроля, тем выше вероятность того, что истинный эффект терапии остался незамеченным [2]. В другой гла- ве данной книги описывается, каким образом можно определить доста- точность размеров выборки (см. главу 3 Лечение и понимание результа- тов исследования: доверительные интервалы). Структура некоторых исследований предназначена не для того, чтобы доказать преимущества нового лечения, а для того, чтобы продемонстри- ровать сравнимую клиническую эффективность распространенного мето- да и более дешевых, простых или безопасных методов. Подобные работы часто называют исследованиями эквивалентности вмешательств [3]. При их проведении или оценке полученных результатов особое внимание следует уделять достаточности выборки для выявления небольших, но клинически значимых различий. В противном случае можно сделать ошибочный вы- вод о сходной эффективности двух методов лечения, в то время как тради- ционная терапия на самом деле будет иметь преимущества перед более де- шевыми, простыми или безопасными вмешательствами. ПРИМЕР ОЦЕНКИ НЕПРЕРЫВНЫХ ПЕРЕМЕННЫХ ПРИ ОЦЕНКЕ КЛИНИЧЕСКИХ ИСХОДОВ До этого момента во всех приводимых примерах использовались та- кие дихотомические критерии оценки или исходы, как положительный и отрицательный результат, орел или решка, смерть или выживание; причем во всех случаях можно бьшо рассчитать частоту наступления того или иного исхода. Однако при сравнении эффективности 2 методов ле- чения и более часто применяются непрерывные данные, имеющие потен- циально бесконечное число возможных значений с небольшими разли- чиями между ними (например, результаты спирометрии, величина сер- дечного выброса, клиренс креатинина или показатели качества жизни, оцениваемого с помощью специальной анкеты). Пример применения таких показателей в качестве критерия оценки (в данном случае переносимость физической нагрузки) приводится в исследовании эффективности эналаприла и гидралазина в сочетании с нитратами при сердечной недостаточности. В отличие от влияния на уровень смертности, комбинированная терапия по сравнению с приме- нением эналаприла повышала переносимость физических нагрузок. Период наблюдения составил 6 мес; для анализа полученных результатов использовали /-критерий. В группе комбинированной терапии переноси- мость физических нагрузок увеличилась в большей степени, причем полу- ченные данные не зависели от влияния случайных факторов (р=0,02). ВНЕСЕНИЕ ПОПРАВОК НА ИСХОДНЫЕ РАЗЛИЧИЯ Проводя проверку гипотезы, исследователи часто учитывают исход- ные различия между группами сравнения, внося поправки в ходе соот- ветствующего анализа, т.е. рассчитывая стандартизованные показатели. В процессе рандомизации больные распределяются случайным образом; при этом, как правило, формируются сопоставимые группы. Однако в некоторых случаях группы могут существенно различаться по наличию и распределению прогностических факторов, влияющих на изучаемый клинический исход. Например, известно, что в некоторых случаях про- гноз хуже у пожилых больных. Однако при сравнении эффективности 2 методов лечения доля таких больных в одной из групп может оказаться больше. Учитывая, что риск развития побочных эффектов у пожилых больных выше, отсутствие поправки на возраст снижает достоверность полученных результатов. Таким образом, при расчете величины р также будет необходимо внести соответствующие поправки. Это позволяет провести анализ данных таким образом, как если бы возрастные разли- чия между группами отсутствовали. Необходимые поправки можно вно- сить для нескольких переменных одновременно. В данном случае ин- терпретация величины р не будет ничем отличаться от обычной. ОДНОВРЕМЕННАЯ ПРОВЕРКА МНОЖЕСТВА ГИПОТЕЗ Долгое время студенты университетов были объектами для проведе- Ия Различных экспериментов. Следуя традиции, для нашего следую- щего гипотетического исследования мы выбрали студентов-медиков. Представьте себе медицинский институт и двух преподавателей, чи- тающих вводный курс медицинской статистики. Один из них пользуется большей популярностью среди учащихся. Декан факультета не может ни- кем заменить менее популярного преподавателя. Тогда, стараясь действо- вать справедливо, он решает провести рандомизированное распределение 200 студентов 1 -го курса по группам; в этом случае у каждого студента будут равные шансы (50%) попасть к тому или иному преподавателю. Преподаватели использовали это решение для того, чтобы наглядно объяснить студентам некоторые важные принципы медицинской ста- тистики. Они задали вопрос: ≪Имеются ли различия в характеристиках студентов двух групп, которые нельзя объяснить влиянием случайных факторов?≫ Из оцениваемых характеристик были выбраны пол, цвет глаз, рост, средний балл, полученный в последний год обучения в колледже, социально-экономический статус и любимая музыка. Для каждого срав- нения была сформулирована своя нулевая гипотеза. Например, для ана- лиза групп по половой принадлежности она звучала так: студентов от- бирали с одного курса, поэтому число девушек в двух сформированных группах должно быть одинаковым. Поскольку студентов отбирали из одной популяции и распределяли по группам рандомизированно, при всех сравнениях нулевая гипотеза истинна, а во всех случаях, когда она отвергнута, результат будет недостоверным. Преподаватели определили необходимые характеристики у каждого из студентов. Было установлено, что группы не различаются по распре- делению 5 из этих характеристик (во всех случаях при оценке сущест- вующих различий р>0,10), однако в одной группе глаза были голубыми у 25 из 100, а в другой —у 38 из 100 студентов. Формальный статистиче- ский анализ показал, что в том случае, если нулевая гипотеза верна (а она верна), вероятность обнаружения аналогичных или более выражен- ных различий между группами по доле лиц с голубыми глазами чуть мень- ше 0,05. Используя традиционную точку разделения (р<0,05), препода- ватели вынуждены были отказаться от нулевой гипотезы. Насколько вероятен тот факт, что при проверке 6 независимых гипо- тез в 2 группах студентов хотя бы в 1 случае различия окажутся статисти- чески значимыми в силу влияния случайных факторов? Под независи- мыми гипотезами мы подразумеваем, что данные, полученные при про- верке одной из них, не влияли на результаты проверки других. Если ве- роятность получения статистически значимых результатов составляет 0,05, то вероятность получения статистически незначимых результатов равна 1 —0,05 = 0,95. При одновременной проверке 2 гипотез вероят- ность получения статистически незначимых результатов равна 0,95 х 0,95 лли 0,952, а при проверке 6 гипотез —0,956 (т.е. 74%). Таким образом, веро- ятность получения, по меньшей мере, одного статистически значимого ре- зультата при одновременной проверке 6 независимых гипотез составляет jOO _ 74 = 26%; иными словами, он будет получен в 1 случае из 4, а не из 20. Если мы хотим сохранить общую границу статистически значимых и не- значимых данных, равную 0,05, для каждого из 6 сравнений пороговую ве- личину р следует разделить на 6; таким образом, она составит 0,008. Приведенный пример имеет двоякий смысл. Во-первых, редкие ис- ходы иногда оказываются случайными. Даже при анализе одной гипо- тезы результат, соответствующий р=0,01, будет получен в 1% наблюде- ний. Во-вторых, не следует проверять одновременно несколько гипо- тез, так как полученные при этом результаты могут оказаться ошибоч- ными. В научной литературе имеется множество примеров данного фе- номена. Так, анализируя результаты 45 испытаний, отчеты о которых были опубликованы в 3 ведущих медицинских журналах, S.J. Pocock et al. обнаружили, что в каждом исследовании применялись в среднем 6 критериев оценки, причем при проведении большинства сравнений оце- нивалась статистическая значимость различий [2]. В качестве примера, убедительно иллюстрирующего опасность одно- временного проведения нескольких сравнений, можно привести РКИ, в котором оценивалось влияние реабилитационных мероприятий на качество жизни больных после инфаркта миокарда. Участников рандо- мизированно включали в группы стандартной терапии, лечебной физ- культуры и медицинских консультаций. Все больные сообщали инфор- мацию о своей работе, досуге, сексуальной активности, удовлетворен- ности своим состоянием, соблюдении рекомендаций врача, качестве досуга и работы, психологическом состоянии, симптомах сердечно-со- судистых заболеваний и общем состоянии здоровья [4]. Три группы были сравнимы практически по всем показателям, однако после 18 мес на- блюдения удовлетворенность своим состоянием у больных из группы лечебной физкультуры была выше; необходимость в помощи членов се- мьи, посвящаемое работе время и частота половых актов в группе про- ведения консультаций была ниже, чем в двух других группах. Означает ли это, что программы лечебной физкультуры и консультаций необхо- димо внедрять из-за того положительного (хотя и незначительного) влия- ния, которые они оказывают на самочувствие больных, или, напротив, от них следует отказаться, так как по большей части клинические исхо- ды между группами не различались? Сами исследователи пришли к вы- воду, что предложенные ими программы реабилитации не повышают качества жизни больных. Однако их оппоненты могут возразить, что, если они улучшают хотя бы некоторые клинические исходы, их приме- нение имеет смысл. Очевидно, что использование многочисленных кри- териев оценки способствует возникновению подобных споров. Существует ряд статистических методов, позволяющих одновременно проверять несколько гипотез. Один из них бьш продемонстрирован выше: величину р разделили на число тестов. Можно также выбрать до начала ис- следования один основной критерий оценки, который и будет определять окончательные выводы. Кроме того, существуют статистические методы (например, обобщение величины эффекта), позволяющие объединять раз- личные клинические исходы в один комбинированный критерий оценки. Более детальное обсуждение статистических методов, которые применя- ются в исследованиях с множественными критериями оценки, в данной книге не приводится. Однако те, кто заинтересовался данной проблемой, смогут найти необходимую информацию в других источниках [5]. ПРОБЛЕМЫ, С КОТОРЫМИ ПРИХОДИТСЯ СТАЛКИВАТЬСЯ ПРИ ПРОВЕРКЕ ГИПОТЕЗ Несомненно, что у некоторых врачей возник ряд вопросов, которые остались непонятыми. Почему, например, нужно использовать единст- венную точку разделения, когда ее выбор осуществляется произвольно? Почему на вопрос об эффективности лечения следует отвечать однознач- но —да или нет, когда можно рассматривать этот критерий оценки как непрерывную переменную (от ≪эффективность маловероятна≫ до ≪эф- фективность практически не вызывает сомнения≫)? Врачи, у которых возникли подобные вопросы, стоят на правильном пути. В главе 3 Лечение и понимание результатов исследования: довери- тельные интервалы дается объяснение, почему альтернативные подходы к анализу данных имеют преимущества перед проверкой гипотезы. Литература 1. Conn J.N, Johnson G., Ziesche S., et al. A comparison of enalapril with hydralazine-isosorbide dinitrate in the treatment of chronic congestive heart failure. N Engl J Med 1991;325:303—10. 2. DetskyA.S., Sackett D.L. When was a "negative" trial big enough? How many patients you needed depends on what you found. Arch Intern Med 1985; 145:709—715.
|