ОТ РЕШЕНИЙ К ВЫВОДАМ
Люди, которые не любят статистику, считают, что все эти модные проверки статистической значимости не имеют особого смысла. Они не правы. С другой стороны, люди, поклоняющиеся статистике, считают, что за каждым статистическим решением автоматически следует экспериментальный вывод. Они тоже не правы. Мы попытаемся показать, что истина находится между этими крайностями. Наш девиз: используйте статистику, но сделайте так, чтобы она стала вашей служанкой, а не вашей госпожой.
Игнорирование проверки на значимость
Предположим, что Флинер и Кернс не стали бы рассматривать нуль-гипотезу. Они решили бы расценивать любое различие в пользу ухода матери как подтверждающее их экспериментальную гипотезу. В таком случае они приняли бы различие 0,93 для младшей группы тоже как значимое. Это было бы довольно рискованно. При дальнейшем знакомстве с их статьей можно увидеть, что для самой младшей исследовавшейся группы детей (в возрасте от трех до пяти месяцев) различие оказалось равным 1,78 с противоположным знаком, т. е. плач был больше при уходе ассистентки. Таким образом, выбирая тактику постоянного игнорирования нуль-гипотезы, экспериментаторы вынуждены были бы прийти к подтверждению противоположной гипотезы, которая в данном случае выглядит довольно бессмысленно.
Мы можем сразу увидеть, к каким последствиям приведет противоположная тактика, при которой нуль-гипотеза никогда не отвергается. Польза от проверки нуль-гипотезы всегда видна сразу. Если куль-гипотеза окажется верной, экспериментальные выводы, не учитывающие ее, всегда будут ложными: будет считаться, что получила подтверждение либо экспериментальная гипотеза, либо противоположная ей гипотеза. Более того, когда нуль-гипотеза неверна и существует некоторое действительное различие в пользу того или иного условия, выводы тоже зачастую могут оказаться ложными. Предположим, что для младших детей бесконечный эксперимент показал небольшое преобладание плача при уходе матери. В любом конкретном эксперименте это различие вполне могло оказаться с противоположным знаком. Эта последняя ошибка будет делаться тем чаще, чем меньше надежность данных. Вообще говоря, в младшую группу входило только девять детей, так что надежность полученных по ним данных довольно сомнительна.
Итак, в научных экспериментах мы не можем обойтись без проверки на значимость.
Разновидности риска и типы ошибок
Поскольку нам известно, что реальные эксперименты не бывают ни идеальными, ни бесконечными, мы знаем, что некоторые из наших решений окажутся ошибочными независимо от применявшегося правила решения. Может быть, Флинер и Кернс не следовало отвергать нуль-гипотезу для старшей группы. Может быть, нуль-гипотеза была верна. Если бы они использовали 0,01 альфа-уровень, они не смогли бы отвергнуть нуль-гипотезу. И было бы прекрасно, если бы нуль-гипотеза и в самом деле была правильной. Ну а что, если нет? При обоих альфа-уровнях они рисковали бы — но противоположным образом.
Ошибки I типа. Первый риск состоит в возможности ошибки I типа: отвержение нуль-гипотезы, когда она верна. Если исследователь использует в правиле решения уровень 0,05, это означает, что он готов сделать такую ошибку не более чем в пяти процентах его экспериментов. Когда он затем принимает отвержение нуль-гипотезы в качестве подтверждения экспериментальной гипотезы (например плач более сильный при уходе матери), это показывает его чрезмерный оптимизм. Ведь существует 1 шанс из 20, что такое доказательство ошибочно.
В любом эксперименте, направленном на проверку совершенно новой гипотезы, противоречащей общепринятому представлению, можно посоветовать быть более осторожным. Ломать научные традиции — вещь очень серьезная, и для этого нужно быть абсолютно уверенным в своих фактах. В таких случаях рекомендуется использовать более строгое правило решения, с 0,01 альфа-уровнем. Наука еще может выдержать 1 процент результатов, которые ошибочно приняты за подтверждающие экспериментальную гипотезу, но 5 процентов — это уж слишком!
Ошибки II типа. Если мы настаиваем на 0,01 альфа-уровне (или даже более строгом уровне, таком, как 0,001), появляется новый риск: наше желание быть абсолютно уверенными может привести нас к ошибочному неотвержению нуль-гипотезы, когда она на самом деле неверна. Вполне естественно, что это называют ошибкой II типа. Если нуль-гипотеза ошибочна, верна должна быть какая-то другая гипотеза. Риск не отвергнуть нуль-гипотезу, когда верна другая гипотеза (например определенное различие в плаче при уходе матери и ассистента), может быть также выражен через вероятность, называемую бета-уровнем.
Для данной совокупности экспериментальных результатов уменьшение альфа-уровня означает увеличение бета-вероятности для любой ненулевой гипотезы. Использование очень строгого правила решения означает, что экспериментатор готов пойти на значительный риск, заключающийся в неотвержении нулевой гипотезы, когда верна какая-то другая гипотеза. Таким образом, при низком альфа-уровне экспериментатор будет часто ошибочно заключать, что результаты не подтверждают экспериментальную гипотезу. В отличие от альфа-уровня, для бета-уровня невозможно задать некоторое общее значение вероятности; она различается для каждой конкретной ненулевой гипотезы о различии между условиями. Так, если окажется верной гипотеза о большом различии между условиями (скажем, разница в интенсивности плача +5 ед.), вероятность не отвергнуть нуль-гипотезу (бета) будет низкой даже при использовании строгого альфа-уровня 0,01. С другой стороны, если действительная разность окажется небольшой (скажем, + 1,0), вероятность ошибочного решения не отвергнуть нуль-гипотезу будет намного больше. Однако, логика отношений сохраняется: при одних и тех же данных уменьшение альфа-уровня увеличивает бета-вероятность для всех статистических гипотез, отличных от нуль-гипотезы.
О статистической проверке экспериментальных результатов говорят как об имеющей силу в той степени, в какой бета-величина остается низкой для ненулевых гипотез. При хорошей силе выявляются реальные различия. Конечно, сила автоматически повышается с использованием нестрогого правила решения (например 0,10 альфа-уровня), но это увеличивает риск ошибки I типа. Существует два более удачных способа увеличения силы. Один состоит в увеличении надежности данных. Как мы видели на рис. 6.1 (в), даже при небольшом различии между условиями оказывается возможным отвергнуть нуль-гипотезу либо путем увеличения числа испытуемых, либо путем уменьшения случайных вариаций. Другой способ состоит в использовании наиболее эффективных экспериментальных схем и проверок. Те и другие описаны в специальной литературе (см., например, Коэн, 1977).
В предыдущем параграфе уже говорилось, что ошибки I типа следует избегать в том случае, когда отвержение нуль-гипотезы связано с отрицанием существующих идей или результатов предыдущих экспериментов. С другой стороны, если экспериментатор не обнаруживает значимых различий между условиями, которые обычно признаются эффективными, это его заключение должно основываться на использовании высокого (или нестрогого) альфа-уровня, чтобы уменьшить риск ошибки II типа. Почти любой полученный ранее правильный результат может быть «опровергнут» путем ошибочного неотвержения нуль-гипотезы: либо через использование ненадежных данных, либо через применение слишком строгого правила решения, либо (самый худший вариант) через то и другое вместе.
Теперь давайте рассмотрим, какие выводы должен сделать экспериментатор при отвержении нуль-гипотезы.
Заключения при неотвержении нуль-гипотезы. Пожалуйста, заметьте: в отношении нуль-гипотезы принимается только два статистических решения — отвергнуть ее или не отвергнуть. Никогда не бывает решения принять нуль-гипотезу. Все же для экспериментатора иногда полезно заключить, что независимая переменная не оказывает никакого влияния. Как видно из диаграммы на с. 241, неотвержение нуль-гипотезы привело бы к заключению, что не подтверждается ни экспериментальная гипотеза, ни противоположная ей гипотеза. Например, для младшей группы детей небольшое различие в интенсивности плача не благоприятствует ни гипотезе о более сильном плаче при уходе матери, ни противоположной гипотезе о более сильном плаче при уходе ассистентки. Однако из подобных неподтверждений можно вывести различные заключения.
Во-первых, экспериментатор может сделать вывод, что он не знает, оказывает ли независимая переменная вообще какое-либо влияние на поведение. Этот вывод особенно подходит к случаю, когда надежность низка из-за небольшого количества испытуемых или из-за большей, чем ожидалось, вариабельности поведения. Так, Флинер и Кернс могли бы решить продолжить эксперимент на новых детях, относящихся к той же младшей группе, и попытаться уменьшить случайные вариации, насколько это возможно.
Во-вторых, экспериментатор может заключить, что надежность была вполне удовлетворительной и что неотвержение нуль-гипотезы означает, что исследовавшиеся условия действительно не различаются. Это заключение может оказаться наиболее справедливым, особенно если более ранние эксперименты показали неэффективность независимой переменной.
Итак, статистическое решение снова состоит в неотвержении нуль-гипотезы. Однако обстоятельства эксперимента заставляют сделать вывод, что независимая переменная оказалась недейственной.
Валидность выводов
Вернемся к определению внутренней валидности, данному в главе 2: это степень уверенности, что заключение об экспериментальной гипотезе совпадает с выводом, который был бы получен в идеальном или бесконечном эксперименте. В предыдущих главах мы видели, как увеличивается внутренняя валидность е помощью процедур, повышающих надежность данных и уменьшающих смешение. Понятно, что заключения из экспериментальных данных не могут быть лучше самих данных. В настоящей главе мы видели, как разумное использование правил статистического решения ведет к обоснованным заключениям об экспериментальной гипотезе. Это — тоже способ увеличения внутренней валидности, поскольку заключение составляет наиболее важную часть эксперимента. Остановимся на этом более подробно.
Бесконечный эксперимент одновременно и определяет полную внутреннюю валидность, и обеспечивает основу для проверки нуль-гипотезы. Конечно, для этой последней цели существует особый вид бесконечного эксперимента. Он разбивается на отдельные конкретные эксперименты. Каждый из них такой же, как и реально проводимый эксперимент, но только в каждом эксперименте берутся другие испытуемые, выбранные из той же популяции (или другие пробы, если мы обращаемся к интраиндивидуальной схеме эксперимента).
При проверке нуль-гипотезы мы должны предположить, что из бесконечного эксперимента, безусловно, следует заключение, что экспериментальные условия не различаются. Естественно, общая средняя разность между условиями по всем этим экспериментам должна равняться нулю. Однако для каждого отдельного эксперимента это будет не так. Разности между средними будут лишь распределяться вокруг нуля, но при этом некоторые эксперименты будут благоприятствовать одному условию, другие — другому. А теперь нам нужно соотнести различие, полученное в нашем собственном эксперименте, со всем набором различий, которые могли бы быть получены в этом типе бесконечного эксперимента.
Достоверные заключения, когда нуль-гипотеза верна. Если оказалось, что нуль-гипотеза верна, т. е. если общая средняя разность между условиями в бесконечном эксперименте равна нулю, мы хотели бы иметь возможность прийти к такому же заключению и в нашем эксперименте. Ведь мы не хотим заключить в пользу гипотезы о различии между условиями, если много шансов за то, что на основе бесконечного эксперимента мы пришли бы к выводу об отсутствии различия. Таким образом, из надежных данных мы сделаем вывод, что экспериментальная гипотеза о различии условий неверна, если разность такой величины, как в нашем эксперименте, при верности нуль-гипотезы может появиться с вероятностью 0,05 или 0,01. Мы хотели бы быть уверенными в таком заключении при проверке новой экспериментальной гипотезы, особенно если она идет вразрез с общепринятым убеждением. Вот почему в таком случае альфа-уровень должен быть 0,01 или ниже. При уровне 0,05—5 процентов заключений будут неверны. В бесконечном числе экспериментов 5 процентов дали бы результаты, которые привели бы к отвержению нуль-гипотезы в единичном эксперименте.
Достоверные выводы, когда нуль-гипотеза неверна. Если нуль-гипотеза оказывается ложной, т. е. если общая средняя разность между условиями такова, как предсказывает экспериментальная гипотеза, хотелось бы прийти к такому же выводу и в нашем эксперименте. Это не так важно при проверке какой-то новой идеи. Если она верна, то ее время все равно придет. Однако если различие между условиями ожидается на основе уже имеющихся знаний, мы хотим быть совершенно уверенными в своем выводе в пользу экспериментальной гипотезы.
Как мы уже видели, для этого требуются надежные данные. Кроме того, необходимо использовать менее строгое правило решения, например альфа-уровень 0,05. Если нуль-гипотеза окажется верной, мы, конечно, хотели бы сделать именно такое заключение. Однако мы готовы увеличить риск ошибочного отвержения нуль-гипотезы для того, чтобы уменьшить риск ошибочного вывода об отсутствии различия между условиями, т. е. в ситуации, когда бесконечный эксперимент такие различия бы показал.
|