Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Группой и рандомизацией




В социологии, психологии и других поведенческих науках особую роль играет использование принципа рандомизации при распределении испытуемых по груп­пам. В эксперименте с неполным контролем или в полевом эксперименте, про­исходящем в естественных условиях (т. е. в условиях школьного класса, про­мышленной организации, городского района и т. д.) часто нужно доказать не только наличие ожидаемого эффекта в результате некоторого воздействия Х, но и отсутствие того же эффекта в тех случаях, когда воздействия не было. Например, исследователь, изучающий воздействие просмотра антивоенных фильмов на изменения установок студентов, случайным образом отбирает из некоторой совокупности студентов экспериментальную группу, которой будет показан антивоенный фильм, а также контрольную группу, которой он продемонстрирует нейтральный фильм, никак не связанный с изучаемыми установ­ками. План этого простейшего рандомизированного эксперимента с предва­рительным и итоговым тестированием и контрольной группой (RT1-2C) будет выглядеть таким образом:

R О1 Х О2

R О3 О4

 

где R — процедура рандомизации (случайного распределения по группам), О1,2 — уровни установок в экспериментальной группе до и после просмотра фильма X, O3,4 — уровни установок в контрольной группе, не смотревшей фильма. Ис­пользование контрольной группы позволяет устранить некоторые важнейшие угрозы валидности эксперимента. Во-первых, если бы исследователь отказался от использования контрольной группы и ограничился тестированием, т. е. из­мерением установок «до-после» просмотра, то обнаруженные изменения в уров­не установок можно было бы приписать влиянию на испытуемых самого по себе факта участия в эксперименте. Испытуемые, возможно, осознавали, что они отобраны для важного исследования и стремились некоторым образом со­ответствовать своей роли и оправдать некие гипотетические «ожидания» экспериментатора. Описанная угроза валидности широко известна и для нее суще­ствует несколько обозначений. В психологическом тестировании и эксперимен­тальной психологии это называют «эффектом морской свинки» или «мотивом экспертизы». Иногда применяют термин, возникший в медицине, где при кли­нических испытаниях новых фармакологических средств и методов лечения часто наблюдают «эффект плацебо», т. е. заметное улучшение статуса у многих участников контрольной группы, в которой вместо реального воздействия ис­пользовались индифферентные средства и нейтральные врачебные манипуля­ции. В социологии самое популярное обозначение систематического смещения, возникающего из-за реакции испытуемых на ситуацию эксперимента — это «хоуторнский эффект».

В так называемых хоуторнских экспериментах (по названию промышлен­ного предприятия в Чикаго) исследовались организационные и социаль­но-психологические факторы, влияющие на производительность труда. Исследователи обнаружили, что эффект роста производительности труда в бригадах сохранялся даже при отсутствии собственно экспериментального воздействия. Предположительной причиной этого явления был рост группового самосознания у участников эксперимента[115].

«Хоуторнский эффект»[116] — это угроза валидности, связанная с особенностями экспериментальной группы.

Еще одна угроза валидности выводов, которую позволяет преодолеть описыва­емый план эксперимента, также связана с особенностями групп, а именно — с процессом отбора для участия в эксперименте. Если бы мы отказались от предварительного тестирования и случайного распределения испытуемых по экспериментальной и контрольной группам, мы совершили бы методическую ошибку, весьма характерную для любых экспериментов с добровольцами. Очень часто исследователи отбирают испытуемых для участия в специальной программе обучения или в новаторском организационном проекте, основываясь на изъявленном ими желании, а затем сравнивают результаты, показанные участниками оцениваемой программы, с результатами какой-либо другой доступной группы (или даже случайной выборки из соответствующей генеральной сово­купности), не участвовавшей в такого рода программе. Однако такое сравнение некорректно: само по себе желание участвовать в эксперименте часто свидетельствует о изначально более высокой мотивации, осведомленности или ин­теллекте. Эти факторы сами по себе, или взаимодействуя с главной независи­мой переменной Х, могут объяснить значимые различия в результатах, показан­ных экспериментальной группой. В только что описанном примере сравнение группы добровольцев, пожелавших посмотреть антивоенный фильм, с прочи­ми студентами, может вести к завышенной оценке воздействия просмотра, если добровольцы изначально проявляют больший интерес к политическим пробле­мам. Лишь случайное распределение добровольцев по контрольной и экспери­ментальной группам при соблюдении «непрозрачности» такого распределения для всех испытуемых (участники обеих групп должны считать, что они подвергаются некоторому экспериментальному воздействию) позволяет судить о роли независимой переменной X в возникновении межгрупповых различий[117].

Вышеописанные угрозы валидности связаны преимущественно с особенностя­ми групп, проявляющимися на стадии отбора или в ходе эксперимента. Однако рандомизация позволяет справиться и с некоторыми угрозами валидности, ис­ходящими от переменных внешнего окружения, фона. К фоновым относятся, в частности, «возможные влияния времени года или событий, возникающих на институциональном уровне», а также факторы естественного развития — «все те биологические или психологические процессы, которые независимо от кон­кретных внешних событий систематически изменяются с течением времени»[118]. Испытуемые взрослеют, обучаются, устают, улучшают свои результаты при повторных тестированиях и т. п., что может сказываться на их результатах. Од­нако если такие посторонние влияния не оказывают избирательного воздей­ствия только на членов экспериментальной группы, они будут вносить вклад лишь в случайную ошибку, а не в систематическое смещение. Иными словами, они будут с равной вероятностью распределены между случайным образом ото­бранными участниками контрольной и экспериментальной групп. План типа RT1-2C позволяет обеспечить случайный и равновероятный характер внешних, фоновых воздействий на контрольную и экспериментальную группу. Более того, он позволяет «вычесть» величину фонового влияния и оценить чистый основ­ной эффект: если внешнее влияние все же имело место, оно в равной степени подействовало на показатели и экспериментальной, и контрольной групп; следовательно, разность между средними значениями первого и второго замеров уровня зависимой переменной в контрольной группе (О4 ¾ О3) нужно вычесть из аналогичной разности значений зависимой переменной, зафиксированной в экспериментальной группе 2¾ O1), т. е.:

 

êХ ê = ( О2¾ O1) ¾ ( О4 ¾ О3),

 

при этом предварительное и послеэкспериментальное тестирование в экспери­ментальной и контрольной группах должны проводиться практически одновре­менно.

Систематическая угроза валидности, связанная с фоновыми факторами, может все же возникнуть и при использовании рандомизации и контрольной группы. Это происходит тогда, когда фоновые факторы взаимодействуют с независи­мой переменной (или некоторыми ее уровнями). Природу такого взаимодей­ствия легко понять на примере исследования, в котором изучается влияние тре­вожности, возникающей в ситуации неопределенности, на успешность реше­ния сложных задач. В такого рода экспериментах для создания ситуации неопределенности и повышения реактивной тревожности (независимые пере­менные) часто используют неясные инструкции, косвенные негативные оцен­ки действий испытуемого, высказываемые лицами, проводящими эксперимент (типа «Ну-ну, посмотрим, как Вы сможете это использовать»), а также предварительные серии, где испытуемому приходится решать заведомо неразреши­мые задачи. Разумеется, всем этим воздействиям (X) подвергаются лишь члены экспериментальной группы. Если испытуемые — это студенты, которым в силу случайного стечения обстоятельств через неделю предстоит сдавать экзамены, или сотрудники подразделения фирмы, ожидающие скорой переаттестации, то эти факторы «фона» будут взаимодействовать с независимыми переменными, не только суммируясь с ними, но и усиливая их эффект. Негативные подкрепле­ния, получаемые в ходе эксперимента, будут восприниматься значительно ост­рее накануне экзаменационной сессии или переаттестации, а связанная с этими событиями фоновая тревожность и неопределенность будет взаимодействовать с тревожностью и неопределенностью, создаваемыми преднамеренно.

Оценить чистый эффект взаимодействия с помощью сравнения с результатами контрольной группы вышеописанным способом в данном случае невозможно, так как взаимодействие фоновых смещений с основным эффектом происходит лишь там, где имеет место экспериментальное воздействие X. В контрольной группе приближающееся неприятное событие также может повлиять на резуль­таты итогового замера или даже обоих замеров, но оно не будет взаимодейство­вать, «перемножаться» с воздействием независимой переменной (такое взаимо­действие можно описать в более точных терминах, однако это требует введения некоторых статистических понятий). Для оценки величины взаимодействия фоновых смешивающих переменных с основным эф­фектом нужны более сложные экспериментальные планы. Некоторые из них будут обсуждаться ниже.

Иногда имеет смысл воспользоваться упрощенным вариантом описанного пла­на с рандомизацией и контрольной группой, а именно планом с рандомизаци­ей без предварительного тестирования (RTC), который схематически выгля­дит следующим образом:

R Х О1

R О2

 

Привлекательность этого плана заключается прежде всего в его экономичнос­ти. Если при распределении испытуемых между группами и уровнями воздействия использовалась истинная вероятностная процедура[119], то проведение пред­варительного тестирования — как в плане КТ1-2С — лишь увеличивает стоимость эксперимента, не оказывая существенного влияния на качество получаемых данных. По сути, правильно осуществленная рандомизация (R) — это наилуч­шая гарантия отсутствия изначального смещения между группами (т. е. равен­ства исходных среднегрупповых значений зависимой переменной О в конт­рольной и экспериментальной группах). Кроме того, в широкомасштабных социологических исследованиях, а также в прикладных исследованиях в области педагогики и социальной работы, проведение и предварительных, и повтор­ных измерений зависимой переменной (политических установок, криминаль­ного поведения и т. п.) часто неосуществимо либо ведет к возникновению реак­ции на саму процедуру тестирования. Если, к примеру, мы изучаем влияние участия в предвыборной групповой дискуссии на последующую поддержку политических партий, то предварительное измерение политических установок может повлиять на активность опрошенных в ходе самой дискуссии и их пос­ледующие установки.

Можно заключить, что план RTC предпочтителен всегда, когда нежелательно повторное предъявление весьма специфичных по содержанию и схожих по форме тестов, вопросов, измерительных процедур. Иными словами, этот план заслуживает широкого применения в социологических и оценочных исследо­ваниях. Кроме того, он является самым приемлемым средством проведения так называемых методических экспериментов, в которых оценивается эффектив­ность различных видов опроса, способов заполнения и форматов анкет и т. п. (примером такого методического эксперимента является описанное в главе «Массовые опросы» исследование Бредберна и Судмана, в котором эффектив­ность метода «случайного ответа» сравнивалась с эффективностью использо­вания данных административной статистики). План RTC использовался, в час­тности, в одном из практически ориентированных социальных экспериментов по совершенствованию системы правоохранительных и пенитенциарных уч­реждений, проводившихся в США в 1960¾70-е гг.

В 1961 г. Федеральное бюро пенитенциарных учреждений США начало трехлетний эксперимент, целью которого было изучить воздействие под­держивающего консультирования и специальных реабилитационных про­грамм на поведение мальчиков-подростков, находящихся в исправительных учреждениях. Местом проведения эксперимента стала специальная школа-колония для несовершеннолетних правонарушителей.

При проведении рандомизации мальчиков случайным образом распреде­ляли между отрядами, где проводился эксперимент, и отрядами, служившими контрольными (каждый отряд жил в отдельно расположенном корпусе). В экспериментальных отрядах было увеличено количество воспитателей, проводились специальные индивидуальные и групповые консуль­тации, использовалась система вознаграждений за хорошее поведение. В контрольных группах применялись обычные методы воспитания и обу­чения, а также традиционные наказания за нарушение внутреннего распорядка. Результаты эксперимента показали, что мальчики из экспериментальных групп раньше покидали спецшколу, лучше успевали в учебе, вели себя адаптивнее. Не было обнаружено значимых различий в показателях рецидивной преступности для подростков из экспериментальных и конт­рольных групп, освобожденных из школы-колонии, однако ребята из экс­периментальных групп значительно отличались от ребят из контрольных групп по показателю тяжести вновь совершенных преступлений (первые, в случае рецидива, совершали менее тяжкие преступления). По результатам эксперимента было принято решение о внедрении эксперименталь­ной коррекционной программы во всех подразделениях школы[120].

Еще один популярный план с рандомизацией и контрольной группой — это план Соломона[121]. План Соломона — это расширенный вариант плана RT1-2C, позво­ляющий проконтролировать и оценить эффекты естественного развития и фона, а также определить взаимодействие эффекта тестирования с основ­ным воздействием X. Здесь наряду с экспериментальной и контрольной груп­пами с предварительным тестированием используются экспериментальная и контрольная группы без предварительного тестирования (как в плане RTC). Схематически это выглядит следующим образом:

R O1 X О2

R О3 О4

R X О5

R О6

 

Очевидно, что если главный эффект X реален, то даже при наличии существен­ного эффекта тестирования («хоуторнского эффекта») будут выполняться четы­ре неравенства: O2>O1; О24; О56; О53. Оценкой сравнительной вели­чины эффекта предварительного тестирования (без взаимодействия с X) может служить величина разности О6¾О3. Сравнение О6с О1и О3 позволяет оценить влияние фоновых факторов и факторов естественного развития[122].

До сих пор мы обсуждали содержательные аспекты проверки эксперименталь­ной гипотезы о наличии главного эффекта X с помощью различных планов эк­сперимента, а также преимущества разных планов для обеспечения разных ас­пектов валидности. Очевидно, однако, что в каждом конкретном эксперименте величина главного эффекта, т. е. наблюдаемого различия результатов экспери­ментальной и контрольной группы, будет варьировать не только под воздей­ствием независимой переменной, но и просто в результате действия различных случайных возмущений. Конечно, если бы наш эксперимент был идеален и аб­солютно надежен (см. выше), то при каком угодно числе повторений мы бы всегда получали одну и ту же истинную оценку величины воздействия (при отсутствии или контроле смешивающего влияния дополнительных переменных). Однако реальные эксперименты — особенно, как уже говорилось, эксперимен­ты в социальных науках — не бывают и не могут быть идеальными и безупреч­но надежными. Следовательно, перед исследователем всегда стоит задача статистической оценки значимости полученных результатов.

Вероятностным «воплощением» содержательной экспериментальной гипоте­зы является статистическая гипотеза. Принятие или непринятие статисти­ческой гипотезы — необходимое, но недостаточное условие принятия или от­вержения содержательной гипотезы, проверяемой в эксперименте. Проверяе­мая в конкретном эксперименте статистическая гипотеза всегда формулируется как гипотеза о том, что при бесконечном количестве повторений этого экспери­мента среднее различие между экспериментальной и контрольной группами (или между воздействием разных уровней независимой переменной) равнялось бы нулю. Такую статистическую гипотезу, фактически сводящуюся к утверж­дению о случайном характере наблюдаемых в реальном эксперименте разли­чий, называют нулевой гипотезой, или нуль-гипотезой 0). Отвержение или неотвержение нуль-гипотезы позволяет говорить о том, что в данном экспери­менте содержательная гипотеза подтвердилась, либо подтвердилась противо­положная ей альтернативная гипотеза, либо не было получено подтверждения ни одной из них.

Вспомним воображаемый эксперимент Фишера с чаем и молоком, описанный в начале главы. Мы отмечали, что при использовании тактики случайного угады­вания испытуемая смогла бы правильно определить последовательность напол­нения чашки примерно в 1 случае из 70. Следовательно, 2 «попадания» из 100 даже при очень большом количестве испытаний едва ли могут считаться значи­мым результатом. Куда достовернее выглядят 90 или даже 95 «попаданий» из 100 (оставшиеся «ошибки» можно отнести на счет действия случайных факто­ров). Чтобы определить уровень значимости и построить доверительный ин­тервал в этом случае достаточно метода, описанного в главе 8.

Вообще, критерии значимости и статистические методы, используемые при проверке статистической гипотезы для конкретного плана эксперимента, назы­вают статистическими моделями. Для планов с контрольной группой основ­ная статистическая модель — это использование t-критерия, о чем подробнее говорится чуть ниже. Для более сложных планов многомерных или факторных экспериментов, общий обзор которых дается в следующем разделе главы, веду­щие статистические модели — это дисперсионный анализ и использование F-критерия Фишера.

Итак, для того чтобы оценить статистическую значимость в элементарных ран­домизированных планах, описанных выше, нам необходимо проверить стати­стическую гипотезу о разности средних значений зависимой переменной в кон­трольной и экспериментальной группах. Конкретное значение разности сред­них значений зависимой переменной в экспериментальной и контрольной группе, обнаруженное в отдельном эксперименте (скажем, 4 балла по некото­рой «шкале пацифизма»), нужно соотнести с определенным интервалом, в ко­торый это значение «укладывается» с заданной (доверительной) вероятностью. Иными словами, нужно решить задачу интервального оценивания, подобную задаче оценки отдельного параметра совокупности в выборочном обследова­нии (эта задача описана в гл. 8). Разница в том, что проводя эксперимент, мы интересуемся не вероятными пределами, в которых лежит некая характеристи­ка выборки из реально существующей совокупности, а пределами, в которых лежит полученный нами в эксперименте результат относительно результата во­ображаемой бесконечной совокупности идентичных экспериментов. Нулевая гипотеза утверждает, что истинное значение различия средних равно нулю, ва­рьируя в каких-то пределах от эксперимента к эксперименту (т. е. . Если удается показать, что полученное в эксперименте зна­чение разности групповых средних не позволяет принять нулевую гипотезу, то делается вывод о подтверждении гипотезы, противоположной нулевой (т.е. — о статистической значимости различий между груп­пами — и, значит, о подтверждении экспериментальной гипотезы (или о под­тверждении гипотезы, противоположной экспериментальной, — если различие между экспериментальной и контрольной группой оказалось с обратным зна­ком). Заметьте, что нулевая гипотеза всегда формулируется как гипотеза о том, что истинное значение разности средних (или, скажем, величины взаимосвязи между двумя переменными) равно нулю, а полученные в эксперименте величи­ны отличаются от нуля исключительно из-за случайной ошибки выборки. Чем дальше от нуля — в ту или другую сторону — расположено наблюдаемое значе­ние, тем больше его статистическая значимость и меньше вероятность того, что оно явилось результатом ошибки выборки.

Для того чтобы сравнить полученное в эксперименте с контрольной и экспери­ментальной группами значение разности между средними с гипотетическим выборочным распределением этой величины для бесконечного числа испыта­ний (такие распределения имеются не только для разности средних, но и для средних величин, стандартных отклонений и т. д.), нужно выс­читать стандартную ошибку разности между средними[123]. Формула для стандарт­ной ошибки разности между средними — SМэ-Мk немного отличается от фор­мулы стандартной ошибки средней SM20, приведенной в главе 8. Тем не менее она весьма проста:

 

 

где Sэ и SKвеличины стандартного отклонения, рассчитанные для экспери­ментальной и контрольной групп, nэ и пkчисло наблюдений (испытуемых) в экспериментальной и контрольной группах.

После этого нужно определить, на сколько единиц стандартной ошибки отсто­ит полученная разность средних от нуля, представляю щего собой — в согласии с нуль-гипотезой — среднее гипотетического распре­деления разностей средних, t-распределения. Для этого полученную в экспери­менте разность групповых средних нужно перевести в t-единицы (т. е. единицы стандартного отклонения для t-распределения). Для данной разности средних величину t можно высчитать по формуле:

Полученное значение t нужно сравнить с соответствующим значением из таблицы t-распределения для избранного уровня значимости = 0,05 или 0,01) и числа сте­пеней свободы, соответствующего количеству наблюдений в каждой группе (или подвыборке). Число степеней свободы — довольно сложное статистическое поня­тие, анализ которого выходит за пределы этого учебника (в самом общем виде оно обсуждается в гл. 7). На практике число степеней свободы можно рассматривать как величину, равную числу наблюдений (испытуемых, опрошенных, баллов и т. п.) минус число оцениваемых параметров. Для разности средних двух групп это со­ставит число наблюдений в экспериментальной группе минус один (nэ ¾ 1) плюс число наблюдений в контрольной группе минус один (пk ¾ 1):

Nст.своб. = (nэ ¾ 1) + (пk ¾ 1)

Таблицы t-распределения можно найти в любом учебнике или справочнике по статистике (см. «Дополнительную литературу» к данной главе, а также к гл. 8). Здесь мы приводим лишь фрагмент такой таблицы.

 

Таблица 4.1

Сокращенная таблица t-распределения

Стьюдента (W. Gosset, 1908)

 

Число степеней свободы Р = 0,05 Р = 0,01
t = 12,706 t = 63,657
t = 4,303 t = 9,925
t = 2,571 t = 4,032
t = 2,306 t = 3,355
t = 2,228 t = 3,169
t = 2,145 t = 2,977
t = 2,120 t = 2,921
t = 2,086 t = 2,845
t = 2,042 t = 2,750
t = 2,000 t = 2,660
t = 1,980 t = 2,617
¥ t = 1,960 t = 2,576

 

Рассмотрим пример вычисления t для описанного выше эксперимента, в кото­ром изучалось воздействие антивоенного фильма на изменение установок сту­дентов. Пусть для контрольной и экспериментальной групп при итоговом тес­тировании по шкале пацифистских установок были получены следующие ре­зультаты:

 

Контрольная группа Экспериментальная группа
nk = 28 чел. Nэ = 34 чел.
Sk = 5,6 Sэ= 3,4

 

Наша статистическая задача заключается в том, чтобы определить, отличаются ли средние двух групп настолько, чтобы можно было отвергнуть нулевую гипо­тезу о том, что эти средние взяты из одной генеральной совокупности. Вос­пользуемся приведенной выше формулой для вычисления значения t[124]:

 

Число степеней свободы в приведенном примере: (28 ¾ 1) + (34 ¾ 1) = 60.

Полученное значение t = 3,4760 заведомо превосходит табличные значения и для p < 0,05, и для р < 0,01 (на 5%-м уровне значение t для 60 степеней свободы составит 2,00, а на 1%-м — 2,660). Следовательно, мы можем отклонить нуле­вую гипотезу и сделать вывод, что существует статистически значимая разница между средними уровнями пацифизма в группе студентов, посмотревших ан­тивоенный фильм, и в контрольной группе.

Важно, однако, всегда помнить о том, что статистическая значимость результа­тов совершенно отлична от их содержательной значимости! Даже высокая ста­тистическая значимость результатов эксперимента не гарантирует, что эти результаты будут иметь сколько-нибудь интересную интерпретацию и повлияют на состояние современного социологического знания. Содержательная значимость зависит прежде всего от нашей способности увязать экспериментальную гипотезу с существующими социологическими теориями.

Многомерные и факторные эксперименты:







Дата добавления: 2015-06-15; просмотров: 329. Нарушение авторских прав; Мы поможем в написании вашей работы!


Рекомендуемые страницы:


Studopedia.info - Студопедия - 2014-2021 год . (0.008 сек.) русская версия | украинская версия