НЕСКОЛЬКО СПОСОБОВ СРАЗУ
В каждом из трех описанных экспериментов внутренняя валидность повышалась главным образом за счет одного из перечисленных способов улучшения реального мира. Но до известной степени в этих экспериментах были реализованы и другие такие способы. В эксперименте с ночными посадками не только устранялось систематическое смешение. Помимо этого пилоту за короткое время предъявляли довольно много проб, и его работу можно было оценить более точно, чем в реальных полетах. В эксперименте с поиском было не просто больше проб, чем могло быть в реальных спасательных операциях, но и сокращалась несистематическая изменчивость в поведении испытуемых. Это было достигнуто, во-первых, обеспечением лучшего способа оценки их работы — фиксацией момента спуска муляжа. Во-вторых, пробы с использованием бинокля и без него были уравнены по погодным условиям, времени дня, размеру муляжа и расстоянию до него. В исследовании с высотомерами сокращение несистематической изменчивости достигалось не только за счет большей точности в оценке работы испытуемого, но и благодаря возможности провести достаточное количество замеров за более короткое время, чем в реальном полете. Более того, поскольку в эксперименте, дублирующем реальность, можно было бы совершить лишь небольшое число полетов, то воздействия независимой переменной (тип шкалы высотомера) неизбежно смешивались бы с побочными факторами (такими, как сила ветра, характер территории, количество воздушного транспорта). В искусственном эксперименте это смешение полностью устранено. Таким образом, в каждом из трех наших экспериментов, улучшающих реальный мир, применяются все три возможных способа повышения внутренней валидности. ВНЕШНЯЯ ВАЛИДНОСТЬ: ВОПРОСЫ СООТВЕТСТВИЯ Хорошим новшествам нередко сопутствуют новые проблемы. Искусственные эксперименты, разумеется, более удачны, чем те, в которых реальный мир просто дублируется. Сама реальность здесь «улучшена», и это очень хорошо. Но адекватны ли такие эксперименты? Можем ли мы применять полученные результаты для решения тех реальных проблем, которые, собственно, и давали начало нашим экспериментам. Если ответ отрицательный, то это плохо. Платой за повышение внутренней валидности будет потеря валидности внешней. Сейчас мы рассмотрим вопросы соответствия искусственных, экспериментальных ситуаций их реальным прототипам для всех трех описанных экспериментов. Вы увидите, что иногда (но не во всех случаях) они имели удовлетворительное решение. Мы последовательно обсудим каждую из составляющих экспериментальной гипотезы. Вы помните, что всякая гипотеза предполагает некоторое отношение между независимой и зависимой переменными. Поэтому сначала мы проверим на соответствие независимую переменную, а затем зависимую. Однако не менее важная составляющая, которая не всегда отмечается специально, но всегда присутствует, — это уровень значимой дополнительной переменной. Вспомните, ведь неадекватный вариант эксперимента Джека Моцарта страдал недостатком внешней валидности именно потому, что по типу используемых в нем пьес он не соответствовал исследуемой гипотезе. Третьим пунктом нашего анализа будет, таким образом, обсуждение соответствия дополнительных переменных. Проверяя соответствие переменных, необходимо помнить, что мы имеем дело с экспериментами, отвечающими на конкретные практические запросы. В каждом из приведенных случаев было найдено решение, лучшее из возможных. По материалам предыдущей главы вы знаете, что безупречной внутренней валидности достичь нельзя, поскольку реальный эксперимент не может быть ни идеальным, ни бесконечным. Внутренняя валидность реальных экспериментов лишь повышается по мере их приближения к указанным разновидностям безупречного эксперимента. Аналогично невозможна и безупречная внешняя валидность, ведь в реальном эксперименте нельзя достичь полного соответствия всех тех жизненных обстоятельств, к которым прилагаются его результаты. Отсюда можно говорить лишь о большей или меньшей внешней валидности искусственных экспериментов, смотря по тому, в какой степени соблюдаются в них требования эксперимента полного соответствия. Однако искусственные эксперименты ставятся тогда, когда эксперименты, дублирующие реальность, — и, следовательно, более ей соответствующие — страдают недостатком внутренней валидности. Поэтому мы не вправе отвергать искусственный эксперимент только потому, что он меньше соответствует реальному миру по сравнению с экспериментом, в котором этот мир просто дублируется. Вместо этого следует задаться вопросом, найден ли самый оптимальный способ улучшения реального мира. Поэтому для оценки внешней валидности экспериментов, улучшающих реальность, имеет смысл сравнивать их с другими искусственными экспериментами. Соответствие независимой переменной Вопрос о соответствии независимой переменной в искусственных экспериментах по большей части довольно прост. Экспериментатору нужно быть твердо уверенным только в том, что введенные им условия в одних реальных случаях являются типичными, а в других — вполне вероятными. Крафт и Элворт выбрали для посадок горизонтальную и наклонную (под углом 3°) поверхности, поскольку эти условия типичны для аэропортов, где приземляются реактивные самолеты. Наблюдение без бинокля в эксперименте с поиском не соответствовало старым инструкциям, но было вполне возможным. Это совершенно реальный способ поиска. А два типа шкал в исследовании с высотомерами — это те самые шкалы, лучшую из которых собирался выбрать Лендбург. Вот если бы он взял такой тип шкалы, который не используется на его самолете, скажем, изображение небольшой модели самолета в трехмерном пространстве, то это условие не было бы соответствующим. Ведь гипотеза Лендбурга касалась только двух высотомеров, которые можно поставить на его будущий самолет. Соответствие зависимой переменной Вспомним, что при каждом из условий независимой переменной зависимая переменная принимает определенное значение. Каждое такое значение включает в себя три компонента: во-первых, ответы испытуемого, его поведение, во-вторых, измеряемые показатели ответов испытуемого и, в-третьих, способ представления результатов измерений (дающий нам окончательное значение зависимой переменной). Вот и займемся теперь анализом трех экспериментов, описанных в настоящей главе, по каждому из названных пунктов. Поведение испытуемых. Соответствует ли поведение испытуемого в эксперименте той его реальной деятельности, на которую будут распространяться полученные результаты? В отношении двух наших экспериментов мы можем ответить на этот вопрос утвердительно. Пилот «ведет» тренажер, ориентируясь но «наземным» огням точно так же, как и в настоящем полете, поэтому соответствие зависимой переменной в эксперименте с ночными посадками является вполне удовлетворительным. И в эксперименте с поиском испытуемые точно так же вели наблюдения за поверхностью моря, как в действительных спасательных операциях. А вот об исследовании с высотомерами разговор особый. Испытуемый работает с показаниями шкал весьма необычным способом. Он не изменяет ни высоту, ни направление полета, он вообще не ведет самолет, т. е. с одной стороны, он выполняет гораздо меньше операций, чем в реальности, а с другой — совершает дополнительные операции. Так, при снятии показаний он называет соответствующее число. В полете же чаще всего показания высотомера нужны пилоту лишь для определения высоты, необходимой для правильного направления полета, т. е. в пределах примерно 200 футов. В полете незачем повторять эти показания, и тем более уделять все внимание высотомеру, как это было в эксперименте. Можно ли оправдать такое значительное отклонение от реальной деятельности? Давайте обсудим это еще раз и кратко напомним о самой проблеме. Лучше всего сравнить выбранный способ проведения эксперимента с другими возможными альтернативами. Лендбург понимал, что данные, которые можно получить в реальном полете, были бы очень сомнительны. Лендбург предпочел искусственный эксперимент, поскольку условия реального полета не позволили бы ему адекватно оценить собственную работу. Так ли это для эксперимента на тренажере? Тренажер улучшает реальный мир, но только в одном: он позволяет унифицировать погодные условия, а также наземную территорию при использовании обеих шкал. Однако пилоту по-прежнему нужно было бы придерживаться определенной высоты «полета», оценивая ее субъективно. И это вновь зависело бы от множества факторов: и от восприятия территории в каждом конкретном случае, и от осторожности пилота, и от его умения вести самолет. По-видимому, простое снятие показаний высотомера действительно отражает тот аспект реальной деятельности, который интересовал исследователя. Весьма разумным было решение проводить испытания в заранее установленном темпе. Как правило, в полете у пилота немного времени для снятия показаний. Темп, конечно, можно было и увеличить, определяя при этом количество показаний, снятых испытуемым за каждую минуту. Однако эта идея не совсем удачна по двум причинам. Во-первых, подобное скоростное считывание меньше соответствует тем реальным операциям, которые выполняет пилот: Во-вторых, возникла бы проблема совместного учета скорости работы и количества совершенных ошибок. И все же, несмотря на все приведенные аргументы, в данном случае трудно предложить полностью адекватный экспериментальный прием. Любой конкретный прием основан на довольно условных предположениях (скажем, о сравнительной значимости каждого правильного считывания и цене каждой ошибки). Измеряемые показатели. Первый эксперимент достаточно хорошо соответствовал реальным посадкам самолета и в отношении производимых измерений. При работе испытуемых в каждом из экспериментальных условий — горизонтальной и наклонной территории — фиксировались действительная высота «полета» и ее субъективные оценки. В эксперименте с поиском такой определенности нет. Так ли уж важно на самом деле для спасательной операции, будет найдена цель за 7 или 7,5 минуты? Наверное, нет. Правда, когда катер движется по прямой, т. е. ходит туда-сюда, как по длинному коридору, — а обычно это так и происходит — неудачи в нахождении цели за определенный.период времени могут означать, что либо цели здесь просто нет, либо нужно плыть помедленнее, а не разбрасываться на чересчур большое пространство. Поэтому временные характеристики можно связать с успешностью стратегии поиска цели — если она, конечно, существует. В исследовании с высотомерами проблемы выбора показателей не возникало. Фактически ими были сами показания испытуемого по каждому положению шкалы, которые сразу записывались на магнитофон. Способ представления результатов измерений. На примерах двух описанных экспериментов с оценкой высоты полета вы могли видеть разные способы представления результатов измерений. Впрочем, каждый из этих способов может быть пригоден -при распространении экспериментальных выводов на реальный мир. В первом 6эксперименте гипотеза состояла в том, что пилот совершает систематическую ошибку, недооценивая высоту, и поэтому летит слишком низко при посадке на наклонную территорию. Графическое изображение результатов эксперимента на рис. 3.3 позволяет проверить эту гипотезу. Здесь представлены усредненные данные 12 пилотов, каждому из которых давали несколько проб. Подобным образом можно было бы отразить выполнение задач любым участником эксперимента в каждом из исследуемых условий. Понятно, что если бы на каждое условие приходилась только одна проба, то выбранный способ представления результатов показал бы лишь изменение высоты полета по мере приближения к аэропорту. Но если дается целая группа проб, то для каждой точки посадочной траектории можно получить среднее значение оценок этой высоты. Для исследования с высотомерами такой способ представления данных не подходит. Поскольку показатели высоты, которые считывал испытуемый, изменялись не постепенно (как по мере приближения к аэропорту), а случайным образом, графическое изображение последовательности оценок вряд ли имело бы смысл. Простое вычисление среднего для оценок испытуемого по каждой шкале тоже не принесло бы желаемых результатов. Предположим, что при работе со старой шкалой испытуемый допускал грубые ошибки, однако число ошибок с переоценкой и недооценкой высоты было одинаковым. Тогда, несмотря на все ошибки испытуемого, средняя оценка его работы практически равнялась бы средней величине предъявляемых показаний. Этот факт требует особого внимания, поскольку в значительной части опубликованных экспериментальных работ он не вполне осознается. Покажем, как возникают подобного рода погрешности, на кратком примере. Предположим, что в четырех последовательных пробах испытуемому предъявлялись показания следующих высот 3200, 6100, 1300 и 4640 футов. Средняя величина для этого набора проб составила бы, таким образом, 3200+6100+1309....0, деленное па 4. Она равна 3797,5 фута. А результаты испытуемого: 3260, 6040, 1250 и 4590. Средняя оценка тоже равна 3797,5 фута. Никому и в голову не придет, что испытуемый работал с ошибками. Такая же погрешность сохранится и при вычислении алгебраического среднего, когда переоценки обозначают знаком «плюс», а недооценки — знаком «минус» В приведенных четырех пробах ошибки были следующие: 3260—3200, или +60, 6040—6100, или —60, 1300—1250, или +50, 4590—4640, или —50. Ошибки на +60, —60, +50 и —50 в сумме дадут 0. Вот так и появляется погрешность. Ясно, что необходим какой-то другой способ представления результатов. Можно было бы не учитывать знаки ошибок — плюс и минус. Тогда, вычислив среднее для указанных проб — 60, 60, 50 и 50, мы получим абсолютную ошибку. Она будет равна 55 футам. Нужно отметить, что и эта средняя оценка может вызвать возражения. В частности, она не позволяет отличить приведенные данные от таких, когда ошибки (все или какая-то часть) имеют одно направление. Например, данные +60, +50, +50 и —50 тоже дадут абсолютную ошибку в 55 футов. В подобных случаях для представления результатов нужно брать сразу два показателя. Первый из них уже описан: это алгебраическая ошибка, при подсчете которой пользуются знаками плюс и минус. Она позволяет определить соотношение разнонаправленных ошибок испытуемого. Второй — стандартное отклонение — показывает, насколько велик разброс этих ошибок, т. е. характеризует изменчивость в деятельности испытуемого при выполнении задачи. И все же для эксперимента Лендбурга наиболее адекватен иной способ представления, данных. Ведь главное для его автора — не допускать в реальном полете слишком грубых ошибок. Поэтому данные по работе с каждым из высотомеров нужно представить процентным отношением таких ошибок (на 100 футов и больше) к общему числу неверных ответов. Правда, этот способ не подошел бы, если бы нужно было сравнить качество работы с той и другой шкалой при посадке самолета в условиях плохой видимости. Будем надеяться, что в плохую погоду Лендбург не полетит. Подсчет процентных отношений вполне подходит для эксперимента с поиском. По данным о времени, затраченном на поиск каждой цели, можно определить процентное соотношение количества целей, быстрее найденных с биноклем или без него. А быстро найти цель — это самое главное в любой спасательной операции. Соответствие дополнительных переменных В неадекватном варианте эксперимента Джека Моцарта, когда вместо сонат разучивались вальсы, уровень наиболее важной дополнительной переменной — типа музыкальных пьес — был явно несоответствующим. Ведь то, что справедливо для «уровня вальсов», может оказаться неверным для «уровня сонат». Это случай несоответствия ключевой переменной. Давайте рассмотрим три наших эксперимента с точки зрения соответствия ключевых, а также некоторых других дополнительных характеристик. Ключевые переменные. В одних экспериментах, как, например, у Джека Моцарта, ключевая переменная одна (но очень важная). В других экспериментах их может быть несколько. Скажем, такие характеристики спасательного поиска на море, как размер цели, расстояние до нее, погодные условия и время дня, примерно одинаковы по значимости. В эксперименте с посадками самолета ключевой переменной была зрительная картина ночного города. Ведь только она и дает информацию о наклоне территории. Различия понятны: либо это несколько огней, расположенных близко друг к другу, либо целая панорама, где пилот может выбрать любую пару световых точек. Чтобы результаты эксперимента можно было применять для любых аэропортов, Крафт и Элворт предъявляли испытуемым несколько типичных моделей. Они пишут (показывая тем самым, что даже опытные экспериментаторы могут ошибаться): «Мы надеялись повысить эффективность зрительного контроля посадки с помощью расширения и углубления световой картины города. Однако данные показывают, что более обширная и комплексная картина на самом деле может приводить к катастрофе, вводя пилота в заблуждение, что происходит в случае поднимающейся вверх территории» (с.4). Оказалось, что огни, занимая большую площадь, представляются пилоту более надежным показателем уровня земли, и это усиливает иллюзию. Теперь нам ясно, что экспериментаторы не зря копировали огни ночных городов во всех их вариантах. Столь же аккуратны были исследователи в эксперименте с поиском, добиваясь более точного соответствия всех ключевых переменных — размера цели, расстояния до нее, погодных условий и времени дня. А вот в исследовании с высотомерами контролировалась только одна ключевая характеристика — использовался тот же диапазон высот, с каким встречается пилот в реальном полете. Передвижение индикаторов — а это тоже ключевая характеристика — не воспроизводилось. Лендбург имел дело со стабильными изображениями шкал, а в реальности индикаторы чаще всего непостоянны. С другой стороны, в реальном полете последовательные показания прибора похожи одно на другое. Самолет не подпрыгивает вверх и не падает вниз случайным образом. А ведь именно так и изменялись показания высот в последовательных пробах эксперимента — случайно. Первое отклонение от реальности облегчало испытуемому работу со шкалой, а второе, наверное, затрудняло ее. Для более точного воспроизведения реальных изменений шкалы высотомера понадобился бы киноаппарат или видеомагнитофон. Это довольно утомительно: снова нужно вырезать картонки, подбирая друг к другу почти одинаковые снимки с чуть измененными положениями индикаторов. А потом можно было бы дополнить подачу словесных команд на магнитофоне соответствующим звуковым сопровождением. Одновременные действия. В некоторых искусственных экспериментах испытуемому приходится выполнять именно то задание, которым (и только им) он занимается в реальной жизни. Например, во время спасательной операции наблюдатель не имеет никаких других обязанностей, кроме самого поиска. Для пилота это, конечно, не так. Совершая посадку, ему нужно не только дерть нужную высоту, но и постоянно корректировать траекторию полета, чтобы самолет находился под правильным углом и не уклонялся в сторону. Пилот должен следить за скоростью, остерегаться столкновения: со встречным транспортом. В эксперименте Крафта и Элворта все эти действия воспроизводились. Во-первых, пилот «вел» тренажер как настоящий самолет, а не просто контролировал высоту. Во-вторых, у него была дополнительная задача — «определять местоположение других самолетов и сообщать о них» (с. 2). Другой наш пилот, Чарлз Аугустус Лендбург, ничего этого не делал. Он только считывал показания высоты и не производил никаких дополнительных действий. А было бы неплохо выполнять при этом какую-нибудь другую задачу. Вполне возможно, что новый высотомер становится более надежным лишь в том случае, если все внимание испытуемого уделяется только ему. Материал для дополнительной задачи тоже можно было бы записать на магнитофон (вместе с командами о порядке снятия показаний). Испытуемый мог бы, например, подсчитывать звуковые сигналы. Напряженность. Все эксперименты, описанные в этой главе, были посвящены практическим проблемам, связанным с жизнью и смертью людей. И это не просто случайное совпадение. Помимо повышения внутренней валидности эксперименты, улучшающие реальный мир, очень часто делают его безопасным для испытуемого. Но тогда возникает вопрос: можно ли переносить результаты, полученные при отсутствии эмоциональной напряженности, на реальную деятельность в стрессовых условиях? Иногда предлагают гипнотизировать испытуемых и внушать им, будто они находятся в реальной ситуации, а не на эксперименте. Однако такое внушение вряд ли будет эффективным для человека, который хорошо знает, что такое гипноз. Давайте посмотрим, насколько серьезен вопрос о недостаточной напряженности для наших экспериментов. Типичным последствием состояния эмоциональной напряженности является нарушение интеллектуального контроля за поведением. Трудно представить, каким образом недостаток напряженности может усиливать зрительную иллюзию пилота при экспериментальном моделировании посадки над наклонной территорией. Скорее уж можно предположить, что более высокий интеллектуальный контроль уменьшит эту иллюзию. Следовательно, можно сказать, что в эксперименте были получены важные результаты, несмотря на отсутствие напряженности. Известно также, что в состоянии напряженности разрушаются в первую очередь приобретенные и необычные навыки, а не естественные, привычные. Смотреть в бинокль менее естественно, чем без него. Поэтому отсутствие напряженности в эксперименте с поиском было благоприятным для наблюдения с биноклем. И вновь можно сказать, что именно данные результаты эксперимента были получены, несмотря на это преимущество. Сжатие во времени. Увеличение надежности в искусственных экспериментах по сравнению с теми, которые дублируют реальность, достигается главным образом благодаря возможности предъявить все необходимые пробы за более короткий период времени. Тем самым можно быстрее получить достаточное количество данных. Искусственный мир чаще всего как бы сжат во времени по сравнению с реальным. Как это влияет на внешнюю валидность экспериментальных выводов? Из трех описанных экспериментов меньше всех был сжат во времени эксперимент с посадками самолета. Правда, он и не требовал слишком большого количества проб по сравнению с двумя другими. Известно, что практический опыт до некоторой степени уменьшает зрительные иллюзии. Следовательно, в эксперименте на тренажере влияние иллюзии могло бы в принципе сокращаться быстрее, чем в реальных полетах. Однако, несмотря на преимущества, возможные за счет научения, эксперименте получены результаты, которые свидетельствуют о сохранении этого влияния. Спасательный поиск на море лучше производить без бинокля — этот результат, полученный в условиях быстрого предъявления всех необходимых проб, также не вызывает никаких сомнений. Конечно, в обычных условиях поиск продолжается дольше, и бдительность его участников будет более изменчивой, чем в своеобразном соревновании между ними, характерном для данного эксперимента. Однако реальная ситуация была бы более жесткой именно для наблюдения с биноклем. Ведь в эксперименте спасатели пользовались им сравнительно недолго, и поэтому влияние веса бинокля, усталость глаз, а также неясность зрительной картины были не столь существенны. Можно сказать, что поиск с биноклем оказался менее эффективным даже при коротком испытании, условия которого благоприятствовали его применению. В эксперименте с высотомерами таких гарантий нет. Очень может быть, что за целую серию проб, между которыми только 5 секунд, испытуемый просто научится хорошо считывать показания высотомера. А если справляться о высоте полета лишь время от времени, как это происходит в реальности, подобная привычка будет вырабатываться не так скоро. Поэтому по результатам, полученным в условиях сжатого предъявления проб, трудно решить, каким из двух высотомеров удобнее пользоваться в реальном полете. Пожалуй, в этом отношении эксперимент можно было бы улучшить, если все-таки сделать считывание показаний более развернутым, скажем, давать пробы лишь время от времени по мере выполнения другой задачи. Внешняя валидность в более широком смысле В этой главе мы часто обращались к проблеме внешней валидности эксперимента, но вместе с тем рассматривали ее лишь с одной точки зрения. В общем виде вопрос о применении экспериментальных результатов к реальной жизни — это систематическое рассмотрение вопроса о степени сходства всех переменных в действительном эксперименте со всеми переменными в эксперименте полного соответствия. В следующей главе также будет обсуждаться вопрос относительно соответствия реальности, но уже по отношению к тем людям, на которых распространяются результаты эксперимента. А эксперименты из главы 5 должны будут соответствовать не реальности, а «миру теории». Это соответствие определяется тем, в какой мере конкретные экспериментальные приемы отражают теоретические понятия. Если такой переход затруднителен, то внешняя валидность будет низкой.
|