Квазиэксперимента льны en лапы 4 страница
По отношению к взаимодействию испытуемого и теста возможны два допущения: 1) появление признака строго детерминированно и соответственно детерминирован тип ответа; 2) взаимодействие испытуемого и задания определяет вероятность получения того или иного ответа. Чаще применяется вероятностная модель. Валидность признаков 198 Множество свойств имеет определенную структуру. Традиционно полагается, что тестируемые свойства должны бытьлинейно независимы, хотя в общем случае это условие необязательно. Каждое свойство имеет определенную топологию: она может быть не определена, а свойство — точечно, линейно, многомерно. I. Тест измеряет свойства некоторых объектов, принадлежащих определенному множеству 0-совокупности потенциальных испытуемых. В руководстве к тесту оговариваются характеристики множества испытуемых, для которых он предназначен. Тем самым определено некоторое множество О с отношениями между его элементами. Эти отношения связаны с топологией свойства. Если топология свойства не определена, то на множестве испытуемых можно вводить только отношения сходства, не соответствующего правилу транзитивности отношений. Если свойство является точечным, то, согласно его определению, оно позволяет отделить испытуемых, обладающих свойством, от испытуемых, им не обладающих. То есть на множестве испытуемых можно ввести отношения эквивалентности— неэквивалентности, свидетельствующие о степени обладания свойством. Наконец, если свойстволинейное, то испытуемых можно расположить на линейном континууме и ввести метрику. 2. Тест включает в себя множество заданий (Z) и вариантов ответов испытуемого (R), которые оговорены в предлагаемой ему инструкции (решил—не решил, да—нет, хорошо—средне—плохо и т.д.). Декартово произведение Zx R = J дает нам множество индикаторов (признаков) измеряемого свойства. Индикаторы могут быть относительно свойства разнородны, однородны (т.е. на них могут быть введены отношения эквивалентности), шкалированы (область разной "силы"). Отношения на множестве индикаторов независимы от отношений на множестве испытуемых, т.е. от топологии свойства. Это правило соответствует принципу объективности метода измерения: свойства прибора (в нашем случае — тестовых заданий) не зависят от свойств объекта. а л 3. Между множествами испытуемых (О), индикаторов (J) и свойств (Р) существуют определенные отношения, которые можно разбить на отношения измерения и интерпретации. Измерение — это творческий подход испытуемого (испытуемых) к работе с тестом, "порождение" ответов на задания (признаков). Интерпретация заключается в том, что на основе этих признаков экспериментатор при работе с "ключом" теста выявляет свойства испытуемого и относит его к определенной категории (подмножеству множества испытуемых). Отношения измерения: 1. Отображение множества свойств на множество испытуемых вида F,: Р-> 6 дает представление об отношении измеряемых свойств к испытуемым. Например: испытуемые могут обладать или не обладать той или иной интенсивностью свойства и т.д. Каждое свойство характеризуется вектором вида <0^,0у..., 0^>, где О — величина, показывающая на принадлежность свойства Р испытуемому 0^. Обычно Р. характеризует распределение испытуемых, на которых апробировался тест, по отношению к пространству свойств. 2. Отображение F^: P—>J определяет процесс измерения. Каждое свойство характеризуется вектором <i.,, \.у..., i^>, где i^—величина, определяющая, в какой мере свойство Р детерминирует индикатор J^. Если описание теста сопровождается данными факторного или латентно-структурного анализа, то эта величина отражает "нагрузку" фактора на пункт теста. 3. Отображение Fy 6 —> Р позволяет оценить результат измерения и определить, какие признаки проявил испытуемый при выполнении теста. Каждый испытуемый характеризуется вектором <1ц, i^,..., i^>, где i^ — величина, указывающая, в какой мере испытуемый О, проявил признак !у Обычно признаки проявляются дихотомически: решил — не решил, да — нет; иногда привлекаются непрерывные величины: время решения задания, шкальная оценка и т.д. Этот вектор характеризует ответы испытуемого на тест и подвергается процедуре интерпретации. Отношения интерпретации: 1. Отображение множества J на множество О вида Fy J —> О дает представление о первичной структуре данных. Каждый индикатор характеризуется вектором <0,, Оу..., 0^>. При тестировании способностей этот вектор позволяет определить, какие испытуемые решили те или иные задачи.^ 2. Отображение множества J на множество Р вида F^.: J —> Р указывает на процесс интерпретации тестового балла, точнее — вектора обнаруженных признаков. Каждый индикатор характеризуется вектором <р.|, Р.,, Рз,..., Р.д>, где Р, — величина, определяющая "вес" индикатора по отношению к свойству. В инструкции к тесту "вес" индикатора используется для подсчета накопленного балла. Он соответствует "нагрузке" фактора на пункт теста. По отображению F^ можно говорить о процедуре подсчета "сырого"^балла. 3. Отображение множества О на множество Р вида F^,: О —> Р характеризует интерпретацию — приписывание свойства или определенного уровня его интенсивности конкретному испытуемому (груп- пе испытуемых). Каждый испытуемый характеризуется вектором <Р^, Ру,..., Ру>, где Р — величина, определяющая, в какой мере свойство Р выражено у испытуемого О.. Эта величина является итогом процесса интерпретации — "психологическим портретом" испытуемого. С позиции обобщенной модели основное требование к тесту заключается втом, чтобы процедуры интерпретации и измерения были тождественными. Иными словами, тождественными должны быть обратные отображения F, и f|., F^ и F^,, F^ и F^.. В противном случае результаты интерпретации будут расходиться с результатами измерения (тестирования). Описания множеств О, J, Р, Z, Ки видов отображения F,,, F^., F.,. определяются в ходе разработки теста и включаются в теоретическое описание теста и в инструкцию экспериментатора. Поскольку тест направлен на измерение психического свойства (в частности, способности), вид конкретной модели, описывающей тест, определяется топологией свойства. Рассмотрим варианты нормативной обобщенной модели теста для одномерного случая, когда измеряется только одно свойство: (.Свойство не определено. Если топология свойства не определена, то это означает, что множество испытуемых нельзя (в соответствии с определением понятия "свойство") разбить на подмножества, обладающие или не обладающие свойством. Иначе: на множестве испытуемых нельзя ввести отношения эквивалентности—неэквивалентности. Однако на множестве испытуемых можно ввести отношения толерантности (сходства). Это отношение рефлексивно, симметрично, но не транзитивно. Множество индикаторов J нельзя характеризовать по отнесенности к свойству, так как Р — множество свойств, качественно не определенных. Следовательно, каждый испытуемый характеризуется лишь структурой своих ответов. Единственно возможный способ интерпретации таких результатов — выделение из множества испытуемых "эталонного испытуемого" (например, решившего все задачи теста). После этого производится подсчет коэффициентов сходства всех испытуемых с "эталоном". "Назовем этот вариант модели "моделью сходств". В психологических исследованиях она применяется редко. Очевидно, свою роль ифает стремление исследователей максимально повысить мощность интерпретации данных. 2. Свойство качественно определено. Топология свойства определена: оно является точечным. На множестве испытуемых можно ввести отношение эквивалентности—не- эквивалентности (рефлексивное, симметричное, транзитивное), указывающее на наличие или отсутствие у них свойства. Следовательно, отображение F.: О —> Р является отображением множества на точку. Вектор значений Р характеризует индивидуальную меру выраженности свойства (в вероятностной интерпретации — вероятность его наличия) у испытуемого. Соответственно определены все отображения F„, F-., F^. (и обратные им). Если испытуемые обладают/ не обладают свойством, то их можно разбить на основании результата тестирования на классы, имеющие и не имеющие свойства. При интерпретации данных используется следующий алгоритм: фиксируются индикаторы, проявленные испытуемым, подсчитывается индивидуальный показатель наличия или отсутствия у него свойства и принимается решение о его принадлежности к одному из дихотомических классов — А и А (обладающих и не обладающих свойством). Назовем эту модель моделью дихотомической классификации. Она использована в опросникахЛичко,опросникахУНП и ряде других. 3. Свойство качественно и количественно опре-д е л е н о. Свойство является линейным континуумом, следовательно, на нем определена метрика. Отображение F,: О -> Р указывает на меру принадлежности испытуемых к той или иной градации свойства (точке линейного континуума). В этом случае для подсчета величины, характеризующей принадлежность испытуемого к определенной интенсивности свойства, применяют кумулятивно-аддитивную модель: число признаков, проявленных при выполнении заданий теста (с учетом "весов"), прямо пропорционально интенсивности свойства, которым обладает испытуемый. 3i а модель есть отображение Fy: Р-> 6. Тем самым применяется следующая интерпретация: фиксируются ответы испытуемого; вычисляется "сырой" балл; испытуемый обладает определенной интенсивностью свойства на основе отображения "сырого" балла на шкалу, характеризующую свойство. Эта модель — модель латентного континуума — является наиболее распространенной при тестировании психических свойств. Индикаторы свойства также могут быть однородными и разнородными. В последнем случае они шкалируются или не шкалируются. Если индикаторы однородны, то они выявляют свойство или уровень его интенсивности с равной вероятностью. Если индикаторы разнородны, то они выявляют свойство или уровень его интенсивности с разной вероятностью. На множестве индикаторов может быть введена некоторая мера — "сила" признака: чем сильнее признак, тем с большей вероятностью он выявляет свойство или определен- ный уровень его интенсивности. В этом случае для описания теста мы получаем так называемую модель Раша. 6.4. Классическая эмпирико-статистическая теория теста Классическая теория теста лежит в основе современной дифференциальной психометрики. Описание оснований этой теории содержится во многих учебниках, пособиях, практических руководствах, научных монографиях. Количество изданных учебников, излагающих эмпирико-статисти-ческую теорию теста, особенно выросло за последние 5—Улет. Вместе с тем в учебнике, посвященном методам психологического исследования, нельзя хотя бы вкратце не упомянуть основные положения теории психологического тестирования. Конструирование тестов для измерения психологических свойств и состояний основано на шкале интервалов. Измеряемое психическое свойство считается линейным и одномерным. Предполагается также, что распределение совокупности людей, обладающих данным свойством, описывается кривой нормального распределения. В основе тестирования лежит классическая теория погрешности измерений; она полностью заимствована из физики. Считается, что тест такой же измерительный прибор, как вольтметр, термометр или барометр, и результаты, которые он показывает, зависят от величины свойства у испытуемого, а также от самой процедуры измерения ("качества" прибора, действий экспериментатора, внешних помех и т.д.). Любое свойство личности имеет "истинный" показатель, а показания по тесту отклоняются от истинного на величину случайной погрешности. На показания теста влияет и "систематическая" погрешность, но она сводится к прибавлению (вычитанию) константы к "истинной" величине параметра, что для интервальной шкалы значения не имеет. Если тест проводить много раз, то среднее будет характеристикой "истинной" величины параметра^ Отсюда вводится понятие ре-тестовой надежности: чем теснее коррелируют результаты начального и повторного проведения теста, тем он надежнее. Стандартная погрешность измерения: где о^ — стандартное отклонение, г„ — коэффициент корреляции тест—ретест. Предполагается, что существует множество заданий, которые могут репрезентировать измеряемое свойство. Тест есть лишь выборка заданий из их генеральной совокупности. В идеале можно создать сколько угодно эквивалентных форм теста. Отсюда — определение надежности теста методами параллельных форм и расщепление его на эквивалентные равные части. Задания теста должны измерять "истинное" значение свойства. Все задания одинаково скоррелированы друг с другом. Корреляция задания с истинным показателем: а2 — дисперсия для гсего теста. Для определения надежности методом расщепления используется формула Спирмена— Брауна. В принципе классическая теория теста касается лишь проблемы надежности. Вся она базируется натом, чю результаты выполнения разных заданий можно суммировать с учетом весовых коэффициентов. Так получался "сырой'' балл. У=Хд\ +с, где х_ — результат выполнения i-ro задания, а — весовой коэффициент огвета, с — произвольная константа. По поводу того, откуда возникают "ответы", в классической теории не говорится ни слова. Несмотря на то что проблеме валидности в классической теории теста уделяется много внимания, теоретически она никак не решается. Приоритет отдан надежности, что и выражено в правиле: ва-лидность теста не может быть больше его надежности. Валидность означает пригодность теста измерять то свойство, для измерения которого он предназначен. Следовательно, чем больше па результат выполнения теста или отдельного задания влияет измеряемое свойство и чем меньше — другие переменные (в том числе внешние), тем тест валидной и, добавим, надежнее, поскольку влияние помех на деятельность испытуемого, измеряемую валидным тестом, минимально. Но это противоречит классической теории теста, которая основана не на деятельностном подходе к измерению психических свойств, а на бихевиористской парадигме: стимул — ответ. Если же рассматривать тестирование как активное порождение испытуемым о гвегов на задания, то надежное! ь теста будет функцией, производной от валидности. Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свойство. - Тест невалиден (\\ ненадежен), если результаты тестирования определяются влиянием нерелевантных переменных. Каким же образом определяется валидность? Все многочисленные способы доказательства валидности теста называются разными ее видам и. 1. Очевидная валидность. Тест считается валидным, если у испытуемых складывается впечатление, что он измеряет то, что должен где r, — корреляция i-ro задания с истинным показателем t, r — средняя корреляция i-ro задания с другими. Поскольку в реальном монометрическом тесте число заданий ограничено (не более 100), то оценка надежности теста всегда приблизительна. Так, определяемая надежность теста связана с однородностью, которая выражается в корреляциях между заданиями. Надежность возрастает с увеличением одномерности теста и числа его заданий, причем довольно быстро. Стандартная надежность 0,02 соответствует тесту дли ной в 10 заданий, а при 30 заданиях она равна 0,007. Оценка стандартной надежности: где or— стандартная погрешность оценивания r, о — стандартное отклонение корреляций заданий в тесте, к — число заданий в тесте. Для оценок надежности используется ряд показателей. Наиболее известна формула Кронбаха: где к — число заданий в тесте, £o2 — сумма дисперсий заданий, измерять. 2. Конкретная валидность, или конвергентная—дивергентная. Тест должен хорошо коррелировать с тестами, измеряющими конкретное свойство либо близкое ему по содержанию, и иметь низкие корреляции с тестами, измеряющими заведомо иные свойства. 3. Прогностическая валидность. Тест должен коррелировать с отдаленными по времени внешними критериями: измерение интеллекта в детстве должно предсказывать будущие профессиональные успехи. 4. Содержательная валидность. Применяется для тестов достижений: тест должен охватывать всю область изучаемого поведения. 5. Конструктная валидность. Предполагает: а) полное описание измеряемой переменной; б) выдвижение системы гипотез о связях ее с другими переменными; в) эмпирическое подтверждение (не опровержение) этих гипотез. С теоретической точки зрения единственным способом установления "внутренней" валидности теста и отдельных заданий является метод факторного анализа (и аналогичные), позволяющий: а) выявлять латентные свойства и вычислять значение "факторных нагрузок" — коэффициенты детерминации свойством тех или иных поведенческих признаков; б) определять меру влияния каждого латентного свойства на результаты тестирования. К сожалению, в классической теории теста не выявлены причинные связи факторных нагрузок и надежности теста. Дискриминативность задания является еще одним параметром, внутренне присущим тесту. Тест должен хорошо "различать" испытуемых с разными уровнями выраженности свойства. Считается, что больше 9—10 градаций использовать не стоит. Тестовые нормы, полученные входе стандартизации, представляют собой систему шкал с характеристиками распределения тестового балла для различных выборок. Они не являются "внутренним" свойством теста, а лишь облегчают его практическое применение. 6.5. Стохастическая теория тестов (IRT) Наиболее общая теория конструирования тестов, опирающаяся на теорию измерения, — Item Response Theory (IRT). Онаосновыва- ется на теории латентно-структурного анализа (ЛСА), созданной \ П.Лазарсфельдом и его последователями. 1 Латентно-структурный анализ создан для измерения латентных (в том числе психических) свойств личности. Он является одним из вариантов многомерного анализа данных, к которым принадлежат факторный анализ в его различных модификациях, многомерное шкалирование, кластерный анализ и др. Теория измерения латентных черт предполагает, что: 1. Существует одномерный конти нуум свойства — латентной переменной (х); на этом континууме происходит вероятностное распределение индивидов с определенной плотностью цх). 2. Существует вероятностная зависимость ответа испытуемого на задачу (пункт теста) от уровня его психического свойства, которая называется характеристикой кривой пункта. Если ответ имеет две градации ("да — нет", "верно — не верно"), то эта функция есть вероятность ответа, зависящая от места, занимаемого индивидом на континууме (х). 3. Ответы испытуемого не зависят друг от друга, а связаны только через латентную черту. Вероятность того, что, выполняя тест, испытуемый даст определенную последовательность ответов, равна произведению вероятностей ответов на отдельные задания. Конкретные модели ЛСА, применяемые для анализа эмпирических данных, основаны надополнительныхдопущенияхо плотности распределения индивидов на латентном континууме или о форме функциональной связи уровня выраженности свойства у испытуемого и ответа на пункт теста. В модели латентного класса функция плотности распределения индивидов является точечно-дискретной: все индивиды относятся к разным непересекающимся классам. Измерение производится номинальной шкалой. В модели латентной дистанции постулируется, что вероятность ответа индивида на пункт теста является мультипликативной функцией от параметров задачи и величины свойства: где Р,(х) — вероятность ответа "да" на i-й пункт, а — ''дифференцирующая сила" задания, х — величина свойства, Р,— "трудность" задания. Вероятность ответа на пункт теста описывается функцией, изо Сраженной на графике. где F(x) — величина i-ro задания, Р^(х) — вероятность ответа на i-e задание. Модель нормальной огивы есть обобщение модели латентной дистанции. В ней вероятность ответа на задание такова: где -L(x) — плотность нормального распределения. В логистической модели вероятность ответа на задание описывается следующей зависимостью: распределения. Логистическая модель используется наиболее широко, так как она специально предназначена для тестов, где свойство измеряется суммированием баллов, полученных за выполнение каждого задания с учетом их весов. Логистическая функция и функция нормального распределения тесно связаны: / Ф(x)-\V(^,7x) \<0,01 (здесьф(х) — кумулятивная функция нормального распределения). Развитием ЛСАявляются различные модификации Item Response Theory. В IRT распределения переменных на оси латентного свой-208 ства считаются непрерывными, т.е. модель латентного класса не используется. База для IRT— это модель латентной дистанции. Предполагается, что и индивидов, и задания можно расположить на одной оси "способность — трудность", или "интенсивность свойства — сила пункга". Каждому испытуемому ставится в соответствие только од но значение латентного параметра ("способности"). В общем виде вероятность ответа зависит от множества свойств испытуемого, но в моделях IRT рассматривается лишь одномерный случай. Главное отличие IRT от классической теории теста в том, что в ней не ставятся и не решаются фундаментальные проблемы эмпирической валидности и надежности теста: задача априорно соотносится лишь с одним свойством, т.е. тест заранее считается валидным. Вся процедура сводится к получению оценок параметров трудности задания и к измерению "способностей" испытуемых (образованию "характеристических кривых"). В классической теории теста индивидуальный балл (уровень свойства) считается некоторым постоянным значением. В IRT латентный параметр трактуется как непрерывная переменная. Первично моделью в IRT стала модель латентной дистанции, предложенная Г.Рашем: разность уровня способное ги и трудносчи Tecia х^ —р^, где х^ — положение i-ro испытуемого на шкале, ар— положение j-ro задания на той же шкале. Расстояние (х^ — р^) характеризует отставание способности испытуемого от уровня сложности задания. Если разница велика и отрицательна, то задание не может быть выполнено, так как для данного испытуемого оно слишком сложно. Если же разница велика и положительна, то задание также не информативно, ибо испытуемый заведомо легко и правильно его решит. Вероятность правильного решения задания (или ответа "да") i-м испытуемым: Р,(^)=Г(х-Р,) Вероятность выполнения j-ro задания группой испытуемых: Р^(х-Р^). В IRT функции (х) и f(P) называются функциями выбора пункта. Соответственно первая является характеристической функцией испытуемого, а вторая — характеристической функцией задания. Считается, что латентные переменные х и (3 нормально расиреде лены, поэтому для характеристических функций выбирают либоло-гистическую функцию, либо интегральную функцию нормирован ного нормального распределения (как мы уже отмегилн выше, от, мало отличаются друг от друга). Поскольку логистическую функцию проще аналитически зада вать, ее используют чаще, чем функцию нормальною распределс ния. Кроме "свойства" и "силы пункта" (она же — трудность задания 1 в аналитическую модель IRT могут включаться и другие перемен ные. Все варианты IRT классифицируются по числу используемых i, них переменных. Наиболее известны однопараметрическая модель Г.Раша. двухпараметрическая модельА.Бирнбаума и трехпараметрическая модель А.Бирнбаума. В однопараметрической модели Pauia предполагается, чтоотвеч испытуемого обусловлен только индивидуальной величиной измеряемого свойства (й^) и "силой" тестового задания ([3). Следовательно, для верного ответа ("да") и для неверного ответа ("нет") Наиболее распространена модель Раша с логистической функцией отклика. Для тестового задания: Естественно, чем выше уровень свойства (способности), тем вероятнее получить правильный ответ ("ключевой" огвет — "да"). Следовательно, функция Р (9) является монотонно возрастающей. В точке "перегиба" характеристической кривой i-ro задания теста "способность" равна "трудности задания", следовательно, "вероятность его решения" равна 0,5. ичевидно, что индивидуальная кривая испытуемого, характеризующая вероятность решить то или иное задание (дать ответ "да"), будет монотонно убывающей функцией. В точке на шкале, где "трудность" равна "индивидуальной способности испытуемого", происходит "перегиб" функции. С ростом "способности" (развитием психологического свойства) кривая сдвигается вправо. Главной задачей IRT является шкалирование пунктов теста и испытуемых. Упростим исходную формулу модели, введя параметр V= e91-^: Шанс на успех i-ro испытуемого при решении j-ro задания определяется отношением: Если сравнить шансы двух испытуемых решить одно и то жej-е задание, то это отношение будет следующим: Следовательно, разница в успешности решения задания испыту емыми не зависит от сложности задания и определяется лишь уров нем способности. Нетрудно заметить, что в модели Раша отношение трудности заданий не зависит от способности испытуемых. Для того, чтобы убедиться в этом, достаточно проделать аналогичные простейшие пре образования, сравнивая вероятности ответов группы на два пункта, теста, а не вероятности ответов разных испытуемых. где Р,^— вероятность ответа на k-e задание для i-го испытуемого,U== ев.-р, и для неправильного ответа Следовательно, Для сравнения шансов на успех i-ro испытуемого решить задания k и п берем отношение: Тем самым отношение шансов испытуемого решить два разных задания определяется лишь трудностью этих заданий. Обратим внимание, что шкала Раша (в теории) является шкалой отношений. Теперь у нас есть возможность ввести единицу измерения способности (в общем виде — свойства). Если взять натуральный лога- 21? рифм от е1'" -pk или е9' -ет, то получается единица измерения "логит" (термин ввел Г.Раш), которая позволяет измерить и "силу пункта" (трудность задания), и величину свойства (способность испытуемого) в одной шкале.
|