Студопедия — Экспериментальная психология 18 страница. 2. Тест включает в себя множество заданий ( ) и вариантов ответов испытуемо­го ( ), которые оговорены в предлагаемой ему инструкции (решил — не решил
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Экспериментальная психология 18 страница. 2. Тест включает в себя множество заданий ( ) и вариантов ответов испытуемо­го ( ), которые оговорены в предлагаемой ему инструкции (решил — не решил






2. Тест включает в себя множество заданий () и вариантов ответов испытуемо­го (), которые оговорены в предлагаемой ему инструкции (решил — не решил, да — нет, хорошо — средне — плохо и т. д.). Декартово произведение x = дает нам множество индикаторов (признаков) измеряемого свойства. Индикаторы могут быть относительно свойства разнородны, однородны (т. е. на них могут быть введены отношения эквивалентности), шкалированы (область разной «силы»).

Отношения на множестве индикаторов независимы от отношений на множестве испытуемых, т. е. от топологии свойства. Это правило соответствует принципу объективности метода измерения: свойства прибора (в нашем случае — тестовых заданий) не зависят от свойств объекта.

3. Между множествами испытуемых (), индикаторов () и свойств () суще­ствуют определенные отношения, которые можно разбить на отношения измерения и интерпретации. Измерение — это творческий подход испытуемого (испытуемых) к работе с тестом, «порождение» ответов на задания (признаков).

Интерпретация заключается в том, что на основе этих признаков эксперимента­тор при работе с «ключом» теста выявляет свойства испытуемого и относит его к определенной категории (подмножеству множества испытуемых).

Отношения измерения:

1. Отображение множества свойств на множество испытуемых вида F1: дает представление об отношении измеряемых свойств к испытуемым. Например: испытуемые могут обладать или не обладать той или иной интенсивностью свой­ства и т.д.

Каждое свойство характеризуется вектором вида < >, где Oij — ве­личина, показывающая на принадлежность свойства Рi испытуемому Oi.

Обычно Pij характеризует распределение испытуемых, на которых апробировали тест, по отношению к пространству свойств.

2. Отображение F2: определяет процесс измерения. Каждое свойство ха­рактеризуется вектором < >;, где величина, определяющая, в какой мере свойство Рj детерминирует индикатор Jk. Если описание теста сопровождается данными факторного или латентно-структурного анализа, то эта величина отража­ет «нагрузку» фактора на пункт теста.

3. Отображение F3: позволяет оценить результат измерения и определить, какие признаки проявил испытуемый при выполнении теста. Каждый испытуемый характеризуется вектором < >;, где — величина, показывающая, в какой мере испытуемый О 1, проявил признак Jk. Обычно признаки проявляются дихотоми­чески: решил — не решил, да — нет; иногда привлекаются непрерывные величины:

время решения задания, шкальная оценка и т.д.

Этот вектор характеризует ответы испытуемого на тест и подвергается процеду­ре интерпретации.

Отношения интерпретации:

1. Отображение множества на множество вида F3: дает представление о первичной структуре данных. Каждый индикатор характеризуется вектором < >;. При тестировании способностей этот вектор позволяет опреде­лить, какие испытуемые решили те или иные задачи.

2. Отображение множества на множество вида F2: указывает на процесс интерпретации тестового балла, точнее — вектора обнаруженных признаков. Каждый индикатор характеризуется вектором < >, где Рij ве­личина, определяющая «вес» индикатора по отношению к свойству. В инструк­ции к тесту «вес» индикатора используется для подсчета накопленного балла. Он соответствует «нагрузке» фактора на пункт теста. По отображению F2 можно говорить о процедуре подсчета «сырого» балла.

3. Отображение множества на множества вида P1: характеризует ин­терпретацию — приписывание свойства или определенного уровня его интенсив­ности конкретному испытуемому (группе испытуемых). Каждый испытуемый ха­рактеризуется вектором < >;, где Pij — величина, определяющая, в какой мере свойство Рi, выражено у испытуемого Оi. Эта величина является ито­гом процесса интерпретации — «психологическим портретом» испытуемого. С позиции обобщенной модели основное требование к тесту заключается в том, чтобы процедуры интерпретации и измерения были тождественными. Иными словами, тождественными должны быть обратные отображения F1 и F 1', F2 и F 2', F3 и F 3'. В противном случае результаты интерпретации будут расходиться с ре­зультатами измерения (тестирования).

Описания множеств и видов отображения F1', F2' и F3' определяются в ходе разработки теста и включаются в теоретическое описание теста и в инструк­цию экспериментатора.

Поскольку тест направлен на измерение психического свойства (в частности, способности), то вид конкретной модели, описывающей тест, определяется тополо­гией свойства.

Рассмотрим варианты нормативной обобщенной модели теста для одномерного случая, когда измеряется только одно свойство.

1. Свойство не определено.

Если топология свойства не определена, то это означает, что множество испыту­емых нельзя (в соответствии с определением понятия «свойство») разбить на под­множества, обладающие или не обладающие свойством. Иначе: на множестве испы­туемых нельзя ввести отношения эквивалентности—неэквивалентности. Однако на множестве испытуемых можно ввести отношения толерантности (сходства). Это отношение рефлексивно, симметрично, но не транзитивно. Множество индикато­ров нельзя характеризовать по отнесенности к свойству, так как множество свойств, качественно не определенных. Следовательно, каждый испытуемый харак­теризуется лишь структурой своих ответов.

Единственно возможный способ интерпретации таких результатов — выделение из множества испытуемых «эталонного испытуемого» (например, решившего все за­дачи теста). После этого производится подсчет коэффициентов сходства всех испы­туемых с «эталоном».

Назовем этот вариант модели «моделью сходств». В психологических исследова­ниях она применяется редко. Очевидно, свою роль играет стремление исследовате­лей максимально повысить мощность интерпретации данных.

2. Свойство качественно определено.

Топология свойства определена: оно является точечным. На множества испыту­емых можно ввести отношение эквивалентности—неэквивалентности (рефлексив­ное, симметричное, транзитивное), указывающее на наличие или отсутствие у них свойства. Следовательно, отображение F 1: является отображением множе­ства на точку. Вектор значений Рij характеризует индивидуальную меру выражен­ности свойства (в вероятностной интерпретации — вероятность его наличия) у ис­пытуемого. Соответственно определены все отображения F 1', F2' и F3' (и обратные им). Если испытуемые обладают / не обладают свойством, то их можно разбить на основании результата тестирования на классы, имеющие и не имеющие свойства. При интерпретации данных используется следующий алгоритм: фиксируются инди­каторы, проявленные испытуемым, подсчитывается индивидуальный показатель на­личия или отсутствия у него свойства и принимается решение о его принадлежно­сти к одному из дихотомических классов — А и (обладающих и не обладающих свойством).

Назовем эту модель моделью дихотомической классификации. Она использова­на в опросниках Личко, опросниках УНП и ряде других.

3. Свойство качественно и количественно определено. Свойство является линейным континуумом, следователь, на нем определена мет­рика. Отображение F 1': указывает на меру принадлежности испытуемых к той или иной градации свойства (точке линейного континуума).

В этом случае для подсчета величины, характеризующей принадлежность испы­туемого к определенной интенсивности свойства, применяют кумулятивно-аддитив­ную модель: число признаков, проявленных при выполнении заданий теста (с уче­том «весов»), прямо пропорционально интенсивности свойства, которым обладает испытуемый. Эта модель есть отображение F2': . Тем самым применяется сле­дующая интерпретация: фиксируются ответы испытуемого; вычисляется «сырой» балл; испытуемый обладает определенной интенсивностью свойства на основе отображения «сырого» балла на шкалу, характеризующую свойство. Эта модель — модель латентного континуума — является наиболее распространенной при тести­ровании психических свойств.

Индикаторы свойства также могут быть однородными и разнородными. В послед­нем случае они шкалируются или не шкалируются. Если индикаторы однородны, то они выявляют свойство или уровень его интенсивности с равной вероятностью. Если индикаторы разнородны, то они выявляют свойство или уровень его интенсивности с разной вероятностью. На множестве индикаторов может быть введена некоторая мера — «сила» признака: чем сильнее признак, тем с большей вероятностью он вы­являет свойство или определенный уровень его интенсивности. В этом случае для описания теста мы получаем так называемую модель Раша.

6.4. Классическая эмпирико-статистическая теория теста

Классическая теория теста лежит в основе современной дифферен­циальной психометрики.

Описание оснований этой теории содержится во многих учебниках, пособиях, практических руководствах, научных монографиях. Количество изданных учебни­ков, излагающих эмпирико-статистическую теорию теста, особенно выросло за по­следние 5-7 лет. Вместе с тем в учебнике, посвященном методам психологического исследования, нельзя хотя бы вкратце не упомянуть основные положения теории психологического тестирования.

Конструирование тестов для изменения психологических свойств и состояний основано на шкале интервалов. Измеряемое психическое свойство считается линей­ным и одномерным. Предполагается также, что распределение совокупности людей, обладающих данным свойством, описывается кривой нормального распределения.

В основе тестирования лежит классическая теория погрешности измерений; она полностью заимствована из физики. Считается, что тест — такой же измеритель­ный прибор, как вольтметр, термометр или барометр, и результаты, которые он по­казывает, зависят от величины свойства у испытуемого, а также от самой процеду­ры измерения («качества» прибора, действий экспериментатора, внешних помех и т.д.). Любое свойство личности имеет «истинный» показатель, а показания по те­сту отклоняются от истинного на величину случайной погрешности. На показания теста влияет и «систематическая» погрешность, но она сводится к прибавлению (вы­читанию) константы к «истинной» величине параметра, что для интервальной шка­лы значения не имеет.

Если тест проводить много раз, то среднее будет характеристикой «истинной» величины параметра. Отсюда выводится понятие ретестовой надежности: чем тес­нее коррелируют результаты начального и повторного проведения теста, тем он на­дежнее. Стандартная погрешность измерения:

Предполагается, что существует множество заданий, которые могут репрезен­тировать измеряемое свойство Тест есть лишь выборка заданий из их генеральной совокупности. В идеале можно создать сколько угодно эквивалентных форм теста. Отсюда — определение надежности теста методами параллельных форм и расщеп­ление его на эквивалентные равные части.

Задания теста должны измерять «истинное» значение свойства. Все задания оди­наково скоррелированы друг с другом. Корреляция задания с истинным показате­лем:

Поскольку в реальном монометрическом тесте число заданий ограничено (не более 100), то оценка надежности теста всегда приблизительна.

Так, определяемая надежность теста связана с однородностью, которая выражается в корреляциях между заданиями. Надежность возрастает с увеличением одномерности теста и числа его заданий, причем довольно быстро. Стандартная надежность 0,02 соответствует тесту длиной в 10 заданий, а при 30 заданиях она равна 0,007.

Оценка стандартной надежности:

Для оценок надежности используется ряд показателей. Наиболее известна формула Кронбаха:

Для определения надежности методом расщепления используется формула Спирмена—Брауна.

В принципе классическая теория теста касается лишь проблемы надежности. Вся она базируется на том, что результаты выполнения разных заданий можно сумми­ровать с учетом весовых коэффициентов.

Так получается «сырой» балл

Y=åaxi+c,

где xi — результат выполнения i -го задания, а — весовой коэффициент ответа, с — произвольная константа.

По поводу того, откуда возникают «ответы», в классической теории не говорится ни слова.

Несмотря на то, что проблеме валидности в классической теории теста уделяет­ся много внимания, теоретически она никак не решается. Приоритет отдан надеж­ности, что и выражено в правиле: валидность теста не может быть больше его на­дежности.

Валидность означает пригодность теста измерять то свойство, для измерения ко­торого он предназначен. Следовательно, чем больше на результат выполнения тес­та или отдельного задания влияет измеряемое свойство и чем меньше — другие пе­ременные (в том числе внешние), тем тест валидней и, добавим, надежнее, посколь­ку влияние помех на деятельность испытуемого, измеряемую валидным тестом, минимально.

Но это противоречит классической теории теста, которая основана не на дея-тельностном подходе к измерению психических свойств, а на бихевиористской па­радигме: стимул—ответ. Если же рассматривать тестирование как активное порож­дение испытуемым ответов на задания, то надежность теста будет функцией, произ­водной от валидности.

Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свой­ство.

Тест невалиден (и ненадежен), если результаты тестирования определяются вли­янием нерелевантных переменных.

Каким же образом определяется валидность? Все многочисленные способы до­казательства валидности теста называются разными ее видами.

1. Очевидная валидность. Тест считается валидным, если у испытуемого скла­дывается впечатление, что он измеряет то, что должен измерять.

2. Конкретная валидность, или конвергентная—дивергентная валидность. Тест должен хорошо коррелировать с тестами, измеряющими конкретное свойство либо близкое ему по содержанию, и иметь низкие корреляции с тестами, измеряю­щими заведомо иные свойства.

3. Прогностическая валидность. Тест должен коррелировать с отдаленными по времени внешними критериями: измерение интеллекта в детстве должно пред­сказывать будущие профессиональные успехи.

4. Содержательная валидность. Применяется для тестов достижений: тест дол­жен охватывать всю область изучаемого поведения.

5. Конструктная валидность. Предполагает:

а) полное описание измеряемой переменной;

б) выдвижение системы гипотез о связях ее с другими переменными;

в) эмпирическое подтверждение (неопровержение) этих гипотез.

С теоретической точки зрения, единственным способом установления «внутрен­ней» валидности теста и отдельных заданий является метод факторного анализа (и аналогичные), позволяющий:

а) выявлять латентные свойства и вычислять значение «факторных нагрузок» — коэффициенты детерминации свойств тех или иных поведенческих признаков;

б) определять меру влияния каждого латентного свойства на результаты тести­рования.

К сожалению, в классической теории теста не выявлены причинные связи фак­торных нагрузок и надежности теста.

Дискриминативность задания является еще одним параметром, внутренне при­сущим тесту. Тест должен хорошо «различать» испытуемых с разными уровнями выраженности свойства. Считается, что больше 9-10 градаций использовать не стоит.

Тестовые нормы, полученные в ходе стандартизации, представляют собой систе­му шкал с характеристиками распределения тестового балла для различных выбо­рок. Они не являются «внутренним» свойством теста, а лишь облегчают его практи­ческое применение.

6.5. Стохастическая теория тестов (IRT)

Наиболее общая теория конструирования тестов, опирающаяся на теорию измерения, — Item Response Theory (IRT). Она основывается на теории латентно-структурного анализа (ЛСА), созданной П. Лазарсфельдом и его после­дователями.

Латентно-структурный анализ создан для измерения латентных (в том числе пси­хических) свойств личности. Он является одним из вариантов многомерного анали­за данных, к которым принадлежат факторный анализ в его различных модификаци­ях, многомерное шкалирование, кластерный анализ и др.

Теория измерения латентных черт предполагает, что:

1. Существует одномерный континуум свойства — латентной переменной (х); на этом континууме происходит вероятностное распределение индивидов с опреде­ленной плотностью f(х).

2. Существует вероятностная зависимость ответа испытуемого на задачу (пункт теста) от уровня его психического свойства, которая называется характеристи­кой кривой пункта. Если ответ имеет две гра­дации («да — нет», «верно — неверно»), то эта функция есть вероятность ответа, завися­щая от места, занимаемого индивидом на кон­тинууме (х).

3. Ответы испытуемого не зависят друг от друга, а связаны только через латентную чер­ту. Вероятность того, что, выполняя тест, ис­пытуемый даст определенную последователь­ность ответов, равна произведению вероятно­стей ответов на отдельные задания.

Конкретные модели ЛСА, применяемые для анализа эмпирических данных, основаны на дополнительных допущениях о плотности распределения индивидов на латентном континууме или о форме функциональной связи уровня выраженности свойства у ис­пытуемого и ответа на пункт теста.

В модели латентного класса функция плотности распределения индивидов явля­ется точечно-дискретной: все индивиды относятся к разным непересекающимся классам. Измерение производится при помощи номинальной шкалы.

В модели латентной дистанции постулируется, что вероятность ответа индивида на пункт текста является мультипликативной функцией от параметров задачи и ве­личины свойства:

Вероятность ответа на пункт теста описывается функцией, изображенной на гра­фике (рис. 6.5).

Модель нормальной огивы есть обобщение модели латентной дистанции. В ней вероятность ответа на задание такова:

В логистической модели вероятность ответа на задание описывается следующей зависимостью:

Логистическая модель используется наиболее широко, так как она специально предназначена для тестов, где свойство измеряется суммированием баллов, полу­ченных за выполнение каждого задания с учетом их весов.

Логистическая функция и функция нормального распределения тесно связаны:

Развитием ЛСА являются различные модификации Item Response Theory. В IRT распределения переменных на оси латентного свойства непрерывны, т.е. модель ла­тентного класса не используется.

База для IRT— это модель латентной дистанции. Предполагается, что и индиви­дов, и задания можно расположить на одной оси «способность — трудность» или «интенсивность свойства — сила пункта». Каждому испытуемому ставится в соот­ветствие только одно значение латентного параметра («способности»).

В общем виде вероятность ответа зависит от множества свойств испытуемого, но в моделях IRT рассматривается лишь одномерный случай.

Главное отличие IRT от классической теории теста в том, что в ней не ставятся и не решаются фундаментальные проблемы эмпирической валидности и надежности теста: задача априорно соотносится лишь с одним свойством, т.е. тест заранее счи­тается валидным. Вся процедура сводится к получению оценок параметров трудности задания и к измерению «способностей» испытуемых (образованию «характери­стических кривых»).

В классической теории теста индивидуальный балл (уровень свойства) считает­ся некоторым постоянным значением. В IRT латентный параметр трактуется как непрерывная переменная.

Первичной моделью в IRT стала модель латентной дистанции, предложенная Г. Рашем: [Rasch G., 1980]: разность уровня способности и трудности теста xi – bi, где хi положение i -ro испытуемого на шкале, а bj положение j -го задания на той же шкале. Расстояние (xi – bi) характеризует отставание способности испытуе­мого от уровня сложности задания. Если разница велика и отрицательна, то задание не может быть выполнено, так как для данного испытуемого оно слишком сложно. Если же разница велика и положительна, то задание также не информативно, ибо испытуемый заведомо легко и правильно его решит.

Вероятность правильного решения задания (или ответа «да») i -м испытуемым:

Вероятность выполнения j -го задания группой испытуемых:

В IRT функции х и f(b) называются функциями выбора пункта. Соответственно первая является характеристической функцией испытуемого, а вторая — характе­ристической функцией задания.

Считается, что латентные переменные х и b нормально распределены, поэтому для характеристически функций выбирают либо логистическую функцию, либо ин­тегральную функцию нормированного нормального распределения (как мы уже от­метили выше, они мало отличаются друг от друга).

Поскольку логистическую функцию проще аналитически задавать, ее использу­ют чаще, чем функцию нормального распределения.

Кроме «свойства» и «силы пункта» (она же — трудность задания) в аналитиче­скую модель IRT могут включаться и другие переменные. Все варианты IRT класси­фицируются по числу используемых в них переменных.

Наиболее известны однопараметрическая модель Г. Раша, двухпараметрическая модель А. Бирнбаума и его же трехпараметрическая модель.

В однопараметрической модели Раша предполагается, что ответ испытуемого обусловлен только индивидуальной величиной измеряемого свойства (qi) и «силой» тестового задания (bj). Следовательно, для верного ответа («да»)

и для неверного ответа («нет»)

Наиболее распространена модель Раша с логистической функцией отклика.

 


Для тестового задания:

Для испытуемого:

Естественно, чем выше уровень свойства (способности), тем вероятнее получить правильный ответ («ключевой» ответ — «да»). Следовательно, функция явля­ется монотонно возрастающей.

В точке перегиба характеристической кривой i-го задания теста «способность» равна «трудности задания», следовательно, «вероятность его решения» равна 0,5 (рис. 6.6).

Очевидно, что индивидуальная кривая испытуемого, характеризующая вероят­ность решить то или иное задание (дать ответ «да»), будет монотонно убывающей функцией(рис. 6.7).

В точке на шкале, где «трудность» равна «индивидуальной способности испытуе­мого», происходит перегиб функции. С ростом «способности» (развитием психоло­гического свойства) кривая сдвигается вправо.

Главной задачей IRT является шкалирование пунктов теста и испытуемых.

Упростим исходную формулу модели, введя параметр V = e qi-bi:


Шанс на успех i -го испытуемого при решении j -го задания определяется отноше­нием:

Если сравнить шансы двух испытуемых решить одно и то же j -е задание, то это отношение будет следующим:

Следовательно, разница в успешности задания испытуемыми не зависит от слож­ности задания и определяется лишь уровнем способности.

Нетрудно заметить, что в модели Раша отношение трудности заданий не зависит от способности испытуемых. Для того чтобы убедиться в этом, достаточно проде­лать аналогичные простейшие преобразования, сравнивая вероятности ответов группы на два пункта теста, а не вероятности ответов разных испытуемых.

Следовательно,

Для сравнения шансов на успех i -го испытуемого решить задания k и п берем отношение:

Тем самым отношение шансов испытуемого решить два разных задания опреде­ляется лишь трудностью этих заданий.

Обратим внимание, что шкала Раша (в теории) является шкалой отношений. Теперь у нас есть возможность ввести единицу измерения способности (в общем виде — свойства). Если взять натуральный логарифм от e bn – bk или е qi – qm, то получа­ется единица измерения «логит» (термин ввел Г. Раш), которая позволяет измерить и «силу пункта» (трудность задания), и величину свойства (способность испытуе­мого) в одной шкале.







Дата добавления: 2015-09-06; просмотров: 384. Нарушение авторских прав; Мы поможем в написании вашей работы!



Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...

Теория усилителей. Схема Основная масса современных аналоговых и аналого-цифровых электронных устройств выполняется на специализированных микросхемах...

Логические цифровые микросхемы Более сложные элементы цифровой схемотехники (триггеры, мультиплексоры, декодеры и т.д.) не имеют...

Образование соседних чисел Фрагмент: Программная задача: показать образование числа 4 и числа 3 друг из друга...

Шрифт зодчего Шрифт зодчего состоит из прописных (заглавных), строчных букв и цифр...

Краткая психологическая характеристика возрастных периодов.Первый критический период развития ребенка — период новорожденности Психоаналитики говорят, что это первая травма, которую переживает ребенок, и она настолько сильна, что вся последую­щая жизнь проходит под знаком этой травмы...

Дизартрии у детей Выделение клинических форм дизартрии у детей является в большой степени условным, так как у них крайне редко бывают локальные поражения мозга, с которыми связаны четко определенные синдромы двигательных нарушений...

Педагогическая структура процесса социализации Характеризуя социализацию как педагогический процессе, следует рассмотреть ее основные компоненты: цель, содержание, средства, функции субъекта и объекта...

Типовые ситуационные задачи. Задача 1. Больной К., 38 лет, шахтер по профессии, во время планового медицинского осмотра предъявил жалобы на появление одышки при значительной физической   Задача 1. Больной К., 38 лет, шахтер по профессии, во время планового медицинского осмотра предъявил жалобы на появление одышки при значительной физической нагрузке. Из медицинской книжки установлено, что он страдает врожденным пороком сердца....

Studopedia.info - Студопедия - 2014-2024 год . (0.014 сек.) русская версия | украинская версия