В. Надежностьи ошибка измерения.
Надежность — характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов. В основе анализа надежности теста лежит представление об истинных оцен- ках и ошибках измерения. Распределение оценок, полученных на генеральной совокупности при выполнении теста, измеряющего одну характеристику, теоретически должно подчиняться нормальному закону. Поэтому при разработке теста исследователю необходимо отбирать задания таким образом, чтобы распределение реальных тестовых оценок было по возможности близко к нормальному. Для определения ошибки измерения используются на практике корреляционные методы, позволяющие определить надежность через устойчивость и согласованность результатов. Классические методы оценки коэффициентов надежности требуют корреляции по меньшей мере двух совокупностей сходных измерений. Один из методов получения двух совокупностей измерений — это ретестирова-ние (повторное обследование одной и той же выборки испытуемых). Несмотря на простоту и возможность определения устойчивости результатов теста в течение времени, дефект метода в том, что субъект помнит свои ответы, и в случае тестов способностей это может существенно влиять на повторные ответы. Если мы желаем исключить влияние запоминания на результаты ответов как систематический источник ошибки и учесть влияние временного интервала на ответы, то можем использовать две совокупности заданий, разработанных или отобранных по одной системе. Это — параллельные тесты. Недостатком в данном случае является то, что очень трудно построить на практике параллельные формы одного и того же теста. Если желательно изучить только влияние содержания выборки без влияния запоминания или вариативности ответов во времени или если практически нецелесообразно проводить две параллельные формы в разное время, надежность может быть оценена проведением одного теста без ограничения во времени. В данном случае тест может быть разделен на две равные части. Полученные показатели по двум частям теста коррелируются обычным методом. Но эта корреляция отражает лишь надежность половины теста. Для вычисления надежности всего теста по методу расщепления используют формулу Спирмена—Брауна. Оценка надежности на основе однократного тестирования может быть получена путем использования формулы, известной как коэффициент альфа. Рекомендуется также оценить надежность теста относительно экспериментатора как оценщика и как экспериментатора. Из предыдущего видно, что различные методы оценивания надежности исходят из различных источников ошибок. Так, на результаты ретестирования влияет не только случайная вариативность ответов или изменение субъектов во времени, но также различия в поведении (особенно если ретестирует другое лицо). Коэффициенты надежности, основанные на однократном тестировании, исключают вариативность ответов во времени, т. е. влияние ответов на баллы не проявляется как ошибка измерения. Следовательно, «коэффициент надежности* — обобщенный термин. Он может основываться на разных типах свидетельств — каждый тип предполагает иной смысл. Очень важно, чтобы метод, использованный для получения коэффициента надежности, был четко описан. Автору теста рекомендуется в руководстве описать значение любого коэффициента насколько возможно точно. Например, высказывание: «Этот коэффициент показывает стабильность измерения эквивалентных баллов, основанных на параллельных формах тестов, проведенных с промежутком в 7 дней, при этом научение испытуемых исключается» хотя и длинное, но свободно от двусмысленности. Коэффициенты надежности имеют ограниченную практическую ценность для пользователей теста. Стандартная ошибка измерения обычно более полезна, т. к. обладает относительной независимостью и может быть использована для установления пределов определенной вероятности балла. Пользователи теста могут употребить коэффициент надежности для сравнения тестов, но для интерпретации тестовых баллов используется стандартная ошибка измерения. В.1. В руководстве к тесту должны быть достаточно подробно описаны процедуры и выборки, использованные для определения коэффициентов надежности, сами коэффициенты и ошибки измерения, что позволит пользователю судить о том, в какой степени эти параметры приложи-мы к лицам или группам, с которыми он имеет дело. Если некоторые из необходимых данных не были получены, то отсутствие такой информации должно быть отмечено. (Существенно.) Комментарий. Для пользователя важно получить несколько типов оценки надежности. Полезным является сообщение стандартных ошибок измерения, полученных в разных группах. Следует привести среднее значение и дисперсию выборки и информацию о ее составе. Надежность теста, предназначенного для отбора работников, проверяется при тестировании кандидатов на должность, а не школьников или уже работающих. Если указывается, что тест пригоден для различных возрастных групп, следует привести данные о надежности для каждого класса или возраста. Авторы и публикаторы тестов должны избегать необщепринятых статистических процедур, если применимы традиционные. Если представлен необщепринятый стати- стический анализ, он должен быть объяснен так, чтобы свести к минимуму вероятность ошибочной интерпретации. В. 1,1. В руководстве к тесту следует представить, насколько это возможно, количественный анализ всех факторов, снижающих надежность измерения: несогласованность ответов субъекта; несогласованность или неоднородность внутри выборки содержания теста (стимульные задания, вопросы, ситуации и др.); несогласованность в проведении теста; несогласованность между оценщиками, экспертами или единицами математического аппарата; механические ошибки при выставлении баллов. (Желательно.) Комментарий. Подобный анализ может быть неосуществим, если результаты теста выражены не в количественной форме, а в категориальной или непараметрической. Для группы тестов школьных достижений основными источниками ошибок, подлежащих оценке, являются: а) несогласованность в содержании теста; б) несогласованность в проведении теста; в) нестабильность ответов испытуемых. Сбор данных производится для оценки этих трех факторов. Колебания или несогласованность ответов субъекта сами по себе могут быть важной переменной. Они часто бывают главными источниками подлежащей оцениванию случайной ошибки. Также должна быть оценена несогласованность между оценщиками. В. 1.2. Стандартные ошибки измерений и коэффициенты надежности должны приводиться как для итогового балла, так и для его частей, комбинаций баллов (сумм, разниц, производных показателей), если они рекомендованы в руководстве к тесту (явно или неявно) для практического использования, за исключением опытных и экспериментальных. (Существенно.) В. 1.3. В руководстве должно быть указано минимальное различие между двумя баллами, обычно требуемое для статистической значимости на определенном уровне. (Очень желательно.) В. 1.4. В руководстве должны быть описаны все характеристики выборки, которые могут оказывать влияние на надежность оценивания. (Существенно.) Комментарий. В руководстве следует отразить такую демографическую информацию, как распределение субъектов по возрасту, полу, экономическому и интеллектуальному уровню, трудовому статусу или прошлой трудовой деятельности, месту жительства. Для стандартизированных тестов при вычислении коэффициентов надежности выборку следует формировать случайным образом из генеральной совокупности. В, 1.5. Если тест рекомендован или обычно используется в однородных подгруппах, для каждой из них независимо должна быть исследована надежность и ошибка измерений, и это должно быть сообщено в руководстве к тесту. (Существенно.) В. 1.6. В руководстве к тесту должна быть сообщена стандартная ошибка измерения для разных уровней баллов. (Желательно.) Комментарий. В руководстве к одному тесту способностей сообщаются стандартные ошибки для трех уровней баллов: на уровне среднего балла, на уровне одного стандартного отклонения выше среднего и на уровне одного стандартного отклонения ниже среднего. Так как наиболее существенные вариации ошибок измерения связаны с крайними баллами, лучше опираться, если позволяет количество доступных случаев, на более широкий диапазон уровней баллов. В.1.7. Неизвестные статистические характеристики данных должны быть описаны со ссылками на литературные источники, отражающие разработку. (Существенно.) Ati.
|