Оценка шкалы

⇐ Предыдущая 1 23

При использовании многомерной шкалы нужно проверить ее точность и применимость. Как показано на рис. 1, этот процесс включает оценку надежности, достоверности и обобщенности шкалы. Среди различных подходов к оценке надежности отметим следующие: двойное тестирование, проверка надежности с помощью альтернативных форм и проверка внутренней согласованности. Достоверность можно оценить через рассмотрение достоверности содержания, достоверности критерия и конструкции.

Рис. 1. Оценка шкалы

Перед оценкой надежности и достоверности следует рассмотреть точность измерения как основу оценки шкалы.

Точность измерения

Как уже указывалось в предыдущих разделах, измеряя некий объект, мы с помощью чисел (показателей) определяем его отдельные характеристики. Показатель — это не истинное значение характеристики, а результат наблюдения. Действие различных факторов может вызвать ошибку измерения (measurement error), которая проявляется в отклонении показателя, т.е. полученного значения характеристики, от ее истинного значения (рис. 1).

Модель истинной оценки (true score model) содержит основы для понимания точности измерения. Согласно этой модели,

Хо = Хт + Хs + Хr

где

Хо- измеренное фактическое значение; Хт- истинное значение характеристики; Xs — систематическая ошибка; Xr- случайная ошибка.

Ошибка измерения (measurement error)
Отклонение информации, которую ищет маркетолог, от информации, получаемой с помощью заданного процесса измерения.

Модель истинной оценки (true score model)
Математическая модель, дающая представление о точности измерений.

Примечательно, что общая ошибка измерения включает систематическую ошибку (systematic error) — Xs и случайную ошибку — Xr. Влияние систематической ошибки на процесс измерения носит постоянный характер. Она отображает действие стабильных факторов, влияющих на полученный результат при каждом отдельном измерении, например механические факторы (см. рис. 1).

Случайная ошибка (random variable), напротив, непостоянна. Она отображает действие временных факторов, их разное влияние на результат при каждом отдельном измерении. К таким факторам относятся индивидуальные и ситуационные. Разграничение между систематической и случайной ошибками очень важно для понимания надежности и достоверности.

Систематическая ошибка (systematic error)
Систематическая ошибка постоянно влияет на измерение, отображает действие стабильных факторов, влияющих на полученный результат при каждом отдельном измерении.

Случайная ошибка (random error)
Ошибка измерения, появляющаяся вследствие случайных изменений или различий между респондентами или условиями, в которых проводится опрос.

Рис. 6. Потенциальные источники ошибки в измерении

Надежность

Надежность (reliability) характеризуется тем, насколько устойчивые результаты дает применение шкалы при повторных измерениях. Систематические источники ошибок не влияют на надежность, они постоянно воздействуют на измерение и не приводят к противоречивости ее результатов. Случайная ошибка, напротив, может приводить к противоречивым результатам и соответственно — к уменьшению надежности. Надежность, таким образом, можно определить как степень отсутствия при измерении случайной ошибки — Xr. Если Xr = 0, измерение абсолютно надежное. Надежность (reliability) Насколько применение шкалы дает согласующиеся результаты при повторных измерениях характеристик объекта. Надежность оценивается определением доли систематической вариации в шкале с помощью установления связи между оценками, полученными при использовании различных методик расчета. Если связь достаточно сильна, шкала дает согласующиеся и, следовательно, достаточно надежные результаты. К методам оценки надежности относятся повторное тестирование, метод альтернативных форм и внутренней согласованности. Повторное тестирование надежности. При повторном тестировании надежности (test-retest reliability) опрос респондентов проводится дважды с помощью двух идентичных шкал и в как можно более сходных условиях. Интервал между тестированиями обычно составляет от двух до четырех недель. Схожесть результатов двух измерений определяется коэффициентом корреляции. Чем выше коэффициент корреляции, тем выше надежность. Повторное тестирование надежности (test-retest reliability) Метод оценки надежности, когда идентичные опросы проводятся дважды в как можно более сходных условиях. С определением надежности при применении метода повторного тестирования связано несколько проблем. Во-первых, данный метод сильно зависит от промежутка времени между тестированиями. При прочих равных условиях, чем дольше интервал, тем ниже надежность. Во-вторых, первоначальное измерение может изменить рассматриваемые характеристики. Например, измерение отношений респондентов к молоку с низкой жирностью может заставить опрашиваемых задуматься о его полезности для здоровья и, таким образом, привести к повышению оценки данного продукта. В-третьих, иногда не удается провести повторное тестирование (например, при измерении первоначальной реакции на новый продукт). В-четвертых, первое измерение может иметь эффект автоматического переноса высказанного мнения на второе и последующие измерения. В-пятых, измеряемые характеристики могут изменяться за промежуток времени между опросами. Например, благоприятная информация об объекте улучшает отношение к нему. Наконец, коэффициент корреляции бывает завышенным из-за автокорреляции отдельных пунктов шкалы. Из-за перечисленных выше недостатков метод двойного тестирования применяется в сочетании с другими подходами, одним из них которых является метод альтернативных форм. Проверка надежности с помощью альтернативных форм. При проверке надежности с помощью альтернативных форм (alternative-forms reliability) составляются две эквивалентные по сути формы шкалы. Одни и те же респонденты опрашиваются дважды, обычно с перерывом от двух до четырех недель. Для проверки надежности рассчитывается корреляция между результатами по двум шкалам. Проверка надежности с помощью альтернативных форм (alternative-forms reliability) Метод проверки надежности, когда составляются две формы шкалы, эквивалентные по своей сути, а затем одна и та же группа респондентов опрашивается дважды. С данным подходом связано две основные проблемы. Во-первых, составление двух шкал отнимает достаточно много времени и требует дополнительных финансовых ресурсов. Во-вторых, существуют сложности с составлением двух эквивалентных шкал. Формы должны быть эквивалентными по содержанию. В строгом смысле это означает, что альтернативные шкалы должны иметь одинаковые значения средних, вариации и коэффициентов корреляции. Даже при соблюдении этих двух условий формы не всегда эквивалентны по содержанию. Таким образом низкий коэффициент корреляции будет свидетельствовать либо о ненадежности шкалы, либо о неэквивалентности форм. Проверка надежности через тестирование внутренней согласованности. Для проверки надежности итоговой шкалы, в которой результаты по отдельным пунктам суммируются для получения общего балла, применяется проверка надежности через тестирование внутренней согласованности (internal consistency reliability). В подобных шкалах отдельные пункты измеряют какой-либо аспект конструкции, рассматриваемой с помощью всей шкалы, поэтому результаты по пунктам должны согласовываться между собой. Данная методика проверки согласованности фокусируется на внутренней согласованности набора пунктов, составляющих шкалу. Проверка надежности через тестирование внутренней согласованности (internal consistency reliability) Метод оценки внутренней согласованности набора пунктов, когда подсчитывается сумма баллов для получения общего итога. Самый простой способ измерения внутренней согласованности — это проверка надежности делением данных на половины (split-half reliability). Пункты шкалы разделяются на две половины, и затем рассчитывается корреляция между ними. Высокое значение корреляции между половинами свидетельствует о высокой внутренней согласованности. Пункты шкалы разбиваются на две части в зависимости от четности, нечетности или случайным образом. Проблема в том, что результаты будут зависеть от выбора способа разбивки. Популярное решение этой проблемы — расчет коэффициента «альфа». Проверка надежности делением данных на половины (split-half reliability) Метод проверки внутренней согласованности, когда пункты, составляющие шкалу, разделяются на половины с последующим расчетом коэффициента корреляции между ними. Коэффициент «альфа» (coefficient alpha), или альфа Кронбаха (Cronbach’s alpha), — средний из всех возможных половинных коэффициентов при различных делениях шкалы. Коэффициент принимает значения от 0 до 1, при значении коэффициента 0,6 и меньше внутренняя согласованность неудовлетворительная. Важное свойство коэффициента «альфа» — это увеличение его значения при увеличении количества пунктов шкалы. Таким образом, коэффициент бывает искусственно завышенным за счет чрезмерно большого количества пунктов. Коэффициент «альфа» дополняет коэффициент «бета», который оценивает наличие несогласованных пунктов в процессе усреднения с помощью коэффициента «альфа». Коэффициент «альфа» (coefficient alpha) Показатель внутренней согласованности, рассчитываемый как средняя всех возможных половинных коэффициентов различных разделений шкалы. Некоторые многомерные шкалы включают несколько наборов пунктов для измерения различных аспектов многомерной конструкции. Например, имидж магазина будет многомерной конструкцией, включающей качество товаров, разнообразие и ассортимент продукции, политику возврата и урегулирования конфликтов, торговое обслуживание, цены, удобство расположения, внешний вид магазина, политику оплаты и продажи в рассрочку. Следовательно, шкала, разработанная для оценки имиджа магазина, включает пункты для измерения каждого из этих показателей. Поскольку измеряемые показатели в некоторой степени не зависят один от другого, расчет внутренней согласованности даст недостоверные результаты. Если же для измерения одного показателя используется несколько пунктов, возможен расчет коэффициента согласованности для отдельного показателя. Как выявлять «лидеров мнений» В исследовании, посвященном проблемам перехода к использованию новых технологий, была сделана попытка выявить «лидеров мнений» с помощью семибалльных шкал Лайкерта (1 — полностью согласен; 7 — категорически не согласен). Лидер мнения 1. Мое мнение по поводу компьютерных комплектующих или программ, как правило, не совпадает с мнениями других людей. 2. Когда другие люди сомневаются, следует ли переходить к использованию каких-либо компьютерных комплектующих или программ, они обращаются ко мне за советом., 3. Другие люди редко выбирают компьютерные комплектующие или программы, прислушиваясь к моим рекомендациям. 4. Мне часто удается убедить людей использовать компьютерные комплектующие или программы, которые нравятся лично мне. 5. Другие люди редко обращаются ко мне за советом, когда речь идет о выборе компьютерных комплектующих или программ. 6. Мне часто удается оказывать влияние на мнение других людей по поводу компьютерных комплектующих или программ. Значение коэффициента «альфа» для выявления «лидеров мнений» составляло 0,88, что указывало на неплохую внутреннюю согласованность. Оказалось, что первопроходцами технологических продуктов, как правило, становятся молодые мужчины, которые считаются «лидерами мнений», стремятся получать нестандартную информацию и обладают изрядным опытом работы с компьютерной техникой. Компаниям, действующим в сфере информационных технологий (например, Microsoft), приходится заботиться о получении положительной реакции со стороны «пионеров», первыми осваивающих высокотехнологичные продукты, и на стадии выхода на рынок с новым продуктом сосредоточивать свою маркетинговую деятельность именно на этой категории потенциальных потребителей. Достоверность Достоверность (validity) шкалы можно определить как степень, в которой различия между оценками, полученными по шкале, отражают истинные различия между измеряемыми характеристиками объектов, а не обусловлены случайными и систематическими ошибками. Полная достоверность предусматривает отсутствие ошибок измерения (Xо = Xт, Xr = 0, Xs= 0). Исследователи оценивают содержательную достоверность, критериальную и конструкционную. Достоверность (validity) Насколько различия между оценками, полученными по шкале, отражают истинные различия между измеряемыми характеристиками объектов, а не обусловлены случайными и систематическими ошибками. Содержательная достоверность. Содержательная достоверность (content validity), иногда называемая лицевой достоверностью (face validity), — субъективная систематическая оценка того, насколько хорошо содержание шкалы соответствует поставленной цели измерения. Исследователь или кто-либо еще проверяет, насколько пункты шкалы адекватно покрывают всю область измерений. Таким образом, шкала, разработанная для измерения имиджа магазина, считается неадекватной, если будет опущена одна из существенных характеристик объекта (качество, разнообразие, ассортимент предлагаемой продукции). Учитывая субъективную природу данного показателя, оценки содержательной достоверности будет недостаточно при измерении достоверности шкалы, однако она помогает правильно интерпретировать полученные результаты. Более того, формальную оценку можно получить с помощью проверки критериальной достоверности. Содержательная достоверность (content validity) Тип достоверности, иногда называемый лицевой достоверностью (face validity), для определения которого проводится субъективная систематическая оценка того, насколько хорошо содержание шкалы соответствует поставленной цели измерения. Критериальная достоверность.Критериальная достоверность (criterion validity) отражает, насколько используемая шкала соответствует выбранным значимым критериальным переменным. Последние могут включать демографические и психологические характеристики, измерения отношений и поведений, оценки, полученные на основании использования других шкал. В зависимости от временных рамок критериальная достоверность может принимать две формы — текущую или прогнозную достоверность. Критериальная достоверность (criterion validity) Тип достоверности, отражающий соответствие используемой шкалы переменным, которые выбраны как значимые. Текущая достоверность определяется, когда данные, полученные на основе использования шкалы, и сведения о критериальных переменных собираются одновременно. Для оценки текущей достоверности разработаны краткие формы для определения характеристик личности. Данные по исходным опросам и по кратким формам обрабатываются параллельно и затем сравниваются. Для оценки прогнозной достоверности исследователь собирает данные оценок по шкале в один период времени, а по критериальным переменным — в другой. Например, отношение к различным маркам сухих завтраков может использоваться для прогноза будущих объемов продаж сухих завтраков представителями сканерной панели. У членов панели получают информацию об их отношении к продукту, а затем их будущие закупки проверяются по данным исследования. Прогнозные и фактические данные по покупкам сравниваются для оценки прогнозной достоверности шкалы отношения. Конструктивная достоверность. Конструктивная достоверность (construct validity) связана с ответом на вопрос, касающийся конструкции или характеристики, измеряемой данной шкалой. При оценке конструктивной достоверности исследователь попытается ответить на теоретические вопросы: почему должна использоваться эта шкала и какие выводы можно сделать из лежащей в ее основе теории. Таким образом, для оценки конструктивной достоверности необходима основательная теоретическая разработка сути конструкций и их соотношения с другими конструкциями. Конструктивная достоверность сложнее других в определении. Достоверность конструкции включает конвергенционную, дискриминантную и номологическую достоверность. Конструктивная достоверность (construct validity) Тип достоверности, оценка которой предполагает ответ на вопрос, конструкцию или характеристику того, что именно измеряет шкала. При оценке конструктивной достоверности пытаются ответить на теоретические вопросы: почему шкала эффективна и какие дедуктивные выводы можно сделать из лежащей в ее основе теории. Конвергенционная (сходящаяся) достоверность (convergent validity) показывает в какой степени шкала положительно коррелирует с другими измерителями той же конструкции. При этом не обязательно получить все значения с помощью методов обычного шкалирования. Дискриминантная достоверность (discriminant validity) показывает, насколько значения шкалы не коррелируют с другими конструкциями, от которых они предположительно отличаются. Это связано с уменьшением корреляции между различающимися конструкциями. Дискриминантную достоверность также иногда называют дифференцированной. Номологическая достоверность (nomological validity) определяется степенью корреляции значений конструкций, вытекающих из теории. Маркетолог формулирует теоретическую модель с последующими выводами и проверкой. Потом составляется номологическая сеть из нескольких систематически взаимосвязанных конструкций. Иллюстрация конструктивной достоверности приведена ниже в контексте оценки многомерной шкалы. Конвергенционная достоверность (convergent validity) Способ оценки конструктивной достоверности; измеряет, насколько шкала положительно коррелирует с другими измерителями той же конструкции. Дискриминантная достоверность (discriminant validity) Один из вариантов конструктивной достоверности, показывающий, насколько значения не коррелируют с другими конструкциями, от которых они предположительно отличаются. Номологическая достоверность (nomological validity) Один из вариантов оценки достоверности, определяемый степенью корреляции значений конструкций, вытекающих из теории.

Будь честен с самим собой Следующие выводы помогут оценить достоверность многомерной шкалы самооценки.

§ Высокая корреляция с другими шкалами самооценки и с результатами опроса друзей (конвергенционная достоверность).

§ Низкая корреляция с несвязанными конструкциями приверженности к определенным торговым маркам или с поиском разнообразия (дискриминантная достоверность).

§ Торговые марки, которые соответствуют самооценке индивида, предпочитаются им больше, что следует из теоретического анализа (номологическая достоверность).

§ Высокий уровень надежности.

Примечательно, что высокий уровень надежности в этом примере приведен как доказательство конструкционной достоверности.

Взаимосвязь между надежностью и достоверностью

Механизм взаимосвязи между надежностью и достоверностью понятнее при рассмотрении его на примере модели истинной оценки. Если измерение абсолютно достоверно, то оно одновременно абсолютно надежно. В этом случае Хо = Xт, Xr = 0, Xs = 0. Таким образом, достоверность подразумевает надежность. Если измерение ненадежно, оно не может быть достоверным, так как даже минимально Хо = Хт + Xr.

Кроме того, может быть систематическая ошибка, тогда Xs не равно 0. Ненадежность подразумевает недостоверность. Если измерение абсолютно надежно, оно может быть как достоверным, так и недостоверным из-за систематической ошибки (Хо = Хт + Xr). В то время как недостаток надежности отрицательно сказывается на достоверности, надежность не обязательно подразумевает достоверность. Надежность — необходимое, но недостаточное условие достоверности.

Обобщаемость

Обобщаемоеть (generalizability) отражает, насколько полученные в ходе конкретного исследования данные можно перенести на генеральную совокупность. Набор всех используемых условий измерений, который маркетолог хочет применить ко всей генеральной совокупности, называется полным множеством обобщения. Эти условия включают категории, пункты, интервьюеров, способы наблюдения и т.д. Исследователь может обобщить шкалу, использованную при индивидуальном опросе, для использования в других моделях сбора данных, таких, например, как телефонные и почтовые опросы. Обобщаемость может также анализироваться с точки зрения перехода от выборки объектов к генеральной совокупности объектов, от выборки количества измерений к генеральной совокупности количества измерений, от выборки наблюдателей к генеральной совокупности наблюдателей и т.д.

Обобщаемость (generalizability)
Насколько исследование, основанное на выборке, можно обобщить для использования в рамках генеральной совокупности в целом.

Методы шкалирования

Кроме теоретических аспектов, оценки надежности и достоверности, при выборе методов шкалирования для конкретного маркетингового исследования следует также принимать во внимание некоторые практические факторы. Среди них отметим следующие: характер получаемых данных (номинальные, порядковые, интервальные или относительные), возможности респондентов, характеристики рассматриваемых объектов, метод обработки, контекст и затраты.

Как правило, метод шкалирования, который в данной ситуации даст наибольший объем информации, позволяет использовать наибольшее количество методов статистического анализа. Независимо от вида выбранной шкалы и степени ее соответствия задаче измерения интересующей характеристики, необходимо использовать несколько шкал. Это дает более точный результат, чем измерения с помощью одной шкалы. Во многих ситуациях желательно использовать несколько методов шкалирования или получить дополнительные измерения с помощью математически обоснованных шкал.

Все рассмотренные в этом разделе шкалы требуют от респондентов прямой оценки различных характеристик объекта. При выборе математического метода шкалирования исследователь сам имеет возможность сделать вывод об оценке респондентами характеристик рассматриваемых объектов исходя из общих суждений опрашиваемых об объекте. Многомерное шкалирование и совместный анализ — два популярных математических метода шкалирования.