Тема 17 (6). Дискриминантный анализ (2 часа)
1 Сущность и область применения 2 Процедура выполнения
Вопрос 1 – Процедура выполнения Дискриминантный анализ –анализ различий заранее заданных групп объектов исследования (потребителей, товаров, брендов и т.п.) по определенным признакам. Переменная, разделяющая совокупность объектов исследования на группы, называется группирующей. Признаки, используемые для выявления различий между группами, называются дискриминационными переменными. Группирующая переменнаядолжна быть номинальной, т.е. измеряться по номинальной шкале, а зависимые переменные – метрическими. Соблюдение этого условия обеспечивает высокую точность статистических расчетов. Однако на практике допускается, что группирующая переменная может быть номинальной или порядковой, а дискриминационные переменные могут измеряться по шкале любого типа. Результатом дискриминантного анализа является построение дискриминантной модели (дискриминантной функции), которая имеет вид D = bo + b1X1 + b2X2 + … + bkXk,
где D – группирующая (зависимая) переменная; bk – коэффициенты дискриминантной функции; bo – свободный член (константа); хп – дискриминационные (независимые) переменные. С помощью этой модели, зная характеристики объекта исследования, можно с определенной степенью уверенности определить его принадлежность к одной из исследованных групп. Дискриминантный анализ преследует следующие цели: – определение дискриминантных функций или линейных комбинаций независимых переменных, которые наилучшим образом различают (дискриминируют) категории (группы) зависимой переменной; – проверка существования между группами значимых различий с точки зрения независимых переменных; – определение предикторов, вносящих наибольший вклад в межгрупповые различия; – отнесение случаев к одной из групп (классификация), исходя из значений предикторов; – оценка точности классификации данных на группы. Дискриминантный анализ целесообразно применять в случаях, когда необходимо выяснить ответы на следующие вопросы: – Чем, с точки зрения демографических характеристик, отличаются приверженцы данного магазина от тех, у кого эта приверженность отсутствует? – Отличаются ли в потреблении замороженных продуктов покупатели, которые пьют безалкогольные напитки мало, умеренно и много? – Какие психографические характеристики помогают провести различия между восприимчивыми и не восприимчивыми к цене покупателями бакалейных товаров? – Различаются ли между собой различные сегменты рынка по своим предпочтениям к средствам массовой информации? – Какие существуют различия между постоянными покупателями местных универсальных магазинов и постоянными покупателями общенациональных сетей универмагов с точки зрения стиля жизни? – Какими отличительными характеристиками обладают потребители, реагирующие на прямую почтовую рекламу? К статистикам, используемым в дискриминантном анализе, относятся: – каноническая корреляция – измеряет степень связи между дискрими-нантными показателями и группами. Это мера связи между единственной дискриминирующей функцией и набором фиктивных переменных, которые определяют принадлежность к данной группе; – центроид (средняя точка) – это средние значения для дискриминантных показателей конкретной группы. Центроидов столько, сколько групп, т.е. один центроид для каждой группы. Средние группы для всех функций – это групповые центроиды; – классификационная матрица (смешанная матрица, матрица предсказания) – содержит ряд правильно классифицированных и ошибочно классифицированных случаев. Верно классифицированные случаи лежат на диагонали матрицы, поскольку предсказанные и фактические группы одни и те же. Элементы, не лежащие по диагонали матрицы, представляют случаи, классифицированные ошибочно. Сумма элементов, лежащих на диагонали, деленная на общее количество случаев, дает коэффициент результативности; – коэффициенты дискриминантной функции (ненормированные) – это коэффициенты переменных, когда они измерены в первоначальных единицах; – дискриминантные показатели – сумма произведений ненормированных коэффициентов дискриминантной функции на значения переменных, добавленная к постоянному члену; – собственное (характеристическое) значение – отношение межгрупповой суммы квадратов к внутригрупповой сумме квадратов. Большие собственные значения указывают на функции более высокого порядка; – F-статистика и ее значимость; – средние группы и групповые стандартные отклонения; – объединенная межгрупповая корреляционная матрица – вычисляется усреднением отдельных ковариационных матриц для всех групп; – нормированные коэффициенты дискриминантных функций – используют как множители для нормированных переменных, т.е. переменных с нулевым средним и дисперсией, равной 1; – структурные коэффициенты корреляции (дискриминантные нагрузки) – линейные коэффициенты корреляции между предикторами и дискриминантной функцией; – общая корреляционная матрица – формируется, если при вычислении корреляций наблюдения обрабатывают так, как будто они взяты из одной выборки; – коэффициент λ; Уилкса (U -статистика) – отношение внутри групповой суммы квадратов к общей сумме квадратов. Его значение варьирует от 0 до 1. Большое значение λ; (около 1) указывает на то, что средние групп не должны различаться. Малые значения λ; (около 0) указывают на то, что средние групп различаются.
Вопрос 2 – Процедура выполнения Процедура выполнения дискриминантного анализа состоит из следующих этапов:
|