Функции групповых центройдов
Как видно из данных, представленных в табл. 7.11, средние значение дискриминантной функции для группы туристов, посещающих дискотеки, составляет -1,104, а среднее значение дискриминантной функции для группы туристов, не посещающих дискотеки, составляет 0,104. Чем больше расстояние между средними значениями дискриминантной функции в исследуемых 147 группах, тем более четко прослеживается различие между исследуемыми группами. Четкость различия между исследуемыми группами зависит также от рассеяния значений дискриминантной функции в исследуемых группах. Это рассеяние показано на графиках распределения значений дискриминантной функции в исследуемых группах (рис. 7.9 и 7.10).
Чем больше рассеяние значений дискриминантной функции в исследуемых группах, тем шире область их пересечения и слабее четкость различия между исследуемыми группами. Следовательно, чем больше такое рассеяние, тем сложнее однозначно определить принадлежность респондента к одной из исследуемых трупп. На основе построенной нами дискриминантной модели, можно сделать прогнозы посещения дискотек определенным туристом исходя из его возраста и уровня дохода семьи. Например, для туриста в возрасте 20 лет, принадлежащего по уровню дохода семьи к категории «7» (2800 — 3300 евро), значение дискриминантной функции составит Согласно данным, представленным на рис. 7.9, в исследуемую группу «туристы, посещающие дискотеки» входят 88 туристов. Значение дискриминантной функции близкое к -2,246 имеют 15 человек. Поданным, представленным на рис. 7.10, исследуемая группа «туристы, не посещающие дискотеки» включает 935 человек. Значение дискриминантной функции, близкое к -2,246, имеют примерно 10 человек. На основании вышеизложенного можно сделать вывод, что турист в возрасте 20 лет, принадлежащий по уровню дохода семьи к категории «7» (2800—3300 евро), скорее всего, будет посещать дискотеки. 7.5. ОПРЕДЕЛЕНИЕ ТОЧНОСТИ ПРОГНОЗОВ НА ОСНОВЕ ПОСТРОЕНHOЙ ДИСКРИМИНАНТНОЙ МОДЕЛИ Точность прогнозов на основе построенной дискриминантной модели оценивается по результатам классификации, т.е. распределения объектов исследования (туристов) по исследуемым группам (посещающие и не посещающие дискотеки). В табл. 7.12 представлены результаты классификации отдельно по каждому наблюдению, т.е. по каждому респонденту, принявшему участие в опросе и предоставившему информацию о своем возрасте и доходе семьи. Поскольку число респондентов слишком велико, в табл. 7.12 представлены только 20 наблюдений, первых по списку, — как было указано при формировании задания на проведение дискриминантного анализа (см. рис. 7.8). В столбце «Actual Group» (см. табл. 7.12) указывается фактическая принадлежность респондента к одной из исследуемых групп. Так, первый по списку респондент не посещает дискотеки («2»). Остальные респонденты не ответили на вопрос, посещают ли они дискотеки, поэтому в столбце «Actual Group» стоит отметка «ип- grouped» («Несгруппированное наблюдение»). Такое большое число несгруппированных наблюдений не должно удивлять. Из 6396 респондентов, принявших участие в опросе, 4717 туристов, указав свой возраст и доход семьи, не дали информации о том, посещают ли они дискотеки.
В столбце «Predicted Group» указывается прогнозируемая принадлежность респондента к одной из исследуемых групп, определяемая на основе построенной дискриминантной модели. Если прогнозируемая принадлежность к группе не совпадает с фактической, ее значение отмечается двумя звездочками (**). В столбце «Р (G = g\D = d)» табл. 7.12 указывается вероятность, с которой конкретный респондент может быть причислен к прогнозируемой группе. В столбце «Discriminant Scores» указывается значение дискриминантной функции. Например, значение дискриминантной функции для первого респондента составляет -3,327. Согласно построенной дискриминантной модели этот респондент с вероятностью 97,2% может быть причислен к группе туристов, посещающих дискотеки, в действительности же он не посещает дискотеки. К сожалению, из-за большого числа несгруппированных наблюдений табл. 7.12 не показывает, сколько представленных результатов классификации из 20 являются ошибочными. В результате по данным этой таблицы нельзя составить даже приблизительного представления о точности прогнозов на основе построенной дискриминантной модели. Точность прогнозов на основе построенной дискриминантной модели определяется из данных сводной таблицы результатов классификации, т.е. причисления объектов исследования к одной из исследуемых групп (табл. 7.13).
Из данных табл. 7.13 «Результаты классификации» видно, что исследуемая группа туристов, посещающих дискотеки, состоит фактически из 88 человек. Согласно построенной дискриминантной модели 62 туриста из 88 были корректно причислены к этой группе, а 26 — по ошибке причислены к группе туристов, не посещающих дискотеки. Итак, корректные результаты классификации составили 70,5%, а ошибочные — 29,5%. По данным этой же таблицы исследуемая группа туристов, не посещающих дискотеки, состоит фактически их 935 человек. Согласно построенной дискриминантной модели 686 туристов из 935 были корректно причислены к этой группе, а 249 — по ошибке причислены к группе туристов, посещающих дискотеки. Итого корректные результаты классификации составили 73,4%, а ошибочные — 26,6%. В иелом корректные результаты классификации составили 73,1%, т.е. в 73,1% случаев фактическая принадлежность!уриста к группе посещающих или не посещающих дискотеки совпадает с прогнозируемой, определенной на основе построенной дискриминантной модели. Это дает возможность сделать вывод, что точность прогнозов, сделанных на основе построенной дискриминантной модели составляет примерно 73%. КОНТРОЛЬНЫЕ ВОПРОСЫ 1. Назовите цель проведения и возможности использования результатов дискриминантного анализа. 2. Как выглядит математическое описание дискриминантной модели? 3. Какие требования предъявляются к переменным, участвующим в дискриминантном анализе, относительно типов шкал измерения переменных? 4. Какие задачи решаются в ходе проведения дискриминантного анализа? 5. Каким образом и с какой целью выявляется наличие дискриминирующих свойств у переменных, выбранных в качестве независимых (дискриминационных) переменных дискриминантной модели? 6. Как можно интерпретировать результаты теста на равенство средних величин в группах, проводимого в ходе процедуры дискриминантного анализа, если значение «Significance» («Значимость») для определенной дискриминационной переменной составляет 0,637? 7. Что характеризует и с какой целью рассчитывается коэффициент корреляции между дискриминационными переменными? Как можно интерпретировать результаты таких расчетов, если значение коэффициента корреляции между двумя дискриминирующими переменными составляет 0,52? 8. Что характеризует и для чего рассчитывается коэффициент корреляции между расчетными значениями дискриминантной функции и реальной принадлежностью респондента к определенной группе? Как можно интерпретировать результаты, если значение этого коэффициента составляет 0,485? 9. Для чего в ходе проведения дискриминантного анализа рассчитывается показатель Лямбда Уилкса, как следует интерпретировать результаты, если значение величины «Significance» («Значимость») при расчете этого показателя составляет 0,02? 10.Для чего служат стандартизированные и нестандартизированные коэффициенты дискриминантной функции? Как следует интерпретировать результаты, если значения стандартизированных коэффициентов составляют: для дискриминационной переменной «1» — 0,692; дпя дискриминационной переменной «2» — 0,346? 11.Что характеризует расстояние между средними значениями и распределение дискриминантной функции в исследуемых группах? 12.Что представляет собой сводная таблица результатов классификации, выводимая в SPSS на экран компьютера среди результатов дискриминантного анализа, какие выводы можно сделать на основе данных этой таблицы?
|