Принятие решения о количестве кластеров.
Главный вопрос кластерного анализа – как определить соответствующее число кластеров. Существует несколько подходов: а) определение, основанное на предварительной информации, – аналитик может заранее определить это число, исходя из теоретических знаний и логики. Кроме того, у аналитика могут быть некоторые практические соображения в пользу того или иного числа кластеров – в зависимости от того, как он собирается их использовать; б) определение, основанное на уровне кластеризации, – можно задать уровень кластеризации, который будет выражен значением ее критерия. Если критерий кластеризации может быть легко интерпретирован, как, например, средняя схожесть внутри кластеров, следует определить уровень, который и покажет число кластеров; в) определение числа кластеров на основании модели кластеров – в качестве полезного руководства в иерархической кластеризации могут выступать расстояния между кластерами на последовательных шагах, и аналитик принимает решение остановиться, когда расстояние превысит определенное значение или когда расстояние между кластерами после очередного шага скачкообразно изменится. Эти расстояния иногда называют показателями изменчивости ошибки; г) определение числа кластеров на основе графика зависимости отношения дисперсий от числа кластеров – при неиерархической кластеризации можно построить график зависимости от числа кластеров отношения суммарной дисперсии внутри групп к межгрупповой дисперсии. Точка резкого перегиба кривой и показывает соответствующее число кластеров; д) определение числа кластеров, основанное на их размерах, – относительные размеры кластеров должны быть достаточно выразительными и соотносимыми.
|