Иерархический кластерный анализ. Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных)Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных), так и переменных (столбцов). Можно считать, что в последнем случае роль объектов играют переменные, а роль переменных – столбцы. Этот метод реализует иерархический агломеративный алгоритм. Его смысл заключается в следующем. Перед началом кластеризации все N объектов считаются отдельными кластерами, которые в ходе алгоритма объединяются. Вначале выбирается пара ближайших кластеров, которые объединяются в один кластер. В результате количество кластеров становится равным N – 1. Процедура повторяется, пока все классы не объединятся. На любом этапе объединение можно прервать, получив нужное число кластеров. Таким образом, результат работы алгоритма агрегирования определяют способы вычисления расстояния между объектами и определения близости между кластерами. Для определения расстояния между парой кластеров могут быть сформулированы различные подходы, для чего в SPSS предусмотрены методы, определяемые на основе расстояний между объектами: - Среднее расстояние между кластерами (Between-groups linkage). - Среднее расстояние между всеми объектами пары кластеров с учетом расстояний внутри кластеров (Within-groups linkage). - Расстояние между ближайшими соседями – ближайшими объектами кластеров (Nearest neighbour). - Расстояние между самыми далекими соседями (Furthest neighbour). - Расстояние между центрами кластеров (Centroid clustering), или «центроидный» метод. Недостатком этого метода является то, что центр объединенного кластера вычисляется как среднее центров объединяемых кластеров, без учета их объема. - Метод медиан – тот же «центроидный» метод, но центр объединенного кластера вычисляется как среднее всех объектов (Median clustering). - Метод Варда (Ward's method). В качестве расстояния между кластерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения. Расстояния и меры близости между объектами. У нас нет возможности сделать полный обзор всех коэффициентов, поэтому остановимся лишь на характерных расстояниях и мерах близости для определенных видов данных. Меры близости отличаются от расстояний тем, что они тем больше, чем более похожи объекты. Пусть имеются два объекта X =(X 1, …, Xm) и Y =(Y 1, …, Ym). Используя эту запись для объектов, определим основные виды расстояний, используемых в процедуре CLUSTER: - Евклидово расстояние (Euclidian distance). - Квадрат евклидова расстояния (Squared Euclidian distance). Эвклидово расстояние и его квадрат целесообразно использовать для анализа количественных данных. - Мера близости – коэффициент корреляции (m – 1), где и компоненты стандартизованных векторов X и Y. Эту меру целесообразно использовать для выявления кластеров переменных, а не объектов. - Расстояние хи-квадрат получается на основе таблицы сопряженности, составленной из объектов X и Y,
которые, предположительно, являются векторами частот. Здесь рассматриваются ожидаемые значения элементов, равные E (Xi)= X. ´(Xi + Yi) / (X. + Y.) и E (Yi)= Y. ´(Xi + Yi) / (X. + Y.), а расстояние хи-квадрат имеет вид корня из соответствующего показателя . - Расстояние Фи-квадрат является расстоянием хи-квадрат, нормированным на число объектов в таблице сопряженности, представляемой строками X и Y, т. е. на корень квадратный из N = X. + Y.. - В иерархическом кластерном анализе в SPSS также имеется несколько видов расстояний для бинарных данных (векторы X и Y состоят из нулей и единиц, обозначающих наличие или отсутствие определенных свойств объектов). Наиболее естественными из них, по-видимому, являются евклидово расстояние и его квадрат. Стандартизация. Непосредственное использование переменных в анализе может привести к тому, что классификацию будут определять переменные, имеющие наибольший разброс значений. Поэтому применяются следующие виды стандартизации: - Z -шкалы (Z -Scores). Из значений переменных вычитается их среднее и эти значения делятся на стандартное отклонение. - Разброс от –1 до 1. Линейным преобразованием переменных добиваются разброса значений от –1 до 1. - Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1. - Максимум 1. Значения переменных делятся на их максимум. - Среднее 1. Значения переменных делятся на их среднее. - Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение. - Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1. Таким образом, работа с кластерным анализом может превратиться в увлекательную игру, связанную с подбором метода агрегирования, расстояния и стандартизации переменных с целью получения наиболее интерпретируемого результата. Желательно только, чтобы это не стало самоцелью и исследователь получил действительно необходимые содержательные сведения о структуре данных. Процесс агрегирования данных может быть представлен графически деревом объединения кластеров (Dendrogramm) либо «сосульковой» диаграммой (Icicle). Но подробнее о процессе кластеризации можно узнать по протоколу объединения кластеров (Schedule). Пример иерархического кластерного анализа. Следующая команда осуществляет кластерный анализ по полученным нами ранее факторам на агрегированном файле курильского опроса: CLUSTER fac1_1 fac2_1 /METHOD BAVERAGE /MEASURE = SEUCLID /ID = name /PRINT SCHEDULE CLUSTER(3,5) В команде указаны переменные fac1_1 и fac2_1 для кластеризации. По умолчанию расстояние между кластерами определяется по среднему расстоянию между объектами (Method baverage), а расстояние между объектами – как квадрат евклидова расстояния (MEASURE = SEUCLID). Кроме того, распечатывается протокол (PRINT SCHEDULE), в качестве переменных выводятся классификации из 3, 4, 5 кластеров (CLUSTER(3,5)) и строится дендрограмма (PLOT DENDROGRAM). Разрез дерева агрегирования (рис. 7.3) вертикальной чертой на четыре части дал два кластера, состоящих из уникальных по своим характеристикам городов Александровск-Сахалинский и Черемхово; кластер из 5 городов (Оха, Елизово, Южно-Сахалинск, Хабаровск, Курильск); еще 14 городов составили последний кластер. Естественность такой классификации демонстрирует полученное поле рассеяния данных (рис. 7.4).
Таблица7. 4 Протокол объединения кластеров
Процесс объединения подробно показан в протоколе объединения (табл. 7.4). В нем указаны стадии объединения, объединяемые кластеры (после объединения кластер принимает минимальный номер из номеров объединяемых кластеров). Далее следует расстояние между кластерами, номер стадии, на которой кластеры ранее уже участвовали в объединении; следующая стадия, где произойдет объединение с другим кластером. На практике интерпретация кластеров требует достаточно серьезной работы, изучения разнообразных характеристик объектов для точного описания типов объектов, которые составляют тот или иной класс.
|