Иерархический кластерный анализ. Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных)

⇐ Предыдущая 27 28 29 30 31 323334 35 36 Следующая ⇒

Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных), так и переменных (столбцов). Можно считать, что в последнем случае роль объектов играют переменные, а роль переменных – столбцы.

Этот метод реализует иерархический агломеративный алгоритм. Его смысл заключается в следующем. Перед началом кластеризации все N объектов считаются отдельными кластерами, которые в ходе алгоритма объединяются. Вначале выбирается пара ближайших кластеров, которые объединяются в один кластер. В результате количество кластеров становится равным N – 1. Процедура повторяется, пока все классы не объединятся. На любом этапе объединение можно прервать, получив нужное число кластеров. Таким образом, результат работы алгоритма агрегирования определяют способы вычисления расстояния между объектами и определения близости между кластерами.

Для определения расстояния между парой кластеров могут быть сформулированы различные подходы, для чего в SPSS предусмотрены методы, определяемые на основе расстояний между объектами:

- Среднее расстояние между кластерами (Between-groups linkage).

- Среднее расстояние между всеми объектами пары кластеров с учетом расстояний внутри кластеров (Within-groups linkage).

- Расстояние между ближайшими соседями – ближайшими объектами кластеров (Nearest neighbour).

- Расстояние между самыми далекими соседями (Furthest neighbour).

- Расстояние между центрами кластеров (Centroid clustering), или «центроидный» метод. Недостатком этого метода является то, что центр объединенного кластера вычисляется как среднее центров объединяемых кластеров, без учета их объема.

- Метод медиан – тот же «центроидный» метод, но центр объединенного кластера вычисляется как среднее всех объектов (Median clustering).

- Метод Варда (Ward's method). В качестве расстояния между кластерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения.

Расстояния и меры близости между объектами. У нас нет возможности сделать полный обзор всех коэффициентов, поэтому остановимся лишь на характерных расстояниях и мерах близости для определенных видов данных.

Меры близости отличаются от расстояний тем, что они тем больше, чем более похожи объекты.

Пусть имеются два объекта X =(X ₁, …, X_m) и Y =(Y ₁, …, Y_m). Используя эту запись для объектов, определим основные виды расстояний, используемых в процедуре CLUSTER:

- Евклидово расстояние (Euclidian distance).

- Квадрат евклидова расстояния (Squared Euclidian distance).

Эвклидово расстояние и его квадрат целесообразно использовать для анализа количественных данных.

- Мера близости – коэффициент корреляции

(m – 1),

где и компоненты стандартизованных векторов X и Y. Эту меру целесообразно использовать для выявления кластеров переменных, а не объектов.

- Расстояние хи-квадрат получается на основе таблицы сопряженности, составленной из объектов X и Y,

которые, предположительно, являются векторами частот. Здесь рассматриваются ожидаемые значения элементов, равные E (X_i)= X. ´;(X_i + Y_i) / (X. + Y.) и E (Y_i)= Y. ´;(X_i + Y_i) / (X. + Y.), а расстояние хи-квадрат имеет вид корня из соответствующего показателя

- Расстояние Фи-квадрат является расстоянием хи-квадрат, нормированным на число объектов в таблице сопряженности, представляемой строками X и Y, т. е. на корень квадратный из N = X. + Y..

- В иерархическом кластерном анализе в SPSS также имеется несколько видов расстояний для бинарных данных (векторы X и Y состоят из нулей и единиц, обозначающих наличие или отсутствие определенных свойств объектов). Наиболее естественными из них, по-видимому, являются евклидово расстояние и его квадрат.

Стандартизация. Непосредственное использование переменных в анализе может привести к тому, что классификацию будут определять переменные, имеющие наибольший разброс значений. Поэтому применяются следующие виды стандартизации:

- Z -шкалы (Z -Scores). Из значений переменных вычитается их среднее и эти значения делятся на стандартное отклонение.

- Разброс от –1 до 1. Линейным преобразованием переменных добиваются разброса значений от –1 до 1.

- Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.

- Максимум 1. Значения переменных делятся на их максимум.

- Среднее 1. Значения переменных делятся на их среднее.

- Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.

- Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.

Таким образом, работа с кластерным анализом может превратиться в увлекательную игру, связанную с подбором метода агрегирования, расстояния и стандартизации переменных с целью получения наиболее интерпретируемого результата. Желательно только, чтобы это не стало самоцелью и исследователь получил действительно необходимые содержательные сведения о структуре данных.

Процесс агрегирования данных может быть представлен графически деревом объединения кластеров (Dendrogramm) либо «сосульковой» диаграммой (Icicle). Но подробнее о процессе кластеризации можно узнать по протоколу объединения кластеров (Schedule).

Пример иерархического кластерного анализа. Следующая команда осуществляет кластерный анализ по полученным нами ранее факторам на агрегированном файле курильского опроса:

CLUSTER fac1_1 fac2_1 /METHOD BAVERAGE /MEASURE = SEUCLID /ID = name /PRINT SCHEDULE CLUSTER(3,5)
/PLOT DENDROGRAM.

В команде указаны переменные fac1_1 и fac2_1 для кластеризации. По умолчанию расстояние между кластерами определяется по среднему расстоянию между объектами (Method baverage), а расстояние между объектами – как квадрат евклидова расстояния (MEASURE = SEUCLID). Кроме того, распечатывается протокол (PRINT SCHEDULE), в качестве переменных выводятся классификации из 3, 4, 5 кластеров (CLUSTER(3,5)) и строится дендрограмма (PLOT DENDROGRAM).

Разрез дерева агрегирования (рис. 7.3) вертикальной чертой на четыре части дал два кластера, состоящих из уникальных по своим характеристикам городов Александровск-Сахалинский и Черемхово; кластер из 5 городов (Оха, Елизово, Южно-Сахалинск, Хабаровск, Курильск); еще 14 городов составили последний кластер.

Естественность такой классификации демонстрирует полученное поле рассеяния данных (рис. 7.4).

Таблица7. 4

Протокол объединения кластеров

Stage	Cluster Combined	Coefficients	Stage Cluster First Appears	Next Stage
Cluster 1	Cluster 2	Cluster 1	Cluster 2
			0,0115
			0,0175
			0,0464
			0,051
			0,0549
			0,0808
			0,1082
			0,1349
			0,1538
			0,2818
			0,456
			0,5768
			0,5861
			0,613
			0,8098
			1,5406
			2,5726
			3,5613
			5,2217
			14,9146

Процесс объединения подробно показан в протоколе объединения (табл. 7.4). В нем указаны стадии объединения, объединяемые кластеры (после объединения кластер принимает минимальный номер из номеров объединяемых кластеров). Далее следует расстояние между кластерами, номер стадии, на которой кластеры ранее уже участвовали в объединении; следующая стадия, где произойдет объединение с другим кластером.

На практике интерпретация кластеров требует достаточно серьезной работы, изучения разнообразных характеристик объектов для точного описания типов объектов, которые составляют тот или иной класс.

⇐ Предыдущая 27 28 29 30 31 323334 35 36 Следующая ⇒

Дата добавления: 2015-08-30; просмотров: 670. Нарушение авторских прав; Мы поможем в написании вашей работы!

Картограммы и картодиаграммы Картограммы и картодиаграммы применяются для изображения географической характеристики изучаемых явлений...

Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...

Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Общая и профессиональная культура педагога: сущность, специфика, взаимосвязь Педагогическая культура- часть общечеловеческих культуры, в которой запечатлил духовные и материальные ценности образования и воспитания, осуществляя образовательно-воспитательный процесс...

Устройство рабочих органов мясорубки Независимо от марки мясорубки и её технических характеристик, все они имеют принципиально одинаковые устройства...

Ведение учета результатов боевой подготовки в роте и во взводе Содержание журнала учета боевой подготовки во взводе. Учет результатов боевой подготовки - есть отражение количественных и качественных показателей выполнения планов подготовки соединений...

Классификация ИС по признаку структурированности задач Так как основное назначение ИС – автоматизировать информационные процессы для решения определенных задач, то одна из основных классификаций – это классификация ИС по степени структурированности задач...

Внешняя политика России 1894- 1917 гг. Внешнюю политику Николая II и первый период его царствования определяли, по меньшей мере три важных фактора...

Оценка качества Анализ документации. Имеющийся рецепт, паспорт письменного контроля и номер лекарственной формы соответствуют друг другу. Ингредиенты совместимы, расчеты сделаны верно, паспорт письменного контроля выписан верно. Правильность упаковки и оформления....

Studopedia.info - Студопедия - 2014-2025 год . (0.013 сек.) русская версия | украинская версия