Студопедия — Иерархический кластерный анализ. Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных)
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Иерархический кластерный анализ. Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных)






Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных), так и переменных (столбцов). Можно считать, что в последнем случае роль объектов играют переменные, а роль переменных – столбцы.

Этот метод реализует иерархический агломеративный алгоритм. Его смысл заключается в следующем. Перед началом кластеризации все N объектов считаются отдельными кластерами, которые в ходе алгоритма объединяются. Вначале выбирается пара ближайших кластеров, которые объединяются в один кластер. В результате количество кластеров становится равным N – 1. Процедура повторяется, пока все классы не объединятся. На любом этапе объединение можно прервать, получив нужное число кластеров. Таким образом, результат работы алгоритма агрегирования определяют способы вычисления расстояния между объектами и определения близости между кластерами.

Для определения расстояния между парой кластеров могут быть сформулированы различные подходы, для чего в SPSS предусмотрены методы, определяемые на основе расстояний между объектами:

- Среднее расстояние между кластерами (Between-groups linkage).

- Среднее расстояние между всеми объектами пары кластеров с учетом расстояний внутри кластеров (Within-groups linkage).

- Расстояние между ближайшими соседями – ближайшими объектами кластеров (Nearest neighbour).

- Расстояние между самыми далекими соседями (Furthest neighbour).

- Расстояние между центрами кластеров (Centroid clustering), или «центроидный» метод. Недостатком этого метода является то, что центр объединенного кластера вычисляется как среднее центров объединяемых кластеров, без учета их объема.

- Метод медиан – тот же «центроидный» метод, но центр объединенного кластера вычисляется как среднее всех объектов (Median clustering).

- Метод Варда (Ward's method). В качестве расстояния между кластерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения.

Расстояния и меры близости между объектами. У нас нет возможности сделать полный обзор всех коэффициентов, поэтому остановимся лишь на характерных расстояниях и мерах близости для определенных видов данных.

Меры близости отличаются от расстояний тем, что они тем больше, чем более похожи объекты.

Пусть имеются два объекта X =(X 1, …, Xm) и Y =(Y 1, …, Ym). Используя эту запись для объектов, определим основные виды расстояний, используемых в процедуре CLUSTER:

- Евклидово расстояние (Euclidian distance).

- Квадрат евклидова расстояния (Squared Euclidian distance).

Эвклидово расстояние и его квадрат целесообразно использовать для анализа количественных данных.

- Мера близости – коэффициент корреляции

(m – 1),

где и компоненты стандартизованных векторов X и Y. Эту меру целесообразно использовать для выявления кластеров переменных, а не объектов.

- Расстояние хи-квадрат получается на основе таблицы сопряженности, составленной из объектов X и Y,

 

которые, предположительно, являются векторами частот. Здесь рассматрива­ются ожидаемые значения элементов, равные E (Xi)= X. ´;(Xi + Yi) / (X. + Y.) и E (Yi)= Y. ´;(Xi + Yi) / (X. + Y.), а расстояние хи-квадрат имеет вид корня из соответствующего показателя

.

- Расстояние Фи-квадрат является расстоянием хи-квадрат, нормированным на число объектов в таблице сопряженности, представляемой строками X и Y, т. е. на корень квадратный из N = X. + Y..

- В иерархическом кластерном анализе в SPSS также имеется несколько видов расстояний для бинарных данных (векторы X и Y состоят из нулей и единиц, обозначающих наличие или отсутствие определенных свойств объектов). Наиболее естественными из них, по-видимому, являются евклидово расстояние и его квадрат.

Стандартизация. Непосредственное использование переменных в анализе может привести к тому, что классификацию будут определять переменные, имеющие наибольший разброс значений. Поэтому применяются следующие виды стандартизации:

- Z -шкалы (Z -Scores). Из значений переменных вычитается их среднее и эти значения делятся на стандартное отклонение.

- Разброс от –1 до 1. Линейным преобразованием переменных добиваются разброса значений от –1 до 1.

- Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.

- Максимум 1. Значения переменных делятся на их максимум.

- Среднее 1. Значения переменных делятся на их среднее.

- Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.

- Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.

Таким образом, работа с кластерным анализом может превратиться в увлекательную игру, связанную с подбором метода агрегирования, расстояния и стандартизации переменных с целью получения наиболее интерпретируемого результата. Желательно только, чтобы это не стало самоцелью и исследователь получил действительно необходимые содержательные сведения о структуре данных.

Процесс агрегирования данных может быть представлен графически деревом объединения кластеров (Dendrogramm) либо «сосульковой» диаграммой (Icicle). Но подробнее о процессе кластеризации можно узнать по протоколу объединения кластеров (Schedule).

Пример иерархического кластерного анализа. Следующая команда осуществляет кластерный анализ по полученным нами ранее факторам на агрегированном файле курильского опроса:

CLUSTER fac1_1 fac2_1 /METHOD BAVERAGE /MEASURE = SEUCLID /ID = name /PRINT SCHEDULE CLUSTER(3,5)
/PLOT DENDROGRAM.

В команде указаны переменные fac1_1 и fac2_1 для кластеризации. По умолчанию расстояние между кластерами определяется по среднему расстоянию между объектами (Method baverage), а расстояние между объектами – как квадрат евклидова расстояния (MEASURE = SEUCLID). Кроме того, распечатывается протокол (PRINT SCHEDULE), в качестве пе­ременных выводятся классификации из 3, 4, 5 кластеров (CLUSTER(3,5)) и строится дендрограмма (PLOT DENDROGRAM).

Разрез дерева агрегирования (рис. 7.3) вертикальной чертой на четыре части дал два кластера, состоящих из уникальных по своим характеристикам городов Александровск-Сахалинский и Черемхово; кластер из 5 городов (Оха, Елизово, Южно-Сахалинск, Хабаровск, Курильск); еще 14 городов составили последний кластер.

Естественность такой классификации демонстрирует полученное поле рассеяния данных (рис. 7.4).

 

 

Таблица7. 4

Протокол объединения кластеров

Stage Cluster Combined Coefficients Stage Cluster First Appears Next Stage
Cluster 1 Cluster 2 Cluster 1 Cluster 2
      0,0115      
      0,0175      
      0,0464      
      0,051      
      0,0549      
      0,0808      
      0,1082      
      0,1349      
      0,1538      
      0,2818      
      0,456      
      0,5768      
      0,5861      
      0,613      
      0,8098      
      1,5406      
      2,5726      
      3,5613      
      5,2217      
      14,9146      

Процесс объединения подробно показан в протоколе объединения (табл. 7.4). В нем указаны стадии объединения, объединяемые кластеры (после объединения кластер принимает минимальный номер из номеров объединяемых кластеров). Далее следует расстояние между кластерами, номер стадии, на которой кластеры ранее уже участвовали в объединении; следующая стадия, где произойдет объединение с другим кластером.

На практике интерпретация кластеров требует достаточно серьезной работы, изучения разнообразных характеристик объектов для точного описания типов объектов, которые составляют тот или иной класс.







Дата добавления: 2015-08-30; просмотров: 617. Нарушение авторских прав; Мы поможем в написании вашей работы!



Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Ганглиоблокаторы. Классификация. Механизм действия. Фармакодинамика. Применение.Побочные эфффекты Никотинчувствительные холинорецепторы (н-холинорецепторы) в основном локализованы на постсинаптических мембранах в синапсах скелетной мускулатуры...

Шов первичный, первично отсроченный, вторичный (показания) В зависимости от времени и условий наложения выделяют швы: 1) первичные...

Предпосылки, условия и движущие силы психического развития Предпосылки –это факторы. Факторы психического развития –это ведущие детерминанты развития чел. К ним относят: среду...

Основные структурные физиотерапевтические подразделения Физиотерапевтическое подразделение является одним из структурных подразделений лечебно-профилактического учреждения, которое предназначено для оказания физиотерапевтической помощи...

Почему важны муниципальные выборы? Туристическая фирма оставляет за собой право, в случае причин непреодолимого характера, вносить некоторые изменения в программу тура без уменьшения общего объема и качества услуг, в том числе предоставлять замену отеля на равнозначный...

Тема 2: Анатомо-топографическое строение полостей зубов верхней и нижней челюстей. Полость зуба — это сложная система разветвлений, имеющая разнообразную конфигурацию...

Studopedia.info - Студопедия - 2014-2024 год . (0.013 сек.) русская версия | украинская версия