Студопедия — Определение метода кластеризации.
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Определение метода кластеризации.






Существует два подхода к формированию кластеров:

а) иерархическая кластеризация – может использовать подход «сверху вниз» (все объекты помещаются в один кластер, после чего разделяются – иногда до тех пор, пока каждый объект не окажется в своем «индивидуальном» кластере) или «снизу вверх» (каждый объект находится в своем собственном кластере, после чего начинается их объединение – иногда до тех пор, пока все объекты не окажутся в одном кластере).

Результаты иерархической кластеризации сравнительно просто читать и интерпретировать. Они имеют логическую структуру, которая теоретически должна существовать всегда. Недостаток иерархической кластеризации состоит в том, что она является сравнительно нестабильной и ненадежной. Первое объединение или разделение объектов, которое может основываться на небольших различиях критерия, наложит ограничение на весь последующий анализ.

При проведении иерархической кластеризации всегда следует разделять выборку, по крайней мере, на две группы и проводить их независимую кластеризацию, чтобы увидеть, образуются ли одинаковые кластеры в обеих группах. Если все они окажутся различными, стоит проявить осторожность.

Иерархические методы включают две группы:

а.1) агломеративная (объединительная) кластеризация – подход «снизу вверх». Процедуры агломеративной кластеризации нашли применение в программных пакетах SPSS, SYSTAT, Statistica:

а.1.1) методы связи:

– метод одиночной связи («методом ближайшего соседа») – основан на наиболее коротком расстоянии между объектами. Он находит двух индивидуумов (два объекта), разделенных наиболее короткой дистанцией, и помещает их в первый кластер. Далее находится следующая наиболее короткая дистанция, и третий индивидуум либо присоединяется к первым двум, входя в их кластер, либо формирует новый кластер из двух индивидуумов;

– метод полной связи («методом дальнего соседа») – аналогичен предыдущему за тем исключением, что критерий кластеризации основан на наиболее длинной дистанции. Расстояние между двумя кластерами является наибольшим расстоянием от точки первого кластера до точки второго;

– метод средней связи – начинается аналогично предыдущим, однако критерием кластеризации является среднее расстояние от индивидуумов одного кластера до индивидуумов другого. Подобные методы не используют экстремальные значения, как это предполагают методы одиночной и полной связи, а в разделении объектов участвуют все члены кластеров, а не одна пара «экстремальных» объектов;

а.1.2) дисперсионные методы – формируют кластеры таким образом, чтобы минимизировать внутрикластерную дисперсию. Широко известным методом является метод Варда. В его основе лежит потеря информации, которая происходит в результате разделения объектов на кластеры и измеряется при помощи общей суммы квадратов отклонений (евклидовых расстояний) каждого объекта от центра своего кластера. По мере формирования новых кластеров общая сумма квадратов отклонений возрастает. На каждой стадии процедуры кластеризации сумма квадратов минимизируется по всем делениям (полному набору разбитых или отдельных кластеров), доступным благодаря объединению двух кластеров из предыдущей стадии. Эта процедура объединяет кластеры с небольшим числом наблюдений;

а.1.3) центроидный метод – предполагает использование расстояния между центроидами групп. Если в кластере имеется только одно наблюдение, то оно само и будет центроидом. Далее производится объединение групп в соответствии с расстоянием между их центроидами; группы, расстояния между центроидами которых являются минимальными, объединяются первыми;

а.2) дивизивная (разделяющая) кластеризация – подход «сверху вниз». Дивизивную кластеризацию можно осуществить с помощью статистического пакета STATGRAPHICS;

б) неиерархическая кластеризация (итеративное деление или методы k-средних ) – отличается лишь тем, что позволяет объектам покидать один кластер и присоединяться к другому в процессе образования кластеров, если это улучшает значение критерия кластеризации. При использовании этого подхода сначала определяется центр кластера, после чего все объекты, которые попадают в заранее определенное пороговое расстояние от него, включаются в этот кластер. Если требуется получить решение с тремя кластерами, определяются три центра. Эти центры могут быть случайными числами, а могут быть получены в результате иерархической кластеризации.

Неиерархическая кластеризация более надежна, чем иерархическая. Если на ранних этапах анализа принимается решение, которое в дальнейшем окажется ошибочным в плане критерия кластеризации, ситуацию можно будет исправить, перемещая объекты из одного кластера в другой. Основной недостаток состоит в том, что серия полученных кластеров обычно не систематизирована, поэтому ее трудно интерпретировать. Однако то, что результаты выглядят беспорядочными, иногда дает положительный эффект, поскольку не создается иллюзии порядка при его отсутствии.

Основные неиерархические методы (используются в программных пакетах SPSS, SYSTAT, Statistica):

б.1) последовательный пороговый метод – выбирается центр кластера, и все объекты, попадающие в некоторое заранее определенное пороговое значение, объединяются. Далее выбирается новый центр кластера, и процесс повторяется для не вошедших в кластеры объектов и т. д. После того как объект попадает в кластер, он не подлежит дальнейшей обработке;

б.2) параллельный пороговый метод – аналогичен предыдущему, за тем исключением, что одновременно выбираются несколько центров кластеров, и объекты, попадающие в пороговое значение, относятся в кластер, центр которого является ближайшим по отношению к ним; после этого уровни порогов могут быть скорректированы (чтобы в кластеры попадало больше или меньше объектов);

б.3) метод оптимизации – модификация двух предыдущих, которая заключается в том, что объекты могут быть переведены из одного кластера в другой в ходе оптимизации по некоторому общему критерию, – такому как среднее внутрикластерное расстояние для данного числа кластеров.

На самом деле оба подхода (иерархический и не иерархический) могут быть использованы последовательно. Сначала, иерархический подход может быть использован для определения числа кластеров и выявления «выскакивающих» элементов, а также с целью получения центров кластеров. Далее выскакивающие элементы (если таковые имеются) удаляются, после чего используется неиерархический подход, которому в качестве исходных данных передается число кластеров и параметры их центров, полученные в результате иерархической кластеризации. Таким образом, достоинства обоих подходов сочетаются, в связи с чем можно получить более качественные результаты.







Дата добавления: 2015-08-12; просмотров: 960. Нарушение авторских прав; Мы поможем в написании вашей работы!



Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Влияние первой русской революции 1905-1907 гг. на Казахстан. Революция в России (1905-1907 гг.), дала первый толчок политическому пробуждению трудящихся Казахстана, развитию национально-освободительного рабочего движения против гнета. В Казахстане, находившемся далеко от политических центров Российской империи...

Виды сухожильных швов После выделения культи сухожилия и эвакуации гематомы приступают к восстановлению целостности сухожилия...

КОНСТРУКЦИЯ КОЛЕСНОЙ ПАРЫ ВАГОНА Тип колёсной пары определяется типом оси и диаметром колес. Согласно ГОСТ 4835-2006* устанавливаются типы колесных пар для грузовых вагонов с осями РУ1Ш и РВ2Ш и колесами диаметром по кругу катания 957 мм. Номинальный диаметр колеса – 950 мм...

ТЕРМОДИНАМИКА БИОЛОГИЧЕСКИХ СИСТЕМ. 1. Особенности термодинамического метода изучения биологических систем. Основные понятия термодинамики. Термодинамикой называется раздел физики...

Травматическая окклюзия и ее клинические признаки При пародонтите и парадонтозе резистентность тканей пародонта падает...

Подкожное введение сывороток по методу Безредки. С целью предупреждения развития анафилактического шока и других аллергических реак­ций при введении иммунных сывороток используют метод Безредки для определения реакции больного на введение сыворотки...

Studopedia.info - Студопедия - 2014-2024 год . (0.011 сек.) русская версия | украинская версия