Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Формализация процесса кластеризации





Для того чтобы произвести кластеризацию, основываясь не на визуальных впечатлениях, а более объективно, необходимо формализовать задачу.

Если проанализировать все то, что было описано выше, то можно сформулировать следующие признаки, на которых основана визуальная кластеризация:

 

- к одному кластеру относятся те объекты, которые расположены достаточно близко друг к другу,

- или объекты в одном кластере расположены примерно на одинаковых расстояниях друг от друга,

- при этом один кластер отделен от другого расстоянием значительно большим, чем типичное расстояние между объектами внутри кластера.

 

Приведенные признаки, по-прежнему, еще слишком общие. Обратите внимание на слова «типичное расстояние», «достаточно близки» и т.д. Но уже становится ясным, какой параметр, характерный для набора объектов, должен подвергнуться формализации – это расстояния между объектами.

Этот параметр служит основой практически для всех методов кластеризации. Одним из них является метод цепочечной кластеризации. Его достоинством является то, что к полученным с его помощью результатам легко применить статистические методы проверки гипотез.

Суть метода заключается в следующем.

Пусть имеется N объектов, которые необходимо подвергнуть разделению на группы.

1. Для всех возможных пар объектов вычисляются расстояния между всеми возможными парами объектов и среди них такая пара, расстояние между которыми минимально. Эта пара может служить ядром будущего кластера (или стать отдельным кластером). Кроме того, данная пара помечается как уже сгруппированная.

2. Среди оставшихся объектов находится такой, расстояние, от которого до любого из уже сгруппированных объектов минимально. Этот объект также помечается как сгруппированный.

3. Операция 2 выполняется до тех пор, пока все объекты не станут сгруппированными.

4. В результате выполнения п.п. 2, 3 получается последовательность (цепочка) расстояний с указанием объектов, для которых эти расстояния вычислены.

5. К полученной последовательности применяется технология выявления промахов в ряду наблюдений (см. работу «Случайные величины»).

6. Если в ряду расстояний обнаружено расстояние, резко отличающееся от других (что подтверждается статистической проверкой), то это расстояние признается как граница между кластерами и соответствующие объекты до этого значения относятся к одному кластеру, а оставшиеся к другому (другим).

 







Дата добавления: 2015-08-12; просмотров: 412. Нарушение авторских прав; Мы поможем в написании вашей работы!




Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...


Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...


ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...


Теория усилителей. Схема Основная масса современных аналоговых и аналого-цифровых электронных устройств выполняется на специализированных микросхемах...

Гальванического элемента При контакте двух любых фаз на границе их раздела возникает двойной электрический слой (ДЭС), состоящий из равных по величине, но противоположных по знаку электрических зарядов...

Сущность, виды и функции маркетинга персонала Перснал-маркетинг является новым понятием. В мировой практике маркетинга и управления персоналом он выделился в отдельное направление лишь в начале 90-х гг.XX века...

Разработка товарной и ценовой стратегии фирмы на российском рынке хлебопродуктов В начале 1994 г. английская фирма МОНО совместно с бельгийской ПЮРАТОС приняла решение о начале совместного проекта на российском рынке. Эти фирмы ведут деятельность в сопредельных сферах производства хлебопродуктов. МОНО – крупнейший в Великобритании...

ЛЕЧЕБНО-ПРОФИЛАКТИЧЕСКОЙ ПОМОЩИ НАСЕЛЕНИЮ В УСЛОВИЯХ ОМС 001. Основными путями развития поликлинической помощи взрослому населению в новых экономических условиях являются все...

МЕТОДИКА ИЗУЧЕНИЯ МОРФЕМНОГО СОСТАВА СЛОВА В НАЧАЛЬНЫХ КЛАССАХ В практике речевого общения широко известен следующий факт: как взрослые...

СИНТАКСИЧЕСКАЯ РАБОТА В СИСТЕМЕ РАЗВИТИЯ РЕЧИ УЧАЩИХСЯ В языке различаются уровни — уровень слова (лексический), уровень словосочетания и предложения (синтаксический) и уровень Словосочетание в этом смысле может рассматриваться как переходное звено от лексического уровня к синтаксическому...

Studopedia.info - Студопедия - 2014-2024 год . (0.007 сек.) русская версия | украинская версия