Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Формализация процесса кластеризации





Для того чтобы произвести кластеризацию, основываясь не на визуальных впечатлениях, а более объективно, необходимо формализовать задачу.

Если проанализировать все то, что было описано выше, то можно сформулировать следующие признаки, на которых основана визуальная кластеризация:

 

- к одному кластеру относятся те объекты, которые расположены достаточно близко друг к другу,

- или объекты в одном кластере расположены примерно на одинаковых расстояниях друг от друга,

- при этом один кластер отделен от другого расстоянием значительно большим, чем типичное расстояние между объектами внутри кластера.

 

Приведенные признаки, по-прежнему, еще слишком общие. Обратите внимание на слова «типичное расстояние», «достаточно близки» и т.д. Но уже становится ясным, какой параметр, характерный для набора объектов, должен подвергнуться формализации – это расстояния между объектами.

Этот параметр служит основой практически для всех методов кластеризации. Одним из них является метод цепочечной кластеризации. Его достоинством является то, что к полученным с его помощью результатам легко применить статистические методы проверки гипотез.

Суть метода заключается в следующем.

Пусть имеется N объектов, которые необходимо подвергнуть разделению на группы.

1. Для всех возможных пар объектов вычисляются расстояния между всеми возможными парами объектов и среди них такая пара, расстояние между которыми минимально. Эта пара может служить ядром будущего кластера (или стать отдельным кластером). Кроме того, данная пара помечается как уже сгруппированная.

2. Среди оставшихся объектов находится такой, расстояние, от которого до любого из уже сгруппированных объектов минимально. Этот объект также помечается как сгруппированный.

3. Операция 2 выполняется до тех пор, пока все объекты не станут сгруппированными.

4. В результате выполнения п.п. 2, 3 получается последовательность (цепочка) расстояний с указанием объектов, для которых эти расстояния вычислены.

5. К полученной последовательности применяется технология выявления промахов в ряду наблюдений (см. работу «Случайные величины»).

6. Если в ряду расстояний обнаружено расстояние, резко отличающееся от других (что подтверждается статистической проверкой), то это расстояние признается как граница между кластерами и соответствующие объекты до этого значения относятся к одному кластеру, а оставшиеся к другому (другим).

 







Дата добавления: 2015-08-12; просмотров: 412. Нарушение авторских прав; Мы поможем в написании вашей работы!




Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...


Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...


Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...


Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Уравнение волны. Уравнение плоской гармонической волны. Волновое уравнение. Уравнение сферической волны Уравнением упругой волны называют функцию , которая определяет смещение любой частицы среды с координатами относительно своего положения равновесия в произвольный момент времени t...

Медицинская документация родильного дома Учетные формы родильного дома № 111/у Индивидуальная карта беременной и родильницы № 113/у Обменная карта родильного дома...

Основные разделы работы участкового врача-педиатра Ведущей фигурой в организации внебольничной помощи детям является участковый врач-педиатр детской городской поликлиники...

Тема: Составление цепи питания Цель: расширить знания о биотических факторах среды. Оборудование:гербарные растения...

В эволюции растений и животных. Цель: выявить ароморфозы и идиоадаптации у растений Цель: выявить ароморфозы и идиоадаптации у растений. Оборудование: гербарные растения, чучела хордовых (рыб, земноводных, птиц, пресмыкающихся, млекопитающих), коллекции насекомых, влажные препараты паразитических червей, мох, хвощ, папоротник...

Типовые примеры и методы их решения. Пример 2.5.1. На вклад начисляются сложные проценты: а) ежегодно; б) ежеквартально; в) ежемесячно Пример 2.5.1. На вклад начисляются сложные проценты: а) ежегодно; б) ежеквартально; в) ежемесячно. Какова должна быть годовая номинальная процентная ставка...

Studopedia.info - Студопедия - 2014-2025 год . (0.012 сек.) русская версия | украинская версия