Студопедия — Кластерный анализ
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Кластерный анализ






Как уже ранее отмечалось, кластерный анализ (самообучение, обучение без учителя, таксономия) применяется при автоматическом формировании перечня образов по обучающей выборке. Все объекты этой выборки предъявляются системе без указания, какому образу они принадлежат. Подобного рода задачи решает, например, человек в процессе естественно-научного познания окружающего мира (классификации растений, животных). Этот опыт целесообразно использовать при создании соответствующих алгоритмов.

В основе кластерного анализа лежит гипотеза компактности. Предполагается, что обучающая выборка в признаковом пространстве состоит из набора сгустков (подобно галактикам во Вселенной). Задача системы – выявить и формализованно описать эти сгустки. Геометрическая интерпретация гипотезы компактности состоит в следующем.

Объекты, относящиеся к одному таксону, расположены близко друг к другу по сравнению с объектами, относящимися к разным таксонам. "Близость" можно понимать шире, чем при геометрической интерпретации. Например, закономерность, описывающая взаимосвязь объектов одного таксона, отличается от таковой в других таксонах, как это имеет место в лингвистических методах.

Мы ограничимся рассмотрением геометрической интерпретации. Остановимся на алгоритме FOREL (рис. 13).

 
 

 

 


a

 

 


б

Рис. 13. Иллюстрация алгоритма FOREL:
а – процесс перемещения формального элемента по множеству
объектов (точек); б – иллюстрация зависимости результатов
таксономии по алгоритму FOREL от начальной точки
перемещения формального элемента

Строится гиперсфера радиуса , где соответствует гиперсфере, охватывающей все объекты (точки) обучающей выборки. При этом число таксонов будет равно единице. Затем строится гиперсфера радиуса с центром в произвольной точке выборки. По множеству точек, попавших внутрь гиперсферы (формального элемента), определяется среднее значение координат (эталон) и в него перемещается центр гиперсферы. Если это перемещение существенное, то заметно изменится множество точек, попавших внутрь гиперсферы, а следовательно, и их среднее значение координат. Вновь перемещаем центр гиперсферы в это новое среднее значение и т.д. до тех пор, пока гиперсфера не остановится либо зациклится. Тогда все точки, попавшие внутрь этой гиперсферы, исключаются из рассмотрения и процесс повторяется на оставшихся точках. Это продолжается до тех пор, пока не будут исчерпаны все точки. Результат таксономии: набор гиперсфер (формальных элементов) радиуса с центрами, определёнными в результате вышеописанной процедуры. Назовём это циклом с формальными элементами радиуса .

В следующем цикле используются гиперсферы радиуса . Здесь появляется параметр , определяемый исследователем чаще всего подбором в поисках компромисса: увеличение ведёт к росту скорости сходимости вычислительной процедуры, но при этом возрастает риск потери тонкостей таксономической структуры множества точек (объектов). Естественно ожидать, что с уменьшением радиуса гиперсфер количество выделенных таксонов будет увеличиваться. Если в признаковом пространстве обучающая выборка состоит из компактных сгустков, далеко отстоящих друг от друга, то начиная с некоторого радиуса несколько циклов с радиусами формальных элементов будут завершаться при одинаковом числе таксонов. Наличие такой "полочки" в последовательности циклов разумно связывать с объективным существованием сгустков, которым в соответствие ставят таксоны. Наличие нескольких "полочек" может свидетельствовать об иерархии таксонов. На рис. 14 представлено множество точек, имеющих двухуровневую таксономическую структуру.

При всей своей наглядности и интерпретируемости результатов алгоритм FOREL обладает существенным недостатком: результаты таксономии в большинстве случаев зависят от начального выбора центра гиперсферы радиуса . Существуют различные приёмы, уменьшающие эту зависимость, но радикального решения этой задачи нет. С подробностями можно ознакомиться в рекомендованной литературе [6].

 

 

 

Рис. 14. Иерархическая (двухуровневая) таксономия

Примером использования человеческих критериев при решении задач таксономии служит алгоритм KRAB. Эти критерии отработаны на двухмерном признаковом пространстве в ходе таксономии, осуществляемой человеком, и применены в алгоритме, функционирующем с объектами произвольной размерности.

Факторы, выявленные при "человеческой" таксономии, можно сформулировать следующим образом:

– внутри таксонов объекты должны быть как можно ближе друг к другу (обобщённый показатель );

– таксоны должны как можно дальше отстоять друг от друга (обобщённый показатель );

– в таксонах количество объектов должно быть по возможности одинаковым, то есть их различие в разных таксонах нужно минимизировать (обобщённый показатель );

– внутри таксонов не должно быть больших скачков плотности точек, то есть количества точек на единицу объёма (обобщённый показатель ).

Если удастся удачно подобрать способы измерения и то можно добиться хорошего совпадения "человеческой" и автоматической таксономии. В алгоритме KRAB используется следующий подход.

Все точки обучающей выборки объединяются в граф, в котором они являются вершинами. Этот граф должен иметь минимальную суммарную длину рёбер, соединяющих все вершины, и не содержать петель (рис. 15). Такой граф называют КНП-графом (КНП – кратчайший незамкнутый путь).

 

 

 


Рис. 15. Иллюстрация алгоритма KRAB

Мера близости объектов в одном таксоне – это средняя длина ребра

,

где – число объектов в таксоне ,

– длина -го ребра.

Усреднённая по всем таксонам мера близости точек .

Средняя длина рёбер, соединяющих таксоны, .

Мера локальной неоднородности определяется следующим образом.

Если длина -го ребра , а длина кратчайшего примыкающего к нему ребра , то чем меньше , тем больше отличие в длинах рёбер, тем больше оснований считать, что по ребру с длиной пройдёт граница между таксонами. Обобщающий критерий

,

где – общее число точек в обучающей выборке.

Определим величину следующим образом:

.

Можно показать, что при фиксированном максимум достигается при .

Теперь можно сформировать интегрированный критерий качества таксономии

.

Чем больше , тем это качество выше. Таким образом, осуществляя таксономию, нужно стремиться к максимизации . Если требуется сформировать таксонов, необходимо оборвать в КНП-графе рёбер, таких, чтобы критерий оказался максимально возможным. Это переборная задача. При большом количестве таксонов и объектов обучающей выборки число вариантов может оказаться неприемлемо большим. Желательно уменьшить вычислительные затраты. Предлагается в качестве примера следующий приём. КНП-граф строится не на множестве точек обучающей выборки, а на множестве центров гиперсфер (таксонов), найденных при помощи алгоритма FOREL. Это может резко сократить количество вершин (а следовательно и рёбер) графа и сделать реализуемым полный перебор вариантов обрыва рёбер. Конечно, при этом не гарантирован глобальный максимум , особенно если вспомнить недостатки, присущие алгоритму FOREL. Данный метод сочетания алгоритмов FOREL и KRAB назван его авторами KRAB 2.







Дата добавления: 2015-10-18; просмотров: 436. Нарушение авторских прав; Мы поможем в написании вашей работы!



Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

Понятие и структура педагогической техники Педагогическая техника представляет собой важнейший инструмент педагогической технологии, поскольку обеспечивает учителю и воспитателю возможность добиться гармонии между содержанием профессиональной деятельности и ее внешним проявлением...

Репродуктивное здоровье, как составляющая часть здоровья человека и общества   Репродуктивное здоровье – это состояние полного физического, умственного и социального благополучия при отсутствии заболеваний репродуктивной системы на всех этапах жизни человека...

Случайной величины Плотностью распределения вероятностей непрерывной случайной величины Х называют функцию f(x) – первую производную от функции распределения F(x): Понятие плотность распределения вероятностей случайной величины Х для дискретной величины неприменима...

Метод архитекторов Этот метод является наиболее часто используемым и может применяться в трех модификациях: способ с двумя точками схода, способ с одной точкой схода, способ вертикальной плоскости и опущенного плана...

Примеры задач для самостоятельного решения. 1.Спрос и предложение на обеды в студенческой столовой описываются уравнениями: QD = 2400 – 100P; QS = 1000 + 250P   1.Спрос и предложение на обеды в студенческой столовой описываются уравнениями: QD = 2400 – 100P; QS = 1000 + 250P...

Дизартрии у детей Выделение клинических форм дизартрии у детей является в большой степени условным, так как у них крайне редко бывают локальные поражения мозга, с которыми связаны четко определенные синдромы двигательных нарушений...

Studopedia.info - Студопедия - 2014-2024 год . (0.011 сек.) русская версия | украинская версия