Теоретические основы. Кластерный анализ представляет собой статистические методы, используемые для классификации многомерных объектов или событий в относительно однородные группы

⇐ Предыдущая 10 11 12 13 141516 17 18 19 Следующая ⇒

Кластерный анализ представляет собой статистические методы, используемые для классификации многомерных объектов или событий в относительно однородные группы, которые называют кластерами. Объекты в каждом кластере должны быть похожи друг на друга в большей степени, чем на объекты других классов, и отличаться от объектов других кластеров сильнее, чем от объектов собственного класса.

В экономике кластерный анализ используется для достижения следующих целей: сегментации рынка, изучения поведения покупателей, определения конкурентоспособности нового товара, сокращения размерности данных и др.

Кластеризацию используют, когда отсутствуют априорные сведения относительно классов, к которым можно отнести объекты исследуемого набора данных, либо когда число объектов велико, что затрудняет их ручной анализ.

Постановка задачи кластеризации сложна и неоднозначна, так как:

Оптимальное количество кластеров в общем случае неизвестно;
Выбор меры «похожести» или близости свойств объектов между собой, как и критерия качества кластеризации, часто носит субъективный характер.

Распространенной мерой оценки близости между объектами является метрика, или способ задания расстояния. Наиболее популярные метрики – евклидово расстояние и расстояние Манхэттена.

Важно понимать, что сама по себе кластеризация не приносит каких-либо результатов анализа. Для получения эффекта необходимо провести содержательную интерпретацию каждого кластера. Такая интерпретация предполагает присвоение каждому кластеру емкого названия, отражающего его суть. Для интерпретации аналитик детально исследует каждый кластер: его статистические характеристики, распределение значений признаков объекта в кластере, оценивает мощность кластера – число объектов, попавших в него.

Обычно в задачах кластерного анализа исходные данные представляют в форме прямоугольной таблицы, каждая строка которой представляет результат измерения p признаков на соответствующем объекте:

, (4.1)

где n - число объектов, подлежащих классификации.

Числовые значения признаков, входящих в матрицу, могут соответствовать трем типам переменных: качественным, ранговым и количественным. Качественные переменные, как правило, принимают два и более значений, которым, хотя и можно поставить в соответствие некоторые числа, но эти числа не будут отражать какую-либо упорядоченность значений качественных переменных. И это нужно учитывать при определении близости. Значения ранговых переменных, в отличие от качественных, упорядочены. Их можно пронумеровать натуральными числами. Однако арифметические операции над этими числами не имеют смысла. Количественные переменные обладают свойством упорядоченности, и над ними, в отличие от других, можно приводить арифметические операции.

Желательно, чтобы вся таблица исходных данных соответствовала одному типу переменных. Если это не так, то разные типы переменных стараются свести к какому-то одному типу переменных. Самый простой является процедура сведения к качественным переменным. Суть этой процедуры в следующем. Если есть количественные данные, то они сначала сводятся к ранговым, для чего область значений количественных переменных разбивается на интервалы, которые нумеруются числами натурального ряда. Ранговые переменные можно считать качественными, если не учитывать упорядоченность их значений. В свою очередь, качественные переменные переводятся в дихотомические по следующему правилу. Каждое из возможных значений качественной переменной заменяется на 1, если качественная переменная приняла это значение, и 0 - в противном случае.

В тех случаях, когда все показатели количественные, часто возникает проблема их нормирования, поскольку различие в единицах измерения делает эти показатели несопоставимыми. Так, например, при классификации промышленных предприятий по результатам финансово-хозяйственной деятельности в описание включаются такие показатели, как прибыль, рентабельность, себестоимость, коэффициент текущей ликвидности и т.д. По прибыли предприятия могут различаться на десятки и сотни тысяч единиц, а по рентабельности - на единицы, а то и десятые доли единицы. Такая несопоставимость практически перечеркивает идею многомерной классификации, так как она автоматически будет осуществляться по более масштабному показателю. Поэтому процедуре непосредственного разнесения объектов по классам должна предшествовать процедура приведения всех показателей к сопоставимому виду, которую принято называть нормированием. В практических расчетах чаще других используются два подхода к нормированию. Один из них связан с идеей статистической стандартизации, осуществляемой по формуле:

, (4.2)

где - нормированный j -ый показатель i -го объекта;

– значение j -го показателя i -го объекта;

- среднее значение j-го показателя по всему множеству классифицируемых объектов;

- среднеквадратическое отклонение j -го показателя.

При использовании такой нормировки все показатели, описывающие классифицируемый объект, приводятся к виду, когда среднее равно 0, а разброс вокруг среднего равен 1.

Второй подход предусматривает преобразование показателей путем отображения интервала их возможных значений на промежуток [0;l]. Это осуществляется с помощью формулы:

, (4.3)

где ; .

Таким образом, с помощью нормирования удается избавиться от нежелательного влияния разномасштабности показателей на степень схожести между объектами.

Выбор меры сходства является одним из узловых моментов в задачах классификации, так как от нее, в основном, зависит при данном алгоритме классификации окончательный вариант разбиения объектов на классы. В каждом конкретном случае этот выбор осуществляется в зависимости от цели исследования и природы самих классифицируемых объектов.

⇐ Предыдущая 10 11 12 13 141516 17 18 19 Следующая ⇒

Дата добавления: 2015-09-19; просмотров: 567. Нарушение авторских прав; Мы поможем в написании вашей работы!

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Сравнительно-исторический метод в языкознании сравнительно-исторический метод в языкознании является одним из основных и представляет собой совокупность приёмов...

Концептуальные модели труда учителя В отечественной литературе существует несколько подходов к пониманию профессиональной деятельности учителя, которые, дополняя друг друга, расширяют психологическое представление об эффективности профессионального труда учителя...

Конституционно-правовые нормы, их особенности и виды Характеристика отрасли права немыслима без уяснения особенностей составляющих ее норм...

Трамадол (Маброн, Плазадол, Трамал, Трамалин) Групповая принадлежность · Наркотический анальгетик со смешанным механизмом действия, агонист опиоидных рецепторов...

Мелоксикам (Мовалис) Групповая принадлежность · Нестероидное противовоспалительное средство, преимущественно селективный обратимый ингибитор циклооксигеназы (ЦОГ-2)...

Менадиона натрия бисульфит (Викасол) Групповая принадлежность •Синтетический аналог витамина K, жирорастворимый, коагулянт...

Studopedia.info - Студопедия - 2014-2024 год . (0.012 сек.) русская версия | украинская версия