Студопедия — Теоретические основы. Кластерный анализ представляет собой статистические методы, используемые для классификации многомерных объектов или событий в относительно однородные группы
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Теоретические основы. Кластерный анализ представляет собой статистические методы, используемые для классификации многомерных объектов или событий в относительно однородные группы






Кластерный анализ представляет собой статистические методы, используемые для классификации многомерных объектов или событий в относительно однородные группы, которые называют кластерами. Объекты в каждом кластере должны быть похожи друг на друга в большей степени, чем на объекты других классов, и отличаться от объектов других кластеров сильнее, чем от объектов собственного класса.

В экономике кластерный анализ используется для достижения следующих целей: сегментации рынка, изучения поведения покупателей, определения конкурентоспособности нового товара, сокращения размерности данных и др.

Кластеризацию используют, когда отсутствуют априорные сведения относительно классов, к которым можно отнести объекты исследуемого набора данных, либо когда число объектов велико, что затрудняет их ручной анализ.

Постановка задачи кластеризации сложна и неоднозначна, так как:

  • Оптимальное количество кластеров в общем случае неизвестно;
  • Выбор меры «похожести» или близости свойств объектов между собой, как и критерия качества кластеризации, часто носит субъективный характер.

Распространенной мерой оценки близости между объектами является метрика, или способ задания расстояния. Наиболее популярные метрики – евклидово расстояние и расстояние Манхэттена.

Важно понимать, что сама по себе кластеризация не приносит каких-либо результатов анализа. Для получения эффекта необходимо провести содержательную интерпретацию каждого кластера. Такая интерпретация предполагает присвоение каждому кластеру емкого названия, отражающего его суть. Для интерпретации аналитик детально исследует каждый кластер: его статистические характеристики, распределение значений признаков объекта в кластере, оценивает мощность кластера – число объектов, попавших в него.

Обычно в задачах кластерного анализа исходные данные представляют в форме прямоугольной таблицы, каждая строка которой представляет результат измерения p признаков на соответствующем объекте:

, (4.1)

где n - число объектов, подлежащих классификации.

Числовые значения признаков, входящих в матрицу, могут соответствовать трем типам переменных: качественным, ранговым и количественным. Качественные переменные, как правило, принимают два и более значений, которым, хотя и можно поставить в соответствие некоторые числа, но эти числа не будут отражать какую-либо упорядоченность значений качественных переменных. И это нужно учитывать при определении близости. Значения ранговых переменных, в отличие от качественных, упорядочены. Их можно пронумеровать натуральными числами. Однако арифметические операции над этими числами не имеют смысла. Количественные переменные обладают свойством упорядоченности, и над ними, в отличие от других, можно приводить арифметические операции.

Желательно, чтобы вся таблица исходных данных соответствовала одному типу переменных. Если это не так, то разные типы переменных стараются свести к какому-то одному типу переменных. Самый простой является процедура сведения к качественным переменным. Суть этой процедуры в следующем. Если есть количественные данные, то они сначала сводятся к ранговым, для чего область значений количественных переменных разбивается на интервалы, которые нумеруются числами натурального ряда. Ранговые переменные можно считать качественными, если не учитывать упорядоченность их значений. В свою очередь, качественные переменные переводятся в дихотомические по следующему правилу. Каждое из возможных значений качественной переменной заменяется на 1, если качественная переменная приняла это значение, и 0 - в противном случае.

В тех случаях, когда все показатели количественные, часто возникает проблема их нормирования, поскольку различие в единицах измерения делает эти показатели несопоставимыми. Так, например, при классификации промышленных предприятий по результатам финансово-хозяйственной деятельности в описание включаются такие показатели, как прибыль, рентабельность, себестоимость, коэффициент текущей ликвидности и т.д. По прибыли предприятия могут различаться на десятки и сотни тысяч единиц, а по рентабельности - на единицы, а то и десятые доли единицы. Такая несопоставимость практически перечеркивает идею многомерной классификации, так как она автоматически будет осуществляться по более масштабному показателю. Поэтому процедуре непосредственного разнесения объектов по классам должна предшествовать процедура приведения всех показателей к сопоставимому виду, которую принято называть нормированием. В практических расчетах чаще других используются два подхода к нормированию. Один из них связан с идеей статистической стандартизации, осуществляемой по формуле:

, (4.2)

где - нормированный j -ый показатель i -го объекта;

– значение j -го показателя i -го объекта;

- среднее значение j-го показателя по всему множеству классифицируемых объектов;

- среднеквадратическое отклонение j -го показателя.

При использовании такой нормировки все показатели, описывающие классифицируемый объект, приводятся к виду, когда среднее равно 0, а разброс вокруг среднего равен 1.

Второй подход предусматривает преобразование показателей путем отображения интервала их возможных значений на промежуток [0;l]. Это осуществляется с помощью формулы:

, (4.3)

где ; .

Таким образом, с помощью нормирования удается избавиться от нежелательного влияния разномасштабности показателей на степень схожести между объектами.

Выбор меры сходства является одним из узловых моментов в задачах классификации, так как от нее, в основном, зависит при данном алгоритме классификации окончательный вариант разбиения объектов на классы. В каждом конкретном случае этот выбор осуществляется в зависимости от цели исследования и природы самих классифицируемых объектов.







Дата добавления: 2015-09-19; просмотров: 563. Нарушение авторских прав; Мы поможем в написании вашей работы!



Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Принципы резекции желудка по типу Бильрот 1, Бильрот 2; операция Гофмейстера-Финстерера. Гастрэктомия Резекция желудка – удаление части желудка: а) дистальная – удаляют 2/3 желудка б) проксимальная – удаляют 95% желудка. Показания...

Ваготомия. Дренирующие операции Ваготомия – денервация зон желудка, секретирующих соляную кислоту, путем пересечения блуждающих нервов или их ветвей...

Билиодигестивные анастомозы Показания для наложения билиодигестивных анастомозов: 1. нарушения проходимости терминального отдела холедоха при доброкачественной патологии (стенозы и стриктуры холедоха) 2. опухоли большого дуоденального сосочка...

Подкожное введение сывороток по методу Безредки. С целью предупреждения развития анафилактического шока и других аллергических реак­ций при введении иммунных сывороток используют метод Безредки для определения реакции больного на введение сыворотки...

Принципы и методы управления в таможенных органах Под принципами управления понимаются идеи, правила, основные положения и нормы поведения, которыми руководствуются общие, частные и организационно-технологические принципы...

ПРОФЕССИОНАЛЬНОЕ САМОВОСПИТАНИЕ И САМООБРАЗОВАНИЕ ПЕДАГОГА Воспитывать сегодня подрастающее поколение на со­временном уровне требований общества нельзя без по­стоянного обновления и обогащения своего профессио­нального педагогического потенциала...

Studopedia.info - Студопедия - 2014-2024 год . (0.012 сек.) русская версия | украинская версия