Кластерный анализ.
Цель его формирование признака, число параметров которого может быть задано или определяется в ходе самого анализа. Исходные данные задаются в виде совокупности наблюдений, которые имеют m признаков и n наблюдений. j – признак, i – наблюдение. В основе лежит мера близости объектов друг к другу. Эту меру можно определить как расстояние между 2 точками. dik = (Σ(xij - xkj))0,5, j = 1…n. Метод сити-блок. dik = Σ(xij – xkj). Задание весовых коэффициентов. Dik = (Σwj(xij – xkj)2)0,5. Дальше возможны 2 способа: иерархический кластерный анализ, который может быть объединяющим и разъединяющим, и итерационный кластерный анализ. Пример объединяющего кластерного анализа. D =
Тендерограмма. Ищется min d = 0,5. он соединяет 4–ый и 2–ой. Есть три метода: метод ближайшего соседа, метод средней связи, метод полной связи. Итерационный кластерный анализ предполагает построение матрицы расстояний, однако при этом на каждой итерации придется вычислять координаты фиктивного элемента, принадлежащего данному классу (центроиду). Центроид описывается средними значениями параметров, которые принадлежат данному классу. Из множества объектов выбираются случайным образом K, которые используются в качестве центров будущих классов. Затем оставшиеся присоединяются к центральным с помощью одного из методов. На следующей итерации для каждого класса вычисляются новые центры, и вновь выполняется присоединение. Итерации прекращаются, когда получаются одинаковые классы. Метод гиперсфер: Задается радиус гиперсферы, которая описывается вокруг случайно выбранного элемента. В результате определяется некоторое количество объектов, попавших в гиперсферу. Затем вычисляется новый центр, а на следующей итерации строится новая гиперсфера. Если в эту сферу попали те же самые объекты, то итерации прекращаются и объекты исключаются из рассмотрения. Операция продолжается для оставшихся элементов.
|