Комбінаторний метод ієрархічної класифікаціїМета роботи. Здійснити методом кластерного аналізу ієрархічну класифікацію даних, представлених матрицею близькостей, отриманою в попередніх дослідженнях та відобразити результати у вигляді дендрограми та площинної діаграми.
Зміст роботи. Суть даної роботи полягає в реалізації конкретної процедури класифікації відповідним чином підготовлених даних. Підготовка даних означає, що вони ретельно відібрані, перевірені представлені матрицею близькостей, причому допускається використана при формуванні матриці близькостей метрика, оскільки в іншому випадку матрицю близькостей необхідно обчислювати заново. Загальний алгоритм процедури класифікації можна представити як основний цикл об’єднань наступними кроками. Крок 1. Кожен з елементів, які підлягають класифікації, розглядається як окремий кластер. Обчислюється початкова матриця міжкластерних відстаней . Цей крок можна опустити, якщо відстані вже обчислені і повинні бути тільки введеними в програму. Крок 2. Поглядається матриця і шукається мінімальний елемент . Крок 3. Об’єднуються два кластери та , визначені на кроці 2, утворюючи новий кластер . Друкується інформація, яка відноситься до цього об’єднання. Якщо залишається лише один кластер, робота програми припиняється. Крок 4. Обчислюються нові відстані між новим кластером і кожним з тих, що залишились, кластерів , які включаються в матрицю . Переходять до кроку 2. Зауваження. Якщо об’єднується елементів, то першому кластеру, отриманому при об’єднанні присвоюється номер . Кластерам, отриманим при кожному наступному об’єднанні, присвоюються наступні номери. Взагалі, коли залишається груп, то остання утворена група отримує номер . Якщо необхідно знати склад груп, тоді кожному номеру групи потрібно поставити у відповідність список номерів елементів, які вона містить. Ця необхідна інформація може бути отримана, як тільки буде досягнуто задане значення . Більш конкретно зміст процедури об’єднання можна пояснити на наступному прикладі. Припустимо, що маємо п’ять індивідуумів, для яких задані міри відмінностей , які представлені матрицею . Використовуємо для групування гнучку стратегію, яка зберігає метрику простору, з параметром . Тоді, відповідно параметри . Послідовність кроків має наступний зміст.
1. Знаходимо найменше значення в матриці : воно рівне . Об’єднання елементів 1 і 2 утворює групу 6. Перераховуємо відстані, обчислюючи значення , , :
Стовпчик 1 і стрічка 1 відкидаються, а замість стовпчика 2 і стрічки 2 записується стовпчик 6 і стрічка 6. Отримуємо нову матрицю:
Тепер найменше значення в матриці рівне . Об’єднуємо 3 і 4, в результаті отримуємо групу 7 і обчислюємо і
Стовпчик 3 і стрічка 3 відкидаються, а замість стовпчика 4 і стрічки 4 записується стовпчик 7 і стрічка 7, після чого матриця має вид:
Найменше значення в матриці тепер дорівнює . Об’єднуємо 6 і 7 і отримуємо групу 8. тепер необхідно обчислити значення , яке рівне
Об’єднання 5 і 8 дає групу 9. оскільки залишилась лише одна група то процедура класифікації завершується. Результат може бути представлений у формі таблиці Таблиця 1.
Рис. 1. Представлення результатів ієрархічної комбінаторної класифікації: а – дендрограмою, б – площинною діаграмою.
|