Кластерний аналіз
Класифікація – це віднесення об’єкта до його класу. Методи класифікації поділяють на два типи: а) з навчанням – групи заздалегідь визначені; б) без навчання – утворення таких груп на основі парметричних чи непараметричних критеріїв.
Чисельна класифікація. Чисельна таксономія встановлює класифікацію або неіснуючу раніше, або ігноруючи існуючу, створює нову. Її мета в спрощенні матриці даних. Дані, як правило, складаються з множини елементів, індивідів, об’єктів, кожен з яких визначається набором ознак. Множина даних вважається неоднорідною в тому сенсі, що її корисно розглядати, як складену з невідомого числа підмножин, які необхідно знайти. Причому елементи однієї множини є більш подібні між собою, ніж до елементів з інших підмножин. Тут термін “подібні” може бути визначений різними математичними виразами. Є два типи інтересів користувача: 1) вияснити з якою мірою впевненості при використанні даної чисельної моделі можна вважати існування разних підмножин; 2) є підозра, що істинної відмінності між підмножинами немає, але для полегшення аналізу дуже великого числа елементів варто мати такі підмножини, отримавши їх шляхом штучного розчленування. Інколи бажано транспонувати матрицю даних і класифікувати ознаки за їх значенням для різних об’єктів – зворотня класифікація. Типи ознак: Поліноміальні – (ознаки з невпорядкованими станами) визначаються станами (пр.: піщаник, граніт, базальт, крейда), хоча, можлива нумерація станів. Номер не несе ніякого змістового навантаження. Частинним випадком є бінарні (якісні) ознаки з двома станами. Порядкові – (ознаки з впорядкованими станами) мають впорядкований ряд станів: рідкісний, порядковий, звичайний, багатющий. Хоча порядок має зміст, але відстані між станами невизначені. Чисельні – (інколи метричні чи кількісні) вимірювані чи обчислювані кількості. Вимагають вибору шкали. В програмах обробки даних слід передбачити пропущені значення ознак. Зчеплені – набір ознак, що представляють по суті одну ознаку. Вимагає спеціальеої математичної обробки. Серіально-залежні – умовно визначувані, коли попадання деякої ознаки в певний стан робить неможливим визначення іншої.
Типи класифікацій. Чисельні класифікації включають різні числові процеси, з яких вибирають найбільш відповідні. Послідовність вибору показано на рисунку: Рис.1. Послідовності вибору чисельних класифікацій. Виключаючі / не виключаючі. Виключаючі – кожен елемент може бути лише в одній підмножині. Не виключаючі – один елемент може бути в різних підмножинах. Внутрішні / зовнішні. Внутрішні – класифікація основана лише на заданому наборі ознак і всі ознаки на початковому етапі вважаються рівнозначними. Зовнішні – одна з ознак є зовнішньою і задача полягає в тому, щоб, використовуючи лише інформацію про рушту внутрішніх ознак, отримати класифікацію, яка найкращим чином відображає зовнішню ознаку. Ієрархічні / не ієрархічні. Ієрархічні – групи розглядають попарно як можливі кандидати для об’єднання, при критарії найменшого збільшення неоднорідності. Не ієрархічні – групи вибираються так, щоб кожна була при можливості більш однорідною але відношення між групами невіяснені. Агломеративні / дивізивні. Агломеративні – об’єкти об’єдуються в множини зростаючого об’єму, поки не відбудеться об’єднання в одну множину. В дивізівному – вихідна множина поступово ділиться, поки не буде досягнуте бажане розділення. Монотетичні і політетичні. Монотетичні – поділ здійснюється на основі однієї ознаки, яка має максимальну інформативність. В політетичній всі ознаки враховуються однаковою мірою. На початку класифікації всі ознаки вважаються рівноправними, але після класифікації може виявитись, що вклад в отриманий результат різних ознак – різний. Виникає потреба в діагностичній системі, яка б слідкувала за ходом класифікації і видавала б впорядкований список вкладів ознак для кожного чергового об’єднання чи розділення.
Міри подібності і відмінності. На практиці всі сучасні системи мають справу з мірами відмінності об’єктів. Виділяють два головних класи: 1. 2. Включає Для стандартного набору програм класифікації на практиці використовують наступні: 1. коефіцієнт кореляції; 2. міри, основані на Евклідовій метриці; 3. міри, основані на Манхеттенській метриці; 4. інформаційні статистики. Введемо позначення:
Коефіцієнт кореляції. Нехай Якщо ознаки представлені дихотомічно, тобто, коли
При цьому порядкові змінні можуть опрацьовуватись так само, як числові. У випадку, коли мають номінальні і числові ознаки, номінальну ознаку з Евклідова метрика, тобто метрика Мінковського другого порядку визначається співвідношенням
Для того, щоб стратегії класифікації були адитивними по відношенню до ознак, використовують квадрат відстані У випадку числових ознак при різних фізичних одиницях їх необхідно привести до безрозмірних і стандартизувати. У випадку порядкових ознак значення станів вважаються рівновіддаленими і проводять обробку, як з числовими змінними. Для номінальних ознак, коли серед
а у випадку повністю бінарних ознак (не стандартизовану) Евклідова відстань обчислюють як
Манхеттенська метрика. Ця метрика є частинним випадком метрики Мінковського порядку 1
Значення метрику Брея-Кертиса
причому Канберівську метрику
Канберівська метрика автоматично стандартизована і при невід’ємних
Інформаційна статистика. В основі цієї статистики використовується Шеннонівське поняття інформації, основане на Бінарні ознаки. Нехай маємо групу з
Нехай інформаційний зміст двох груп
Інформаційний зміст одного елемента чи групи однакових елементів в цій моделі завжди рівний нулю. Процедура обчислень виглядає так. Нехай окремий елемент, що підлягає класифікації, представляє популяцію (групу, множину) з
Тоді інформаційний виграш цієї категорії визначається виразом (1). Запишемо його в явному вигляді. Нехай два елементи, які об’єднуються, представляються стрічками-векторами
Ця величина називається переданою інформацією. Наступний приклад пояснює суть інформаційної статистики. Нехай необхідно знайти повну інформацію для випадку п’яти об’єктів, коли кожен з них характеризується чотирьома бінарними ознаками, причому, три об’єкти мають першу ознаку, два – другу, четверо – третю і всі п’ять – четверту. Позначимо таку групу таким чином: (3 – 2 – 4 – 5). Інформація, що відповідає першій ознаці рівна
Для другої ознаки маємо таку саму величину:
Для – третьої:
Для – четвертої:
Зауважимо, що якщо
|