Для бінарних об’єктів
Мета роботи. Виконати ієрархічну класифікацію даних, з бінарним представленням значень ознак і результати відобразити з допомогою дендрограми та площинної діаграми.
Зміст роботи. Суть даної роботи полягає в реалізації конкретної процедури класифікації, зведених у звичайну таблицю “об’єкт – ознака” бінарних даних, представлених числами: “0” – відсутність даної ознаки в даного об’єкта або “1” – наявність цієї ознаки в цього об’єкта. При використанні інформаційної статистики матрицю близькості не формують. Підготовка даних означає, що будь-які числові дані також можуть бути представлені в бінарній формі, якщо їх значення мають конкретно визначений діапазон, для якого можна вказати, у відповідності з тим чи іншим критерієм, деяке порогове значення таке, що перевищення значенням ознаки цього значення можна трактувати як значення бінарної ознаки рівне “1”, а значення ознаки, які є меншими або рівними цьому порогу трактувати як значення бінарної ознаки рівне “0”. Пояснимо процедуру ієрархічної класифікації методом інформаційної статистики на конкретному прикладі. Нехай необхідно згрупувати п’ять об’єктів, кожен з яких характеризується десятьма ознаками. Поіменуємо ці об’єкти літерами A, B, C, D, E і зведемо інформацію про них в таблицю, в якій бінарні значення ознак представлені цифрами “0”, “1”. Таблиця має наступний вид.
Згідно з процедурою, на кожному кроці процесу класифікації буде потрібно знати: 1. Склад усіх груп, які залишились. 2. Число об’єктів в кожній групі. 3. Інформаційний зміст кожної групи. Далі необхідно дослідити усі можливі об’єднання між групами, між об’єктами та між групою і об’єктом. Для кожного об’єднання треба знати: 1. групи, з яких воно складене; 2. число об’єктів після об’єднання; 3. інформаційний зміст після об’єднання; 4. інформаційний виграш, визначений різницею інформаційних змістів об’єднаних груп. Послідовність операцій в процедурі може бути представлена наступним алгоритмом. Крок 1. Так як об’єкти A – E мають нульовий ін форм акційний зміст, то інформаційний виграш, наприклад від об’єднання A і B дорівнює , так, що для початкового об’єднання інформаційний виграш рівний інформаційному змісту. Об’єднують пару з найменшим інформаційним виграшем, тобто об’єднують об’єкти A і B в нову групу F з двома об’єктами і інформаційним змістом . Об’єкти A і B і будь-яке об’єднання, яке їх містить, можуть бути тепер виключені. Ілюстрацією реалізації першого кроку даної процедури є фрагмент таблиці 3.
Деякі пояснення.
Крок 1. Зауважимо, що інформаційний виграш, наприклад для FC отримується з інформаційного змісту 17.1855 шляхом вирахування інформаційного змісту F(5.5452) і C(0.0000). найменший виграш зв’язаний з FD. Об’єднуючи F і D, отримуємо нову групу G з трьох об’єктів і всі, що відносяться до F і D виключаємо з подальшого розгляду. Крок 3. Найменший виграш зв’язаний з CE. Об’єднання C і E дає нову групу H з двох об’єктів. Все, що відноситься до C і E виключається з подальшого аналізу. Крок 4. Процес закінчено. Остаточний результат приведений в таблиці 4. Таблиця 4
|