Введення формального визначення подібності (близькості) між об’єктами – елементами деякої множини
, означає, що на ній задана деяка топологія, завдяки чому простір описів перетворюється в топологічний простір. Існує багато різних способів задання топології в просторі ознак.
Досить широкий клас алгоритмів є оснований на тому, що топологія задається деякою мірою подібності. При цьому будь-яка міра подібності є функцією, яка ставить у відповідність кожній парі точок
деяке число
, яке характеризує ступінь подібності (близькості) між об’єктами
та
.
Міри подібності, які використовуються на практиці відрізняються великим різноманіттям властивостей, проте можна сформулювати загальні вимоги, яким повинна задовольняти використовувана міра подібності, тобто:
.
Переважно використовують три типи мір подібності:
1) коефіцієнти подібності (або квантифіковані коефіцієнти зв’язку);
2) коефіцієнти зв’язку (кореляції);
3) показники відстані в метричному просторі.
Коефіцієнти подібності. Будь-який вектор
, елементи якого дійсні цілі числа – номера градацій відповідних ознак, завжди можна записати в двійковому коді. Тоді, можемо вважати, що будь-який об’єкт
описується вектором
, кожна з
компонент якого приймає значення 0 або 1, тобто ознака
є булавою. Для побудови вимірювачів подібності між об’єктами
та
введемо наступні позначення частот:
– число співпадаючих одиничних ознак у обох об’єктів (пар 1, 1);
– число співпадаючих нульових ознак в обох об’єктів (пар 0, 0);
– число співпадаючих одиничних ознак в
-го і нульових в
-го об’єктів (пар 1, 0);
– число співпадаючих нульових ознак в
-го і одиничних в
-го об’єктів (пар 0, 1);
,
– число одиничних ознак в
-го і в
-го об’єктів відповідно;
,
– число нульових ознак в
-го і в
-го об’єктів відповідно;
– загальне число співпадаючих ознак, тобто
;
– загальне число неспівпадаючих ознак, тобто
;
– загальне число ознак, за якими здійснюється порівняння.
Ці показники називаються коефіцієнтами подібності і позначаються переважно
. В даному випадку
.
Коефіцієнти подібності можуть бути побудовані не лише тільки для булевих вектор-описів об’єктів. У випадку кількісних ознак, які приймають скінчену множину числових значень поступають наступним чином.
Нехай
є значенням
-ої ознаки
-го об’єкта. Очевидним чином визначаються величини
,
. Величина
визначається як максимальне значення
-ої ознаки. Далі для пари об’єктів, які характеризуються цими ознаками, вводяться величини, аналогічні розглянутим вище, а саме:
![](https://konspekta.net/studopediainfo/baza1/440238744086.files/image236.gif)
![](https://konspekta.net/studopediainfo/baza1/440238744086.files/image238.gif)
![](https://konspekta.net/studopediainfo/baza1/440238744086.files/image240.gif)
![](https://konspekta.net/studopediainfo/baza1/440238744086.files/image242.gif)
і т.д. ці нові величини використовуються у виразах для коефіцієнтів подібності замість аналогічних величин, які розраховуються для бінарних ознак. Очевидно, що різні коефіцієнти подібності, будучи розрахованими для одних і тих же об’єктів
та
, будуть різними за величиною. Вибір того чи іншого коефіцієнта визначається характером розв’язуваної задачі (відносною важливістю нульових і одиничних ознак, важливістю порозрядного співпадіння або неспівпадіння) і досить суб’єктивним. Наприклад, в задачах класифікації, які розв’язуються з метою побудови системи автоматичної діагностики в медицині або техніці, можлива ситуація, коли наявність відхилення від норми того чи іншого параметра (ознаки) позначається символом “ 1 “, а відсутність цього ефекту – “ 0 “. Зрозуміло, що в одну групу необхідно об’єднати об’єкти з відхиленнями, а в другу – нормальні об’єкти. Для підсилення контрастності об’єктів при порівнянні в даному випадку краще скористатися коефіцієнтом Дейка, ніж звичайним відношенням числа співпадаючих ознак до їх загального числа, – коефіцієнтом, який використовується при припущенні про рівнозначність нульових і одиничних ознак.
До найбільш вживаних вимірювачів подібності відносять наступні, які для зручності і наочності зведені в таблицю.
Назва
| Формула
| Примітка
|
Загальноприйнятої
назви немає
|
| Застосовується в тих випадках, припускається “рівноважливість” нульових та одиничних ознак
|
Коефіцієнт Рао
|
|
|
Коефіцієнт Хаммана
|
| При
|
Коефіцієнт Роджерса і Танімото
|
|
|
Коефіцієнт Джекарда
|
|
|
Коефіцієнт Дейка
|
| Надає вдвічі більшу вагу співпадаючим одиничним ознакам
|
Загальної назви немає
|
| Надає більшу вагу неспівпадаючим ознакам
|
Коефіцієнт композиційної подібності
|
| Модифікація коефіцієнта Роджерса-Танімото. Відрізняється включенням співпадіння нульових ознак.
|
Якісні ознаки. найбільш поширеною і простою у випадку якісних ознак є метрика Хеммінга, зміст якої полягає в наступному
![](https://konspekta.net/studopediainfo/baza1/440238744086.files/image266.gif)
відстань Хеммінга розглядають як квадрат евклідової відстані в просторі бінарних змінних, які відповідають категоріям (класам) початкових даних, тобто
, (5)
де
– номер початкової змінної;
– номер категорії (класу);
– число категорій
-ої змінної. Величини
можуть приймати лише значення “1” або “0”.
В найскладнішому для обробки емпіричних даних випадку, коли описи обєктів представлені в одинаково впорядкованій символьній послідовності (символами імен, понять, означень) т.з. “кендалівський ряд кореляції”.
, (8)
де коефіцієнти непарного порівняння між собою всіх компонент опису обєктів задаються відношенням порядку у вигляді:
(9)
для компонент опису першого обєкта; для 2-го аналогічно. Символи
означають природній або попередньо обумовлений порядок слідування порівнюваних між собою компонент опису об’єкта, тобто запис
означає, що
є попереду від
. Якщо в описі в якості символів використовуються цифри, то знак
замінюють на
.
Наприклад, нехай опис деякого об’єкта заданий послідовністю ознак:
, тоді, у відповідності з (9)
![](https://konspekta.net/studopediainfo/baza1/440238744086.files/image295.gif)
В останньому випадку поняття “велике” і “гарне” визначають різні властивості і тому не можуть бути співставленими одна з одною, тобто в цьому сенсі мінімальне значення рівне 0, оскільки це значення відстань Кендала має для об’єктів, описи яких впорядковані одинаково (велике для розмірів, а гарне – для красоти).
Наприклад, у випадку числового опису обєкта
і
є одинаковими і відстань Кендала між ними рівна 0, оскільки
,
і з (8) маємо
.
Вибіркові коефіцієнти зв’язку. В якості таких для побудови класифікації можна використати інформацію про подібність (близькість) об’єктів
та
, яка задається коефіцієнтами зв’язку між об’єктами
та
. Крім коефіцієнта кореляції може бути використаний коефіцієнт
,
де
– коефіцієнт зв’язку між
і
ознаками,
– значення ознаки
в
-го об’єкта. В принципі цей коефіцієнт може бути використаний і тоді, коли значення ознак
і
є довільними числами.