Міри подібності (близькості) кількісних та якісних ознак
Введення формального визначення подібності (близькості) між об’єктами – елементами деякої множини , означає, що на ній задана деяка топологія, завдяки чому простір описів перетворюється в топологічний простір. Існує багато різних способів задання топології в просторі ознак. Досить широкий клас алгоритмів є оснований на тому, що топологія задається деякою мірою подібності. При цьому будь-яка міра подібності є функцією, яка ставить у відповідність кожній парі точок деяке число , яке характеризує ступінь подібності (близькості) між об’єктами та . Міри подібності, які використовуються на практиці відрізняються великим різноманіттям властивостей, проте можна сформулювати загальні вимоги, яким повинна задовольняти використовувана міра подібності, тобто: . Переважно використовують три типи мір подібності: 1) коефіцієнти подібності (або квантифіковані коефіцієнти зв’язку); 2) коефіцієнти зв’язку (кореляції); 3) показники відстані в метричному просторі. Коефіцієнти подібності. Будь-який вектор , елементи якого дійсні цілі числа – номера градацій відповідних ознак, завжди можна записати в двійковому коді. Тоді, можемо вважати, що будь-який об’єкт описується вектором , кожна з компонент якого приймає значення 0 або 1, тобто ознака є булавою. Для побудови вимірювачів подібності між об’єктами та введемо наступні позначення частот: – число співпадаючих одиничних ознак у обох об’єктів (пар 1, 1); – число співпадаючих нульових ознак в обох об’єктів (пар 0, 0); – число співпадаючих одиничних ознак в -го і нульових в -го об’єктів (пар 1, 0); – число співпадаючих нульових ознак в -го і одиничних в -го об’єктів (пар 0, 1); , – число одиничних ознак в -го і в -го об’єктів відповідно; , – число нульових ознак в -го і в -го об’єктів відповідно; – загальне число співпадаючих ознак, тобто ; – загальне число неспівпадаючих ознак, тобто ; – загальне число ознак, за якими здійснюється порівняння. Ці показники називаються коефіцієнтами подібності і позначаються переважно . В даному випадку . Коефіцієнти подібності можуть бути побудовані не лише тільки для булевих вектор-описів об’єктів. У випадку кількісних ознак, які приймають скінчену множину числових значень поступають наступним чином. Нехай є значенням -ої ознаки -го об’єкта. Очевидним чином визначаються величини , . Величина визначається як максимальне значення -ої ознаки. Далі для пари об’єктів, які характеризуються цими ознаками, вводяться величини, аналогічні розглянутим вище, а саме:
і т.д. ці нові величини використовуються у виразах для коефіцієнтів подібності замість аналогічних величин, які розраховуються для бінарних ознак. Очевидно, що різні коефіцієнти подібності, будучи розрахованими для одних і тих же об’єктів та , будуть різними за величиною. Вибір того чи іншого коефіцієнта визначається характером розв’язуваної задачі (відносною важливістю нульових і одиничних ознак, важливістю порозрядного співпадіння або неспівпадіння) і досить суб’єктивним. Наприклад, в задачах класифікації, які розв’язуються з метою побудови системи автоматичної діагностики в медицині або техніці, можлива ситуація, коли наявність відхилення від норми того чи іншого параметра (ознаки) позначається символом “ 1 “, а відсутність цього ефекту – “ 0 “. Зрозуміло, що в одну групу необхідно об’єднати об’єкти з відхиленнями, а в другу – нормальні об’єкти. Для підсилення контрастності об’єктів при порівнянні в даному випадку краще скористатися коефіцієнтом Дейка, ніж звичайним відношенням числа співпадаючих ознак до їх загального числа, – коефіцієнтом, який використовується при припущенні про рівнозначність нульових і одиничних ознак. До найбільш вживаних вимірювачів подібності відносять наступні, які для зручності і наочності зведені в таблицю.
Якісні ознаки. найбільш поширеною і простою у випадку якісних ознак є метрика Хеммінга, зміст якої полягає в наступному відстань Хеммінга розглядають як квадрат евклідової відстані в просторі бінарних змінних, які відповідають категоріям (класам) початкових даних, тобто , (5) де – номер початкової змінної; – номер категорії (класу); – число категорій -ої змінної. Величини можуть приймати лише значення “1” або “0”. В найскладнішому для обробки емпіричних даних випадку, коли описи обєктів представлені в одинаково впорядкованій символьній послідовності (символами імен, понять, означень) т.з. “кендалівський ряд кореляції”. , (8) де коефіцієнти непарного порівняння між собою всіх компонент опису обєктів задаються відношенням порядку у вигляді: (9) для компонент опису першого обєкта; для 2-го аналогічно. Символи означають природній або попередньо обумовлений порядок слідування порівнюваних між собою компонент опису об’єкта, тобто запис означає, що є попереду від . Якщо в описі в якості символів використовуються цифри, то знак замінюють на . Наприклад, нехай опис деякого об’єкта заданий послідовністю ознак: , тоді, у відповідності з (9)
В останньому випадку поняття “велике” і “гарне” визначають різні властивості і тому не можуть бути співставленими одна з одною, тобто в цьому сенсі мінімальне значення рівне 0, оскільки це значення відстань Кендала має для об’єктів, описи яких впорядковані одинаково (велике для розмірів, а гарне – для красоти). Наприклад, у випадку числового опису обєкта і є одинаковими і відстань Кендала між ними рівна 0, оскільки , і з (8) маємо . Вибіркові коефіцієнти зв’язку. В якості таких для побудови класифікації можна використати інформацію про подібність (близькість) об’єктів та , яка задається коефіцієнтами зв’язку між об’єктами та . Крім коефіцієнта кореляції може бути використаний коефіцієнт , де – коефіцієнт зв’язку між і ознаками, – значення ознаки в -го об’єкта. В принципі цей коефіцієнт може бути використаний і тоді, коли значення ознак і є довільними числами.
|