Міри подібності (близькості) кількісних та якісних ознак

⇐ Предыдущая 2 3 4 5 678 9 10 11 Следующая ⇒

Введення формального визначення подібності (близькості) між об’єктами – елементами деякої множини , означає, що на ній задана деяка топологія, завдяки чому простір описів перетворюється в топологічний простір. Існує багато різних способів задання топології в просторі ознак.

Досить широкий клас алгоритмів є оснований на тому, що топологія задається деякою мірою подібності. При цьому будь-яка міра подібності є функцією, яка ставить у відповідність кожній парі точок деяке число , яке характеризує ступінь подібності (близькості) між об’єктами та .

Міри подібності, які використовуються на практиці відрізняються великим різноманіттям властивостей, проте можна сформулювати загальні вимоги, яким повинна задовольняти використовувана міра подібності, тобто:

Переважно використовують три типи мір подібності:

1) коефіцієнти подібності (або квантифіковані коефіцієнти зв’язку);

2) коефіцієнти зв’язку (кореляції);

3) показники відстані в метричному просторі.

Коефіцієнти подібності. Будь-який вектор , елементи якого дійсні цілі числа – номера градацій відповідних ознак, завжди можна записати в двійковому коді. Тоді, можемо вважати, що будь-який об’єкт описується вектором , кожна з компонент якого приймає значення 0 або 1, тобто ознака є булавою. Для побудови вимірювачів подібності між об’єктами та введемо наступні позначення частот: – число співпадаючих одиничних ознак у обох об’єктів (пар 1, 1); – число співпадаючих нульових ознак в обох об’єктів (пар 0, 0); – число співпадаючих одиничних ознак в -го і нульових в -го об’єктів (пар 1, 0); – число співпадаючих нульових ознак в -го і одиничних в -го об’єктів (пар 0, 1); , – число одиничних ознак в -го і в -го об’єктів відповідно; , – число нульових ознак в -го і в -го об’єктів відповідно; – загальне число співпадаючих ознак, тобто ; – загальне число неспівпадаючих ознак, тобто ; – загальне число ознак, за якими здійснюється порівняння.

Ці показники називаються коефіцієнтами подібності і позначаються переважно . В даному випадку .

Коефіцієнти подібності можуть бути побудовані не лише тільки для булевих вектор-описів об’єктів. У випадку кількісних ознак, які приймають скінчену множину числових значень поступають наступним чином.

Нехай є значенням -ої ознаки -го об’єкта. Очевидним чином визначаються величини , . Величина визначається як максимальне значення -ої ознаки. Далі для пари об’єктів, які характеризуються цими ознаками, вводяться величини, аналогічні розглянутим вище, а саме:

і т.д. ці нові величини використовуються у виразах для коефіцієнтів подібності замість аналогічних величин, які розраховуються для бінарних ознак. Очевидно, що різні коефіцієнти подібності, будучи розрахованими для одних і тих же об’єктів та , будуть різними за величиною. Вибір того чи іншого коефіцієнта визначається характером розв’язуваної задачі (відносною важливістю нульових і одиничних ознак, важливістю порозрядного співпадіння або неспівпадіння) і досить суб’єктивним. Наприклад, в задачах класифікації, які розв’язуються з метою побудови системи автоматичної діагностики в медицині або техніці, можлива ситуація, коли наявність відхилення від норми того чи іншого параметра (ознаки) позначається символом “ 1 “, а відсутність цього ефекту – “ 0 “. Зрозуміло, що в одну групу необхідно об’єднати об’єкти з відхиленнями, а в другу – нормальні об’єкти. Для підсилення контрастності об’єктів при порівнянні в даному випадку краще скористатися коефіцієнтом Дейка, ніж звичайним відношенням числа співпадаючих ознак до їх загального числа, – коефіцієнтом, який використовується при припущенні про рівнозначність нульових і одиничних ознак.

До найбільш вживаних вимірювачів подібності відносять наступні, які для зручності і наочності зведені в таблицю.

Назва	Формула	Примітка
Загальноприйнятої назви немає		Застосовується в тих випадках, припускається “рівноважливість” нульових та одиничних ознак
Коефіцієнт Рао
Коефіцієнт Хаммана		При
Коефіцієнт Роджерса і Танімото
Коефіцієнт Джекарда
Коефіцієнт Дейка		Надає вдвічі більшу вагу співпадаючим одиничним ознакам
Загальної назви немає		Надає більшу вагу неспівпадаючим ознакам
Коефіцієнт композиційної подібності		Модифікація коефіцієнта Роджерса-Танімото. Відрізняється включенням співпадіння нульових ознак.

Якісні ознаки. найбільш поширеною і простою у випадку якісних ознак є метрика Хеммінга, зміст якої полягає в наступному

відстань Хеммінга розглядають як квадрат евклідової відстані в просторі бінарних змінних, які відповідають категоріям (класам) початкових даних, тобто

, (5)

де – номер початкової змінної; – номер категорії (класу); – число категорій -ої змінної. Величини можуть приймати лише значення “1” або “0”.

В найскладнішому для обробки емпіричних даних випадку, коли описи обєктів представлені в одинаково впорядкованій символьній послідовності (символами імен, понять, означень) т.з. “кендалівський ряд кореляції”.

, (8)

де коефіцієнти непарного порівняння між собою всіх компонент опису обєктів задаються відношенням порядку у вигляді:

(9)

для компонент опису першого обєкта; для 2-го аналогічно. Символи означають природній або попередньо обумовлений порядок слідування порівнюваних між собою компонент опису об’єкта, тобто запис означає, що є попереду від . Якщо в описі в якості символів використовуються цифри, то знак замінюють на .

Наприклад, нехай опис деякого об’єкта заданий послідовністю ознак: , тоді, у відповідності з (9)

В останньому випадку поняття “велике” і “гарне” визначають різні властивості і тому не можуть бути співставленими одна з одною, тобто в цьому сенсі мінімальне значення рівне 0, оскільки це значення відстань Кендала має для об’єктів, описи яких впорядковані одинаково (велике для розмірів, а гарне – для красоти).

Наприклад, у випадку числового опису обєкта і є одинаковими і відстань Кендала між ними рівна 0, оскільки , і з (8) маємо .

Вибіркові коефіцієнти зв’язку. В якості таких для побудови класифікації можна використати інформацію про подібність (близькість) об’єктів та , яка задається коефіцієнтами зв’язку між об’єктами та . Крім коефіцієнта кореляції може бути використаний коефіцієнт

де – коефіцієнт зв’язку між і ознаками, – значення ознаки в -го об’єкта. В принципі цей коефіцієнт може бути використаний і тоді, коли значення ознак і є довільними числами.

⇐ Предыдущая 2 3 4 5 678 9 10 11 Следующая ⇒

Дата добавления: 2014-11-10; просмотров: 2126. Нарушение авторских прав; Мы поможем в написании вашей работы!

Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...

Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Лечебно-охранительный режим, его элементы и значение. Терапевтическое воздействие на пациента подразумевает не только использование всех видов лечения, но и применение лечебно-охранительного режима – соблюдение условий поведения, способствующих выздоровлению...

Тема: Кинематика поступательного и вращательного движения. 1. Твердое тело начинает вращаться вокруг оси Z с угловой скоростью, проекция которой изменяется со временем 1. Твердое тело начинает вращаться вокруг оси Z с угловой скоростью...

Условия приобретения статуса индивидуального предпринимателя. В соответствии с п. 1 ст. 23 ГК РФ гражданин вправе заниматься предпринимательской деятельностью без образования юридического лица с момента государственной регистрации в качестве индивидуального предпринимателя. Каковы же условия такой регистрации и...

Принципы резекции желудка по типу Бильрот 1, Бильрот 2; операция Гофмейстера-Финстерера. Гастрэктомия Резекция желудка – удаление части желудка: а) дистальная – удаляют 2/3 желудка б) проксимальная – удаляют 95% желудка. Показания...

Ваготомия. Дренирующие операции Ваготомия – денервация зон желудка, секретирующих соляную кислоту, путем пересечения блуждающих нервов или их ветвей...

Билиодигестивные анастомозы Показания для наложения билиодигестивных анастомозов: 1. нарушения проходимости терминального отдела холедоха при доброкачественной патологии (стенозы и стриктуры холедоха) 2. опухоли большого дуоденального сосочка...

Studopedia.info - Студопедия - 2014-2025 год . (0.008 сек.) русская версия | украинская версия