Суть задач класифікації та понижування розмірності
Необхідність аналізу і формалізації задач пов’язаних з порівнянням і класифікацією об’єктів усвідомлювали вчені минулого. Вважають, що найбільшим вкладом Аристотеля в науку була ідея класифікації, основана на подібності і відмінності. Прикладами класифікації є ієрархічна класифікація рослин і видів Адамсона, періодична система елементів Мендєлєєва. Хоча ці автори не володіли сучасним математичним апаратом багатомірного статистичного аналізу, проте основні ідеї і методологічні принципи цього апарату явно або неявно пронизують логіку їх конструкцій. Виділяють 4 генеральні ідеї багатомірного статистичного аналізу на яких базуються всі основні розділи і підходи математичного апарату класифікації та зменшення розмірності.
Ефект суттєвої багатомірності є принципом, суть якого полягає в тому, що висновки, які отримують в результаті аналізу і класифікації множини статистично досліджуваних (за низкою властивостей) об’єктів, повинні опиратися одночасно на сукупність цих взаємозв’язаних властивостей з обов’язковим врахуванням структури і характеру їх зв’язків. Наприклад: Спроба розрізнити 2 типи споживчої поведінки сімей з допомогою критеріїв Стьюдента спочатку за 1 ознакою (питомі витрати на харчування) а потім за 2 (питомі витрати на товари і послуги) не дала результату, в той час, як багатомірний апарат цього критерію оснований на відстані Махаланобіса, який одночасно враховує значення обох згаданих ознак і характер статистичного зв’язку між ними дає правильний результат – виявляє статистично значущу відмінність між двома аналізованими сукупностями сімей.
Можливість лаконічно пояснити природу багатомірних структур, які аналізуються. Суть цього принципу полягає в наступному. Визначимо поняття багатомірної структури. Нехай
де елементи
Максимальне використання навчання при налаштовуванні математичних моделей класифікації та зменшення їх розрядності. Пояснюють цей принцип з допомогою схеми “на вході задачі – на виході задачі”
Якщо дослідник володіє і “входами” і “виходами” задачі, то початкову інформацію називають навчальною і метою дослідження є опис процедур, з допомогою яких при поступленні лише вхідних даних стосовно нового об’єкта, його можна було б з найбільшою (в певному сенсі) точністю віднести до одного з класів (в задачі класифікації) або поділити його значеннями визначальних факторів (в задачі зменшення розмірності). До таких ситуацій відносять задачі медичної діагностики: “входи” – результати обстежень, “виходи” – діагнози. Метою діагнозу є використання “навчання” для вибору з множини результатів невеликого числа найбільш інформативних показників і побудови на їх основі формального діагностуючого правила.
Оптимізаційне формулювання задач класифікації та зменшення розмірності. Суть цього принципу полягає в тому, щоб серед множини можливих методів, які реалізують поставлену мету статистичної обробки даних – розбиття сукупності статистично досліджуваних об’єктів на однорідні класи, перехід від заданого широкого набору ознак
|