Суть задач класифікації та понижування розмірності
Необхідність аналізу і формалізації задач пов’язаних з порівнянням і класифікацією об’єктів усвідомлювали вчені минулого. Вважають, що найбільшим вкладом Аристотеля в науку була ідея класифікації, основана на подібності і відмінності. Прикладами класифікації є ієрархічна класифікація рослин і видів Адамсона, періодична система елементів Мендєлєєва. Хоча ці автори не володіли сучасним математичним апаратом багатомірного статистичного аналізу, проте основні ідеї і методологічні принципи цього апарату явно або неявно пронизують логіку їх конструкцій. Виділяють 4 генеральні ідеї багатомірного статистичного аналізу на яких базуються всі основні розділи і підходи математичного апарату класифікації та зменшення розмірності.
Ефект суттєвої багатомірності є принципом, суть якого полягає в тому, що висновки, які отримують в результаті аналізу і класифікації множини статистично досліджуваних (за низкою властивостей) об’єктів, повинні опиратися одночасно на сукупність цих взаємозв’язаних властивостей з обов’язковим врахуванням структури і характеру їх зв’язків. Наприклад: Спроба розрізнити 2 типи споживчої поведінки сімей з допомогою критеріїв Стьюдента спочатку за 1 ознакою (питомі витрати на харчування) а потім за 2 (питомі витрати на товари і послуги) не дала результату, в той час, як багатомірний апарат цього критерію оснований на відстані Махаланобіса, який одночасно враховує значення обох згаданих ознак і характер статистичного зв’язку між ними дає правильний результат – виявляє статистично значущу відмінність між двома аналізованими сукупностями сімей.
Можливість лаконічно пояснити природу багатомірних структур, які аналізуються. Суть цього принципу полягає в наступному. Визначимо поняття багатомірної структури. Нехай – множина статистично досліджуваних об’єктів. Результати досліджень можуть бути представлені у двох формах. Найбільш поширеною формою є таблиці (матриці) “об’єкт – властивість”, в якій кожен об’єкт є представлений вектором значень , врахованих ознак (властивостей) , зареєстрованих при аналізі і -го об’єкта. Другою формою є матриці (таблиці) – “попарних порівнянь” наступного виду , де елементи - є результатом співставлення об’єктів і в сенсі деякого заданого відношення. Величина може виступати в якості міри подібності або відмінності об’єктів; міри зв’язку або взаємозв’язку між об’єктами в будь-якому процесі; геометричну відстань між двома конкретними об’єктами, відношення надання переваги, наприклад: , якщо і , якщо , тощо. Під лаконічним поясненням природи розуміють апріорне припущення того, що існує порівняно невелике число визначальних факторів, з допомогою яких можна досить точно описати, не лише спостережувані характеристики досліджуваних об’єктів (всі елементи та елементи в матрицях попарних порівнянь) і характер зв’язків між ними, але також і шукану класифікацію самих об’єктів.
Максимальне використання навчання при налаштовуванні математичних моделей класифікації та зменшення їх розрядності. Пояснюють цей принцип з допомогою схеми “на вході задачі – на виході задачі”
Якщо дослідник володіє і “входами” і “виходами” задачі, то початкову інформацію називають навчальною і метою дослідження є опис процедур, з допомогою яких при поступленні лише вхідних даних стосовно нового об’єкта, його можна було б з найбільшою (в певному сенсі) точністю віднести до одного з класів (в задачі класифікації) або поділити його значеннями визначальних факторів (в задачі зменшення розмірності). До таких ситуацій відносять задачі медичної діагностики: “входи” – результати обстежень, “виходи” – діагнози. Метою діагнозу є використання “навчання” для вибору з множини результатів невеликого числа найбільш інформативних показників і побудови на їх основі формального діагностуючого правила.
Оптимізаційне формулювання задач класифікації та зменшення розмірності. Суть цього принципу полягає в тому, щоб серед множини можливих методів, які реалізують поставлену мету статистичної обробки даних – розбиття сукупності статистично досліджуваних об’єктів на однорідні класи, перехід від заданого широкого набору ознак до невеликого числа визначальних факторів – вміти знайти найкращий метод з допомогою оптимізації деякого заданого критерію (функціоналу) якості методу. Вибір конкретного виду цього критерію базується або на апріорному знанні імовірнісної або геометричної природи опрацьовуваних даних, або на міркуваннях змістовного типу (медичного, технічного,...).
|