Технологія Data Mining
Новою концепцією аналізу корпоративних даних є інтелектуальний аналіз даних Data Mіnіng (з англ. – «видобуток» або «розкопка даних») - технологія виявлення схованих взаємозв'язків усередині великих баз даних. Виникнення цього терміну пов’язане із новим витком розвитку засобів та методів обробки даних. До початку 1990-х років, здавалося, не було особливої потреби переосмислювати ситуацію в цій галузі. Усе йшло належним чином, в рамках напрямку, що мав назву “прикладна статистика”. Теоретики проводили конференції та семінари, писали значні статті та монографії, що рясніли аналітичними викладками. Разом із тим, практики завжди знали, що спроби застосувати теорію для рішення реальних задач, у більшості випадків, виявляються марними. Але на заклопотаність практиків до певного часу можна було не звертати особливої уваги – вони вирішували головним чином свої приватні проблеми обробки невеликих локальних баз даних. Але у зв‘язку із вдосконаленням технологій запису та зберігання даних, на людей навалилися колосальні відвали “інформаційної руди” у найрізноманітніших галузях. Діяльність будь-якого підприємства (комерційного, виробничого, медичного, наукового тощо) тепер супроводжується реєстрацією та записом усіх подробиць його діяльності. І без продуктивної переробки потоки сирих даних утворюють нікому не потрібне звалище. Специфіка сучасних вимог до такої переробки наступна: - дані мають необмежений обсяг; - дані є різнорідними (кількісними, якісними, текстовими); - результати повинні бути конкретними і зрозумілими; - інструменти для обробки сирих даних повинні бути простими у використанні. Традиційна математична статистика, що довгий час претендувала на роль основного інструмента аналізу даних, відверто спасувала перед проблемами, які виникли. Головна причина – концепція усреднення за вибіркою, що призводить до операцій із фіктивними величинами (типу середньої температури пацієнтів у лікарні, середньої висоти будинку на вулиці, яка складається з палаців та халуп і т.п.). Методи математичної статистики виявилися корисними, головним чином, для перевірки заздалегідь сформульованих гіпотез (verification-driven data mining) та для “грубого” розвідувального аналізу, що складає основу оперативного аналітичного оброблення даних (online analytical processing, OLAP). В основу сучасної технології Data Mining (discovery-driven data mining) покладено концепцію шаблонів (паттернів), які відображають фрагменти багатоаспектних взаємовідносин у даних. Ці шаблони є закономірностями, що властиві підвибіркам даних, які можуть бути компактно відображені у зрозумілій для людини формі. Пошук шаблонів здійснюється методами, що не обмежені рамками апріорних припущень щодо структури вибірки та виду розподілу значень аналізованих показників. Приклади задач такого пошуку при використанні Data Mining приведені у табл. 6.1. Таблиця 6.1 – Приклади формулювання задач при використанні методів OLAP і Data Mining
Важливе положення Data Mining – нетривіальність шуканих шаблонів. Це означає, що знайдені шаблони повинні відображати неочевидні, неочікувані (unexpected) регулярності в даних, які складають так звані приховані знання (hidden knowledge). До суспільства прийшло розуміння, що сирі дані (raw data) містять глибинний пласт знань, за умови грамотної “розкопки” котрого можуть бути виявлені справжні самородки. Сферу застосування Data Mining нічим не обмежено – вона всюди, де є будь-які дані. Але, в першу чергу, методи Data Mining сьогодні заінтригували комерційні підприємства, що развертають проекти на основі інформаційних сховищ даних (Data Warehousing). Досвід багатьох таких підприємств показав, що віддача від використання Data Mining може досягати 1000%. Наприклад, надходили повідомлення про економічний ефект, що у 10-70 разів перевищив початкові витрати від 350 до 750 тис. дол. Є відомості про проект у 20 млн. дол., що окупився всього за 4 місяці. Інший приклад – річна економія 700 тис. дол. за рахунок впровадження Data Mining в мережі універсамів у Великій Британії. Data Mining являє собою велику цінність для керівників та аналітиків у їхній повсякденній діяльності. Ділові люди усвідомили, що за допомогою методів Data Mining вони можуть отримати відчутні переваги у конкурентній боротьбі. Технологія Data Mining реалізується в системах штучного інтелекту, до яких відносяться нейронні мережі, генетичні алгоритми та експертні системи.
|