Студопедия — Технологія Data Mining
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Технологія Data Mining






Новою концепцією аналізу корпоративних даних є інтелектуальний аналіз даних Data Mіnіng (з англ. – «видобуток» або «розкопка даних») - технологія виявлення схованих взаємозв'язків усередині великих баз даних.

Виникнення цього терміну пов’язане із новим витком розвитку засобів та методів обробки даних. До початку 1990-х років, здавалося, не було особливої потреби переосмислювати ситуацію в цій галузі. Усе йшло належним чином, в рамках напрямку, що мав назву “прикладна статистика”. Теоретики проводили конференції та семінари, писали значні статті та монографії, що рясніли аналітичними викладками.

Разом із тим, практики завжди знали, що спроби застосувати теорію для рішення реальних задач, у більшості випадків, виявляються марними. Але на заклопотаність практиків до певного часу можна було не звертати особливої уваги – вони вирішували головним чином свої приватні проблеми обробки невеликих локальних баз даних.

Але у зв‘язку із вдосконаленням технологій запису та зберігання даних, на людей навалилися колосальні відвали “інформаційної руди” у найрізноманітніших галузях. Діяльність будь-якого підприємства (комерційного, виробничого, медичного, наукового тощо) тепер супроводжується реєстрацією та записом усіх подробиць його діяльності. І без продуктивної переробки потоки сирих даних утворюють нікому не потрібне звалище.

Специфіка сучасних вимог до такої переробки наступна:

- дані мають необмежений обсяг;

- дані є різнорідними (кількісними, якісними, текстовими);

- результати повинні бути конкретними і зрозумілими;

- інструменти для обробки сирих даних повинні бути простими у використанні.

Традиційна математична статистика, що довгий час претендувала на роль основного інструмента аналізу даних, відверто спасувала перед проблемами, які виникли. Головна причина – концепція усреднення за вибіркою, що призводить до операцій із фіктивними величинами (типу середньої температури пацієнтів у лікарні, середньої висоти будинку на вулиці, яка складається з палаців та халуп і т.п.). Методи математичної статистики виявилися корисними, головним чином, для перевірки заздалегідь сформульованих гіпотез (verification-driven data mining) та для “грубого” розвідувального аналізу, що складає основу оперативного аналітичного оброблення даних (online analytical processing, OLAP).

В основу сучасної технології Data Mining (discovery-driven data mining) покладено концепцію шаблонів (паттернів), які відображають фрагменти багатоаспектних взаємовідносин у даних. Ці шаблони є закономірностями, що властиві підвибіркам даних, які можуть бути компактно відображені у зрозумілій для людини формі. Пошук шаблонів здійснюється методами, що не обмежені рамками апріорних припущень щодо структури вибірки та виду розподілу значень аналізованих показників. Приклади задач такого пошуку при використанні Data Mining приведені у табл. 6.1.

Таблиця 6.1 – Приклади формулювання задач при використанні методів OLAP і Data Mining

OLAP Data Mining
Які середні показники травматизму для тих, що палять і тих, що не палять? Чи бувають точні шаблони в описах людей, схильних до підвищеного травматизму?
Які середні розміри телефонних рахунків наявних клієнтів (у порівнянні до рахунків колишніх клієнтів, що відмовилися від послуг телефонної компанії)? Чи є характерні портрети клієнтів, які, найімовірніше, збираються відмовитися від послуг телефонної компанії?
Яка середня величина щоденних покупок за викраденою і не викраденою кредитною карткою? Чи існують стереотипні схеми покупок для випадків шахрайства з кредитними картками?

 

Важливе положення Data Mining – нетривіальність шуканих шаблонів. Це означає, що знайдені шаблони повинні відображати неочевидні, неочікувані (unexpected) регулярності в даних, які складають так звані приховані знання (hidden knowledge). До суспільства прийшло розуміння, що сирі дані (raw data) містять глибинний пласт знань, за умови грамотної “розкопки” котрого можуть бути виявлені справжні самородки.

Сферу застосування Data Mining нічим не обмежено – вона всюди, де є будь-які дані. Але, в першу чергу, методи Data Mining сьогодні заінтригували комерційні підприємства, що развертають проекти на основі інформаційних сховищ даних (Data Warehousing). Досвід багатьох таких підприємств показав, що віддача від використання Data Mining може досягати 1000%. Наприклад, надходили повідомлення про економічний ефект, що у 10-70 разів перевищив початкові витрати від 350 до 750 тис. дол. Є відомості про проект у 20 млн. дол., що окупився всього за 4 місяці. Інший приклад – річна економія 700 тис. дол. за рахунок впровадження Data Mining в мережі універсамів у Великій Британії.

Data Mining являє собою велику цінність для керівників та аналітиків у їхній повсякденній діяльності. Ділові люди усвідомили, що за допомогою методів Data Mining вони можуть отримати відчутні переваги у конкурентній боротьбі.

Технологія Data Mining реалізується в системах штучного інтелекту, до яких відносяться нейронні мережі, генетичні алгоритми та експертні системи.







Дата добавления: 2014-12-06; просмотров: 950. Нарушение авторских прав; Мы поможем в написании вашей работы!



Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Патристика и схоластика как этап в средневековой философии Основной задачей теологии является толкование Священного писания, доказательство существования Бога и формулировка догматов Церкви...

Основные симптомы при заболеваниях органов кровообращения При болезнях органов кровообращения больные могут предъявлять различные жалобы: боли в области сердца и за грудиной, одышка, сердцебиение, перебои в сердце, удушье, отеки, цианоз головная боль, увеличение печени, слабость...

Вопрос 1. Коллективные средства защиты: вентиляция, освещение, защита от шума и вибрации Коллективные средства защиты: вентиляция, освещение, защита от шума и вибрации К коллективным средствам защиты относятся: вентиляция, отопление, освещение, защита от шума и вибрации...

Стресс-лимитирующие факторы Поскольку в каждом реализующем факторе общего адаптацион­ного синдрома при бесконтрольном его развитии заложена потенци­альная опасность появления патогенных преобразований...

ТЕОРИЯ ЗАЩИТНЫХ МЕХАНИЗМОВ ЛИЧНОСТИ В современной психологической литературе встречаются различные термины, касающиеся феноменов защиты...

Этические проблемы проведения экспериментов на человеке и животных В настоящее время четко определены новые подходы и требования к биомедицинским исследованиям...

Studopedia.info - Студопедия - 2014-2024 год . (0.012 сек.) русская версия | украинская версия