Студопедия — Интеллектуальный анализ данных. Управление знаниями.
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Интеллектуальный анализ данных. Управление знаниями.






Информационная составляющая играет важную роль в эффективном управлении бизнесом,поэтому способность предприятий обеспечить своих сотрудников всем необходимым для принятия взвешенных решений имеет огромное значение. С серед.90-х гг.стремительно растет интерес компаний к программным продуктам,которые позволяют аналитикам работать с большими объемами данных,накопленными в ERP-,CRM-системах и хранилищах данных, и извлекать из них полезную информацию.Следствием этого стало рождение новых информфционных технологий и инструментов,обеспечивающих безопасный доступ к источникам корпоративных данных и обладающих развитыми возможностями консолидации,анализа, представления данных и распространения готовых документов внутри организации и за ее пределами: витрин данных,обработки произвольных запросов,выпуска отчетов,инстументов OLAP,интеллектуального анализа данных, поиска знаний в БД и т.д. Интеллектуальный анализ данных (ИАД)- общий термин для обозначения анализа данных с активным использованием математических методов и алгоритмов,использующих визуальное представление данных. В общем случае процесс ИАД состоит из 3 стадий:

1) выявление закономерностей, трендов и колебаний (свободный поиск)

2) прогностическое моделирование (использование выявленных закономерностей для предсказания неизвестных значений и прогнозирования развития процессов)

3) анализ исключений для выявления и толкования аномалий в найденных закономерностях.

Иногда выделяют промежуточную стадию проверки достоверности найденных закономерностей между их нахождением и использованием.

Все методы ИАД по принципу работы с исходными данными подразделяются на две группы:

1)методы рассуждений на основе анализа прецедентов (метод ближайшего соседа, к-ближайшего соседа,метод NGE)-исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогнозирования или анализа. Недостатком этой группы является сложность их использования на больших объемах данных.

2) методы выявления и использования формализованных закономерностей,требующие извлечения информации из первичных данных и преобразования ее в некоторые формальные конструкции,вид которых зависит от конкретного метода (метод кросс-табуляции, метод логической индукции (деревья решений и индукция правил), методы вывода уравнений (ряды динамики,корреляционно-регрессионный анализ,нелинейная регрессия, нейронные сети)).

В основу ИАД положены следующие подходы:

Технология Достоинства Недостатки
Правила вывода Удобны,когда данные связаны отношениями,представимыми в виде правил «если-то» При большом количестве правил теряется наглядность; не всегда удается выделить отношения «если-то»
Нейронные сети Удобны при работе с нелинейными зависимостями, зашумленными и неполными данными «черный ящик»:модель не может объяснить выявленные знания;данные обязательно должны быть преобразованы к числовому виду
Нечеткая логика Ранжируют данные по степени близости к желаемым результатам;нечеткий поиск в базах данных Технология новая,поэтому разработано ограниченное число приложений
Визуализация Многомерное графическое представление данных,по которому пользователь сам выявляет закономерности Модели не исполняются,и их интерпретация полностью зависит от аналитика
Статистика Существует множество алгоритмов и опыт их применения в научных и инженерных приложениях Ориентированы, в основном, на проверку гипотез, а не на выявление новых закономерностей в данных
К-ближайший сосед Выявление кластеров,обработка целочисленных источников данных Большие затраты памяти,проблемы с чувствительностью
Интегрированные технологии Возможность выбора подходов,адекватных задачам,или сравнения результатов применения разных подходов Сложность средств поддержки;высокая стоимость; для каждой технологии не всегда реализуется наилучшее решение

Существующие системы ИАД подразделяют на исследовательские,ориентированные на специалистов и предназначенв для работы с новыми типами проблем;прикладные,рассчитанные на аналитиков,менеджеров,технологов и решающие типовые задачи.Если в исследовательских системах важно разнообразие доступных методов обработки данных и гибкость используемых средств,то в прикладных системах целесообразно реализовывать не методы, а типовые виды рассуждений, характерные для проблемной области. Для проведения автоматического анализа данных используются технологии под общим названием Data Mining- технология обнаружения в «сырых»данных ранее неизвестных нетривиальных, практически полезных и доступных интерпретаций знаний,необходимых для принятия решений в различных сферах человеческой деятельности. Решаемые задачи:

-классификация-отнесение объектов к одному из заранее известных классов

-кластеризация-группировка объектов на основе данных,описывающих сущность этих объектов.(чем больше похожи объекты внутри кластера и чем больше отличий между кластерами,чем точнее кластеризация)

-ассоциация-выявление закономерностей между связанными событиями

-последовательные шаблоны-установление закономерностей между связанными во времени событиями

-анализ отклонений-выявление наиболее нехарактерных шаблонов.

Наибольшее распространение получили следующие методы Data Mining: нейронные сети,деревья решений,алгоритмы кластеризации, алгоритмы обнаружения ассоциативных связей между событиями.

Программное обеспечение для реализации технологий Data Mining: Poly Analyst, Scenario, 4Thought, MineSet.

Поиск данных в базах данных определяет последовательность действий,необходимую для получения знаний,а не набор методов обработки, и включает след.этапы:

1)подготовка исходного набора данных-создание набора данных из различных источников,для чего должен обеспечиваться доступ к источникам данных.

2)предобработка данных-удаление пропусков,искажений,аномальных значений.

3)трансформация,нормализация данных-приведение информации к пригодному для последующего анализа виду.

4) Data Mining-применение различных алгоритмов нахождения знаний.

5) постобработка данных-интерпретация результатов и применение полученных знаний в бизнес-приложениях.

В основе концепции OLAP лежит принцип многомерного представления данных. Э.Кодд определил 12 правил, которым должен удовлетворять продукт класса OLAP(многомерное концептуальное представление данных; прозрачность; доступность; устойчивая производительность; клиент-серверная архитектура; равноправие измерений; динамическая обработка разреженных матриц; поддержка многопользовательского режима; неограниченная поддержка кроссмерных операций; интуитивное манипулирование данными; гибкий механизм генерации отчетов; неограниченное количество измерений и уровней агрегации). Все продукты OLAP делятся на классы: MOLAP-системы оперативной аналитической обработки многомерных данных (включают серверный компонент, собственный интегрированный клиентский интерфейс либо используют для связи с пользователем внешние программы работы с электронными таблицами); ROLAP-системы оперативной аналитической обработки реляционных данных (представляют данные в многомерной форме, приспособлены для работы с крупными хранилищами, предусматривают многопользовательский режим работы); HOLAP-гибридные системы (объединяют гибкость и скорость ответа MOLAP с постоянным доступом к реальным данным ROLAP); инструменты генерации запросов и отчетов для настольных ПК (осуществляют выборку данных из исходных источников,преобразуют их и помещают в динамическую многомерную БД). Достоинства использования многомерных БД в системах аналитической обработки: поиск и выборка данных осуществляется быстрее,так как БД денормализована,содержит заранее агрегированные показатели и обеспечивает оптимизированный доступ к запрашиваемым ячейкам; простота включения разнообразных встроенных функций. Недостатки: не позволяет работать с большими БД; уменьшенный объем исходных детализированных данных; неэффективно используют внешнюю память.В большинстве случаев корпоративные хранилища данных реализуются средствами реляционных СУБД, инструменты ROLAP позволяют производить анализ непосредственно над ними.

Под управлением знаниями обычно понимают систематическое приобретение,синтез,обмен и использование опыта для достижения успеха в бизнесе или в управлении компанией. Выделяют два типа знаний: явные (должностные инструкции, регламенты и положения о деятельности подразделений, корпоративные учебные пособия и т.д.) и неявные (носителем их является человек, их нельзя увидеть, сложно задокументировать, передать их можно посредством личного и непосредственного общения; могут содержаться в корпоративном хранилище данных, для их извлечения используются технологии искусственного интеллекта и статистики). Система хранения знаний должна регламентировать доступ персонала к знания, обладать понятной для использования навигацией, обеспечивать эффективный поиск необходимых знаний. Процедуры взаимодействия знаний могут быть реализованы в портале управления знаниями-корпоративный информационный портал для управления взаимодействием на уровне знаний сотрудников организации, рабочих групп и собственно орг-ии. Он обеспечивает поиск, извлечение и представление знаний и предназначен для их использования и сохранения. В зависимости от ориентации на определенную категорию пользователей существуют различные варианты порталов: кадровый,проектного офиса, управления взаимодействия с клиентами.

Система управления содержимым-программный комплекс,который позволяет управлять электронным контентом(массивы текстовых и мультимедиа документов, каталоги и тд. Функции: предоставление авторам удобных и привычных средств создания контента; хранение его в едином репозитории; автоматическое размещение контента на терминале пользователя, управление внешним видом страниц; функции для улучшения формы представления данных. Системы бизнес-интеллекта- класс информационных систем, которые позволяют преобразовать разрозненные и необработанные данные операционной деятельности предприятия в структурированную информацию и знания, используемые для принятия управленческих решений.

BI-инструменты включают корпоративные BI-наборы, предназначенные для генерации запросов и отчетов,и BI-платформы, представляющие собой набор инструментов для создания, внедрения, поддержки и сопровождения BI-приложений, которые содержат встроенные BI-инструменты(OLAP, генераторы запросов и отчетов, визуализация и тд.).Лидерами в разработке корпоративных BI-платформ являются MicroStrategy, Business Objects, Cognos, Microsoft, Oracle, SAR, SAS Institute и др.

 

24. Экспертная система (ЭС): назначение, структура и классификация.

Экономическая система (ЭС, Expert system) — система ис­кусственного интеллекта, включающая знания об опреде­ленной слабо структурированной и трудно формализуемой узкой предметной области и способная предлагать и объяс­нять пользователю разумные решения.

классификация

Назначение: Общего назначения

Специализированные (проблемно-ориентирован­ные для задач диагностики, проектирования, прогнозирования, предметно-ориентированные для специфических задач, например, контроля ситуаций на атомных электростанциях)

Степень зависимости от внешней среды: Статические (независящие от внешней среды) Динамические (учитывающие динамику внеш­ней среды и предназначенные для решения за­дач в реальном времени) Изолированные

Тип использования: ЭС на входе/выходе других систем Гибридные (интегрированные с базами данных и другими программными продуктами) Исследовательские образцы (разработанные за 1—2 месяца с минимальной БЗ)

Стадии создания

Демонстрационные (разработанные за 2—4 ме­сяца на языке типа LISP, PROLOG, CLIPS и др.) Промышленные (разработанные за 4—8 месяцев на языке типа CLIPS с полной БЗ) Коммерческие (разработанные за 1,5—2 года на языке типа С++, Java с полной БЗ)

Структура

База знаний — содержит факты и правила. Факты пред­ставляют собой краткосрочную информацию (они могут из­меняться, например, в ходе консультации). Правила пред­ставляют более долговременную информацию о том, как порождать новые факты или гипотезы из того, что сейчас известно. База знаний активно пополняется новой и недоста­ющей информацией.

Подсистема логического вывода (машина логического вывода), используя исходные данные из рабочей памяти (БД) и базы знаний (БЗ), формирует последовательность пра­вил, которая приводит к решению задачи. Различают пря­мую и обратную цепочки рассуждений. Прямая цепочка — это цепочка, которая ведет от данных к гипотезам, при этом в процессе диалога до получения ответа может быть задано неограниченное количество вопросов. Обратная цепочка рас­суждений является попыткой найти данные для доказа­тельства или опровержения некоторой гипотезы. На практи- 180 ко в чистом виде не встречается ни одна из рассмотренных цопочек рассуждений. Объясняется это неоднозначностью данных, используемых при рассуждениях.

Компонент приобретения знаний (редактор знаний) ав­томатизирует процесс наполнения ЭС знаниями, источни­ком которых является эксперт (группа экспертов).

Объяснительный компонент разъясняет пользователю, как система получила решение задачи (или почему она не по­лучила решение) и какие знания при этом использовала, что повышает доверие пользователя к полученному результату.

Диалоговый компонент (интерфейс пользователя) ориен­тирован на организацию дружественного общения с пользо­вателем в ходе решения задач, в процессе приобретения зна­ний и объяснения результатов работы.

База данных (БД) предназначена для хранения исход­ных и промежуточных данных решаемой в текущий момент задачи.

Статические ЭС используются в приложениях, где можно не учитывать изменения, происходящие за время решения задачи.

25. Система поддержки принятия решений (СППР): назначение, структура и классификация.

СППР- это человеко-машинные системы, которые позволяют лицам, принимающим решения, использовать данные, знания, объективные и субъективные модели для анализа и решения слабоструктуризированных проблем.

СППР обладают следующими основными характеристи­ками:

• используют и данные, и модели;

• помогают менеджерам при решении слабоструктуриро­ванных и неструктурированных з-ч;

• поддерживают, а не заменяют выработку решений ме­неджерами;

• улучшают эффективность решений.

Исследователи по-разному определяют архитектуру СППР, чаще всего выделяются следующие компоненты: система уп­равления данными, система управления моделями, машина знаний, интерфейс пользователя и пользователи.

Процесс принятия решения включает:

1. Сбор данных.

2. Распознавание проблемы.

3. Формулировка концептуальной модели.

4. Формулировка эмпирической модели.

5. Верификация.

6. Анализ.

7. Поиск допустимых решений.

8. Проверка правильности (обоснованности) решения.

9. Генерация решения.

10.Выполнение.

Классификация СППР по уровням

Пользователь­ский:

Пассивные (Помогают процессу принятия реше­ния, не обеспечивают выбор оконча­тельного решения)

Активные (Могут сделать выбор окончательно­го решения)

Кооперативные (Позволяют ЛПР изменять, попол­нять или улучшать решения, пред­лагаемые системой и посылать из­менения в систему для проверки, которая вносит коррективы и по­сылает их ЛПР, процесс продолжа­ется до получения согласованного решения)

Концептуаль­ный:

Управляемые: сообщениями (Поддерживают группу пользовате­лей, работающих над выполнением общей задачи)

данными (Ориентированы на работу с данными, доступ и манипуляцию данными)

документами(Осуществляют поиск и манипули­руют неструктурированной инфор­мацией в различных форматах)

знаниями (Обеспечивают решение задачи в ви­де фактов, правил, процедур)

моделями(Доступ и манипуляция моделями (статистическими, финансовыми, оп­тимизационными, имитационными)

Технический

СППР предприя­тия (Обслуживают многих менеджеров предприятия, подключаются к боль­шим хранилищам информации)

Настольные СППР (Малая система, обслуживающая ло­кального пользователя.

 







Дата добавления: 2015-09-07; просмотров: 2125. Нарушение авторских прав; Мы поможем в написании вашей работы!



Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Понятие о синдроме нарушения бронхиальной проходимости и его клинические проявления Синдром нарушения бронхиальной проходимости (бронхообструктивный синдром) – это патологическое состояние...

Опухоли яичников в детском и подростковом возрасте Опухоли яичников занимают первое место в структуре опухолей половой системы у девочек и встречаются в возрасте 10 – 16 лет и в период полового созревания...

Способы тактических действий при проведении специальных операций Специальные операции проводятся с применением следующих основных тактических способов действий: охрана...

Что такое пропорции? Это соотношение частей целого между собой. Что может являться частями в образе или в луке...

Растягивание костей и хрящей. Данные способы применимы в случае закрытых зон роста. Врачи-хирурги выяснили...

ФАКТОРЫ, ВЛИЯЮЩИЕ НА ИЗНОС ДЕТАЛЕЙ, И МЕТОДЫ СНИЖЕНИИ СКОРОСТИ ИЗНАШИВАНИЯ Кроме названных причин разрушений и износов, знание которых можно использовать в системе технического обслуживания и ремонта машин для повышения их долговечности, немаловажное значение имеют знания о причинах разрушения деталей в результате старения...

Studopedia.info - Студопедия - 2014-2024 год . (0.012 сек.) русская версия | украинская версия