Студопедия — Data Mining иText Mining
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Data Mining иText Mining






Средства интеллектуального анализа (DMg)

Предназначены для фундаментального аналитического исследования проблем в той или иной предметной области. Требования ко времени менее жесткие, чем в OLAP-средствах.

DMg наиболее сложная, интеллектуально насыщенная часть ИАС, поэтому входят в состав наиболее развитых ИАС.

Причины популярности Data Mining

Стремительное накопление данных

Всеобщая компьютеризация бизнес процессов

Рост научных данных (Tbytes/день)

Интернет и WEB

Технологический прогресс: стремительный рост производительности компьютеров, объемов накопителей, совершенствование СУБД, Хранилищ данных

Задачи:

выявление взаимозависимостей, причинноследственных связей, ассоциаций и аналогий;

определение значений факторов времени, локализация событий или явлений по месту;

классификация событий и ситуаций, определение профилей различных факторов;

прогнозирование хода процессов, событий.

При решении сложных аналитических задач используются мощные специальные программные средства, инструменты

Data Mining

Разработаны для поиска и выявления в данных скрытых связей и взаимозависимостей с целью предоставления их руководителю в процессе принятия решений

Методы:

Статистические методы корреляции

Оптимизации

Позволяющие находить зависимости и синтезировать обобщающую информацию

Возможности Data Mining

Поиск зависимых данных

Выявление устойчивых бизнес-групп

Ранжирование важности измерений при классификации объектов для проведения анализа

Прогнозирование бизнес-показателей

Оценка влияния принимаемых решений на достижение успеха предприятия

Поиск аномалий

От данных к решениям

Области применения Data Mining

Области применения Data Mining

Автономные программные системы

Специализированные системы

PolyAnalyst (российская фирма Megaputer)

SAS (фирма SAS Institute Inc., США)

Модуль Miner в составе пакета OLAP -анализа Business Objects

Система PolyAnalyst

Одна из самых мощных Data Mining систем, разработанных для Intel платформ

Сочетание высокой производительности и богатой функциональности с относительно низкой по сравнению с аналогичными системами стоимостью

PolyAnalyst

извлечение знаний в больших массивах данных;

автоматическое построение и тестирование формул, описывающих функциональные зависимости;

составление классификационных правил по заданным примерам;

формирование многомерных кластеров;

алгоритмы решений.

Удобный пользовательский интерфейс

PolyAnalyst

PolyAnalyst Lite, PolyAnalyst Power – программные модули для индивидуальных пользователей и малого бизнеса;

PolyAnalyst Professional для MS Windows NT — мощная система интеллектуального анализа для профессионалов;

PolyAnalyst Knowledge server — клиент-серверная версия предназначена для работы на высокопроизводительных платформах, обеспечивает доступ к SQL-СУБД (Оrасlе, DВ-2, Informix, MS SQL-Server и др.) и к ОLАР-системам.

Архитектура СОМ

Открытый программный интерфейс для создания собственных приложений Data Mining

Доступность из самых разных систем программирования:

Visual Basic for Applications

Visual C++

Автоматизация обработки данных

Поддержка OLE DB DM

Открытый программный интерфейс для работы с большими объемами данных

Возможность анализа больших объемов данных непосредственно на сервере базы данных

Доступ к данным

Текстовые файлы

Файлы Microsoft Excel

Объекты баз данных (таблицы, выражения SQL) через ODBC

Проекты SAS

Business View из IBM Visual Warehouse

Многомерные кубы Oracle Express

Платформы

Microsoft Windows NT/2000

Microsoft Windows 95/98

Архитектура client/server

SAS

SAS/ETS - реализует методы анализа временных рядов, экономического системного моделирования и прогнозирования, финансового анализа и формирования отчетов. Производит восстановление пропущенных значений методом интерполяции, изменение временной привязки временного ряда, выделение сезонного компонента во временны рядах, построение трендов;

SAS/STA - модуль использует статистические методы регрессионного, дисперсионного анализа, нелинейного моделирования, анализа категориальных данных, многомерного, в т. ч. факторного анализа, кластерного и непараметрического анализа;

SAS

SAS/INSIGHT - модуль представляет собой динамическое средство для исследования и анализа данных, использует методы статистического исследования одномерных и многомерных данных;

SAS/IML - модуль, реализующий поддержку интерактивного матричного языка программирования, оперирующего с матрицами данных, которые могут быть числовыми и символьными;

SAS/OR - модуль, представляющий собой инструмент моделирования анализа, решения задач исследования операций, управления проектами

Задачи Text Mining

Аннотировать документы

Осуществлять навигацию в больших базах текстов;

Осуществлять поиск информации на естественном языке

Автоматически распределять документы по заранее определенным рубрикам

Структурировать большие неструктурированные хранилища документов

Находить взаимосвязи между ключевыми понятиями текстов

Распознавать в текстах, формализовывать факты и утверждения заданного вида и заполнять ими базу знаний

Интеллектуализировать поиск в Интернет/Интранет

Продукты TextAnalyst

Локальный TextAnalyst 2.0

TextAnalyst COM – средство разработки приложений Text Mining

TextAnalyst для MS IE

Поддержка русского и английского языков







Дата добавления: 2015-03-11; просмотров: 532. Нарушение авторских прав; Мы поможем в написании вашей работы!



Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...

Билет №7 (1 вопрос) Язык как средство общения и форма существования национальной культуры. Русский литературный язык как нормированная и обработанная форма общенародного языка Важнейшая функция языка - коммуникативная функция, т.е. функция общения Язык представлен в двух своих разновидностях...

Патристика и схоластика как этап в средневековой философии Основной задачей теологии является толкование Священного писания, доказательство существования Бога и формулировка догматов Церкви...

Основные симптомы при заболеваниях органов кровообращения При болезнях органов кровообращения больные могут предъявлять различные жалобы: боли в области сердца и за грудиной, одышка, сердцебиение, перебои в сердце, удушье, отеки, цианоз головная боль, увеличение печени, слабость...

Условия, необходимые для появления жизни История жизни и история Земли неотделимы друг от друга, так как именно в процессах развития нашей планеты как космического тела закладывались определенные физические и химические условия, необходимые для появления и развития жизни...

Метод архитекторов Этот метод является наиболее часто используемым и может применяться в трех модификациях: способ с двумя точками схода, способ с одной точкой схода, способ вертикальной плоскости и опущенного плана...

Примеры задач для самостоятельного решения. 1.Спрос и предложение на обеды в студенческой столовой описываются уравнениями: QD = 2400 – 100P; QS = 1000 + 250P   1.Спрос и предложение на обеды в студенческой столовой описываются уравнениями: QD = 2400 – 100P; QS = 1000 + 250P...

Studopedia.info - Студопедия - 2014-2024 год . (0.007 сек.) русская версия | украинская версия