Структура информационно–аналитической системы.
Транзакция – неделимая последовательность действий, которая должна быть осуществлена в рамках информационного процесса. В хранилище данные консолидируются, хранилища содержат ретроспективу. Выполняются операции по очистке данных, проверка на дублирование, на выбросы, замена пропусков. В результате онлайн-анализа реализуется гиперкуб. Оси гиперкуба называются измерениями и содержат номинальные значения переменных, а на пересечении осей формируются факты, т.е. значения некоторых атрибутов, выраженных количественно. Системы бизнес-интеллекта основаны на системах ИИ «инженерия знаний». Задачей является создание аппаратно-программных устройств, которые в определенных условиях генерировали решение не хуже, чем это делает опытный специалист или эксперт в данной предметной области. Для того чтобы это создать необходимо научиться извлекать знания из экспертов, затем их нужно облечь в форму, пригодную для хранения в компьютере (формализация), обработать с помощью языков программирования декларативного типа (Пролог), затем необходимо наполнить систему соответствующими знаниями.
Добыча данных. Методы добычи данных можно разделить на статистические и методы машинного обучения. Статистические: корреляционный, регрессионный, многомерный анализ, который включает факторный, кластерный и дискриминантный анализ. Факторный анализ – в результате решаются 2 задачи: редуцирование факторов (сжатие), структурный анализ данных. Кластерный анализ – в результате объекты предметной области разбиваются на группы по их похожести друг на друга. Дискриминантный анализ – это отнесение объектов к заранее выделенным классам. Машинное обучение – знания формируются путем аналитической обработки данных. Методы: нейронные сети, ассоциативные правила, деревья решений. Нейронные сети. Каждый нейрон формирует некоторый суммарный сигнал. В математической модели искусственного нейрона присутствует функция активации, у которой 0 – пассивное состояние, 1 – активное состояние. Но вместо них используют модифицируемые функции. Нейронные сети имеют следующую структуру: есть вектор входных сигналов, вектор выходов, каждый нейрон связан с нейронами следующего уровня. В основе машинного обучения лежит набор данных, который описывает исследуемые объекты, отражает их свойства и закономерности. Такой набор данных называют обучающей выборкой. Обучающая выборка может быть получена как совокупность наблюдений за исследуемым объектом в прошлом, так и сгенерирована на основе опыта, гипотез или интуиции эксперта. Слово выборка используется в том смысле, что используются не все данные, а лишь некоторое подмножество, наиболее полно отражающее искомые закономерности. Процесс обучения заключается в том, что данные из обучающей выборки последовательно предъявляются модели, в результате чего корректируются её параметры для приобретения необходимых свойств. Обучение является интерактивной процедурой, в которой на каждом шаге в соответствии с правилом (алгоритмом обучения) производится корректировка свойств модели до тех пор, пока оно не придет в состояние, позволяющее выполнять требуемые функции, например, классифицировать объекты предметной области. Можно говорить не о значениях переменных, а о векторе входного воздействия. Если модель работает корректно и выполняет требуемые преобразования, то каждому вектору входных воздействий будет соответствовать определенный вектор-результат. Если же модель находится в начальном состоянии, то вектор результата, сгенерированный путем рандомизации. В процессе обучения модуль вектора приближается к некоторой функциональной зависимости, более или менее адекватной закономерностям объектов предметной области. Для реализации процесса обучения используют обучающий пример. Каждый такой пример содержит заданную реализацию входного воздействия и результат, соответствующий этому воздействию. При формировании обучающей выборки первый вопрос, который возникает, это количество примеров, которое следует использовать. Решение этого вопроса зависит от структуры модели, характера данных, сложности решаемой задачи. Для увеличения числа примеров используются объем ОП. При увеличении числа примеров возрастает погрешность вычислений. Необходимо оценивать репрезентативность – насколько хорошо обучающая выборка отражает закономерности преобразования, которая должна выполнить модель после её обучения. С одной стороны, чем сложнее преобразование, тем большее количество потребуется, с другой, если примеры плохо подобраны, то увеличение числа примеров не будет улучшать адекватность модели, т.е. сама выборка должна удовлетворять определенным критериям качества. В целом набор данных, содержащих обучающую выборку должен содержать закономерности процесса, быть репрезентативным и удовлетворять условиям качества, то есть не содержать дубликатов, противоречий и пропусков. Определяются факторы, влияющие на решение задач, и подбираются примеры, подтверждающие сформулированные им гипотезы и правила. Сформулированное правило должно иметь свойство обобщения. Такой способ используют как правило для решения оригинальных задач. Различают 2 метода: обучение с учителем и без учителя. С учителем: модели предъявляются примеры, состоящие из пар независимых и зависимых переменным, т.е. обучение производится на основании имен, значений, которая должна сформировать модель на своем выходе, при этом коррекция параметров модели может осуществляться на основе ошибок результата, т.е. отклонения полученного значения от предписываемого. Без учителя: настройка параметров модели производится исключительно на основе данных о значениях входных переменных, где выходные значения не используются. Такие модели называют самоорганизующимися. Одним из примеров обучения без учителя является модель кластерного анализа, где количество выделяемых кластеров заранее не определено. Самоорганизующиеся карты Кохонена – классы формируются моделью естественным образом на основании того, насколько близки друг к другу значения признаков объединяемых объектов. Чтобы модель позволяла решать конкретные задачи, она должна обладать свойствами обобщения. Можно выделить 2 ошибки: ошибку обучения и обобщения. Ошибка обобщения проверяется на тестовом подмножестве. Если используются номинальные значения, то тогда невозможно оценить количественную ошибку. В этом случае ошибка вычисляется как отношение количества правильно классифицированных примеров к общему количеству примеров, входящих в обучающую или тестовую выборку. Размер обучающего и тестового подмножества зависит от задачи, так и от располагаемого набора данных. Обучающее подмножество должно содержать количество примеров, достаточного для качественного обучения. Размер тестового подмножества определяется запасом выборки. Если число примеров невелико, то размер тестового подмножества приходится брать небольшим и составляющим 5% от обучающей выборки. Если обучающая выборка велика, то размер тестового подмножества составляет 25–50% обучающего. Использование тестового подмножества позволяет ликвидировать негативные последствия так называемого переобучения модели.
Свойства алгоритма обучения. При выборе алгоритма следует оценивать следующие свойства:
Чем точнее работает алгоритм, тем он сложнее в вычислительном плане. При выборе алгоритма необходимо оценивать его преимущества и недостатки и принимать решение исходя из задачи. Необходимо также учитывать масштабируемость алгоритма, возможность отсечения по времени.
|