Определение 2.5
Формирование знаний (machine learning) — процесс анализа данных и выявления скрытых закономерностей с использованием специального математического аппарата и программных средств. Традиционно к задачам формирования знаний или машинного обучения относятся задачи прогнозирования, идентификации (синтеза) функций, расшифровки языков, индуктивного вывода и синтеза с дополнительной информацией [Епифанов, 1984]. В широком смысле к обучению по примерам можно отнести и методы обучения распознаванию образов [Аткинсон, 1989; Schwartz, 1988]. Для того чтобы эти методы стали элементами технологии интеллектуальных систем, необходимо решить ряд задач [Осипов, 1997]: Ø обеспечить механизм сопряжения независимо созданных баз данных, имеющих различные схемы, с базами знаний интеллектуальных систем; Ø установить соответствие между набором полей базы данных и множеством элементов декларативного компонента базы знаний; Ø выполнить преобразование результата работы алгоритма обучения в способ представления, поддерживаемый программными средствами интеллектуальной системы. Помимо перечисленных существуют также и другие стратегии получения знаний, например, в случае обучения на примерах (case-based reasoning), когда источник знаний — это множество примеров предметной области [Осипов, 1997; Попов, Фоминых, Кисель, 1996]. Обучение на основе примеров (прецедентов) включает настройку алгоритма распознавания на задачу посредством предъявления примеров, классификация которых известна. Обучение на примерах тесно связано с машинным обучением. Различие заключается в том, что результат обучения в рассматриваемом здесь случае должен быть интерпретирован в некоторой модели, в которой, возможно, уже содержатся факты и закономерности предметной области, и преобразован в способ представления, который допускает использование результата обучения в базе знаний, для моделирования рассуждений, для работы механизма объяснения и т. д., т. е. делает результат обучения элементом соответствующей технологии. Например, в системе INDUCE [Коов и др., 1988] порождается непротиворечивое описание некоторого класса объектов по множествам примеров и контрпримеров данного класса. В качестве языка представления используется язык переменно-значной логики первого порядка (вариант языка многозначной логики первого порядка). В последнее время широкое распространение получили термины data mining и knowledge discovery, означающие, по сути, тот же процесс формирования знаний и поиск закономерностей, осуществляемый на больших выборках данных, обычно находящихся в хранилищах данных (data warehouse). Таким образом, можно выделить три основных стратегии проведения стадии получения знаний при разработке ЭС (рис. 2.6): Ø с использованием ЭВМ при наличии подходящего программного инструментария — приобретение знаний', Ø с использованием программ обучения при наличии репрезентативной (т. е. достаточно представительной) выборки примеров принятия решений в предметной области и соответствующих пакетов прикладных программ —- формирование знаний; Ø без использования вычислительной техники путем непосредственного контакта инженера по знаниям и источника знаний (будь то эксперт, специальная литература или другие источники) — извлечение знаний.
Рис. 2.6. Стратегии получения знаний Далее в этой главе подробно будут рассматриваться процессы извлечения знаний, т. к. на современном этапе разработки ЭС эти стратегии являются наиболее эффективными и перспективными. Формирование знаний, тяготеющее в большей степени к области machine learning, т. е. индуктивному обучению, основываясь на хорошо исследованном аппарате распознавания образов [Гаек, Гавранек, 1983] и обнаружения сходства объектов [Гусакова, Финн, 1987], выходит за рамки данной книги. Также за рамками книги остались вопросы приобретения знаний [Осипов, 1997] и формирования знаний из данных (data mining, knowledge discovery) и др.
|