РУБРИЦИРОВАНИЕ, ОСНОВАННОЕ НА ЗНАНИЯХ
В этом случае используют заранее сформированные базы знаний, в которых описываются языковые выражения, соответствующие той или иной рубрике, правила выбора рубрик (экспертные системы диагностики и классификации). Наиболее распространены в этом случае семантические и продукционные модели. В семантической модели знания о предметной области описываются независимо от рубрикатора в специального вида тезаурусе, который связывается с одним или более рубрикаторами гибкой системой отношений. Под тезаурусом понимается иерархическая сеть понятий и отношений между ними. В нем могут быть накоплены разнообразные варианты представления в тексте понятий предметной области (дескрипторов). В качестве вариантов (синонимов или эквивалентов) дескрипторов в тезаурусе встречаются именные и глагольные группы, отдельные существительные, прилагательные или глаголы. Тезаурус может быть разработан в полуавтоматическом режиме. Например, сначала обрабатывается совокупность документов большого объема при помощи программ морфологического и синтаксического анализа с целью выделения терминоподобных групп слов. Затем выбранные группы слов исследуются экспертами и принимается решение относительно того: - может ли данная группа слов-терминов быть включена в тезаурус; - является ли данный термин дескриптором или синонимом другого дескриптора; - как должны быть описаны отношения данного термина. Кроме того, в комплекс знаний могут быть также включены дополнительные базы данных по необходимым предметным областям. Тезаурус и базы данных имеют одну структуру и состоят из следующих частей: 1) дескрипторов (существительное или именная группа), которые соответствуют понятиям или конкретным объектам; 2) совокупности текстовых входов (по каждому дескриптору) или синонимов (существительные, прилагательные или группы существительных). Одно слово может быть синонимом различных дескрипторов. Устранение смысловой неоднозначности производится во время автоматической обработки документа; 3) отношения между дескрипторами внутри каждой базы данных (широкий или узкий термин, связанный термин и т.д.); 4) отношения между дескрипторами различных баз данных. В данном случае добавляется отношение «равенство термина», которое появляется, когда базы данных содержат дескрипторы, соответствующие одному объекту. Дескриптор D1 находится в дескрипторной среде дескриптора D, если между D1 и D существуют определенное дескрипторное отношение или зависимость. Дескриптор D называют главным дескриптором среды. Иерархическая организованность тезауруса и наличие тезаурусных связей позволяют использовать понятия среды дескрипторов и главных (опорных) дескрипторов для формирования дескрипторных кустов, применяемых при автоматическом рубрицировании. Существует два типа представления рубрик последовательностью опорных дескрипторов в виде булевских нормальных форм: - дизъюнкция опорных дескрипторов – D1Ú D2Ú …Ú Dn; - коньюнкция дизъюнкций опорных дескрипторов – (D11Ú D12Ú …Ú D1n)& …& (Dm1Ú Dm2Ú …Ú Dmk). После того как для всех рубрик рубрикатора установлены связи с соответствующими опорными дескрипторами, автоматически определяются рубрики для всех дескрипторов тезауруса. Таким образом, для каждого дескриптора создается список соответствующих рубрик с указанием того, в какую из дизъюнкций рубрики входит данный дескриптор. Каждая рубрика в данной технологии фиксирует запрос пользователя, который описывается посредством дескрипторов тезауруса. При этом в тезаурусе находится куст дескрипторов, соответствующий данной рубрике, и устанавливается связь между рубрикой и наивысшим дескриптором (опорный дескриптор) в иерархии куста. Одной рубрике может соответствовать несколько опорных дескрипторов. Развитием данной технологии является описание рубрики на ЕЯ. Технология автоматического рубрицирования на основе семантической сети позволяет быстро настраиваться на различные рубрикаторы и типы документов, но имеет большую трудоемкость разработки тезауруса. Рубрицирование на основе продукционной модели основывается на выделенных экспертом из текста заранее концепциях или понятиях. Каждое понятие предметной области описывается экспертом с помощью особой конструкции – определения понятия, объединяющего в себе набор характерных для данного понятия слов и фраз. Определение понятия представляет собой выражение, записанное на специальном языке, позволяющем объединить эти слова и фразы с помощью стандартных булевых функций. В определении понятия при записи слов и фраз допускается использование символов-шаблонов &, * и т.д., что позволяет отказаться от процедуры морфологического анализа, используемой для нормализации лексики документа. Поскольку описание понятий производится экспертом вручную, это в ряде случаев позволяет повысить производительность. В дополнение к этим функциям в языке определения понятий может быть предусмотрена возможность введения концептуальных ограничений, заключающаяся в указании порядка следования слов, расстояния между словами и т.д. Кроме того, фразам в определении понятия могут быть назначены экспертные веса, показывающие, насколько каждая из фраз характерна для данного понятия. Процесс рубрицирования продукционной модели разбивается на два этапа. Первым из них является выделение понятий из текста, которое можно представить как процесс распознавания, основывающийся на использовании данных из базы определений. Решение о наличии понятий в тексте принимается путем вычисления справедливости выражения, определяющего понятие относительно данного текста. Если выражение справедливо, то считается, что понятие присутствует в тексте. Кроме того, если в определении понятия присутствуют экспертные веса, то вычисляются вес или вероятность появления данного понятия в обрабатываемом тексте с учетом частоты встречаемости фраз в тексте сообщения. На втором этапе принимается решение о принадлежности текста к конкретной рубрике. Учитывают понятия, выделенные на первом этапе из текста с возможными весами. Решение принимается на основе правил рубрицирования, которые, так же как и определения понятий, формулируются экспертом заранее с использованием языка правил. Пример: (if test: (or [australian-dollar-concept] (and [dollar-concept] [australia-concept] (not [us-dollar-concept]) ………………………. …)) action: (assign australian-dollar-category))
Совокупность определений и правил рубрицирования составляет базу правил. Процесс рубрицирования по продукционным моделям может быть представлен рисунком 7.2.
|