Студопедия — РУБРИЦИРОВАНИЕ, ОСНОВАННОЕ НА ЗНАНИЯХ
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

РУБРИЦИРОВАНИЕ, ОСНОВАННОЕ НА ЗНАНИЯХ






 

В этом случае используют заранее сформированные базы знаний, в которых описываются языковые выражения, соответствующие той или иной рубрике, правила выбора рубрик (экспертные системы диагностики и классификации). Наиболее распространены в этом случае семантические и продукционные модели.

В семантической модели знания о предметной области описываются независимо от рубрикатора в специального вида тезаурусе, который связывается с одним или более рубрикаторами гибкой системой отношений. Под тезаурусом понимается иерархическая сеть понятий и отношений между ними. В нем могут быть накоплены разнообразные варианты представления в тексте понятий предметной области (дескрипторов). В качестве вариантов (синонимов или эквивалентов) дескрипторов в тезаурусе встречаются именные и глагольные группы, отдельные существительные, прилагательные или глаголы.

Тезаурус может быть разработан в полуавтоматическом режиме. Например, сначала обрабатывается совокупность документов большого объема при помощи программ морфологического и синтаксического анализа с целью выделения терминоподобных групп слов. Затем выбранные группы слов исследуются экспертами и принимается решение относительно того:

- может ли данная группа слов-терминов быть включена в тезаурус;

- является ли данный термин дескриптором или синонимом другого дескриптора;

- как должны быть описаны отношения данного термина.

Кроме того, в комплекс знаний могут быть также включены дополнительные базы данных по необходимым предметным областям.

Тезаурус и базы данных имеют одну структуру и состоят из следующих частей:

1) дескрипторов (существительное или именная группа), которые соответствуют понятиям или конкретным объектам;

2) совокупности текстовых входов (по каждому дескриптору) или синонимов (существительные, прилагательные или группы существительных). Одно слово может быть синонимом различных дескрипторов. Устранение смысловой неоднозначности производится во время автоматической обработки документа;

3) отношения между дескрипторами внутри каждой базы данных (широкий или узкий термин, связанный термин и т.д.);

4) отношения между дескрипторами различных баз данных. В данном случае добавляется отношение «равенство термина», которое появляется, когда базы данных содержат дескрипторы, соответствующие одному объекту.

Дескриптор D1 находится в дескрипторной среде дескриптора D, если между D1 и D существуют определенное дескрипторное отношение или зависимость. Дескриптор D называют главным дескриптором среды.

Иерархическая организованность тезауруса и наличие тезаурусных связей позволяют использовать понятия среды дескрипторов и главных (опорных) дескрипторов для формирования дескрипторных кустов, применяемых при автоматическом рубрицировании.

Существует два типа представления рубрик последовательностью опорных дескрипторов в виде булевских нормальных форм:

- дизъюнкция опорных дескрипторов – D1Ú D2Ú …Ú Dn;

- коньюнкция дизъюнкций опорных дескрипторов – (D11Ú D12Ú …Ú D1n)& …& (Dm1Ú Dm2Ú …Ú Dmk).

После того как для всех рубрик рубрикатора установлены связи с соответствующими опорными дескрипторами, автоматически определяются рубрики для всех дескрипторов тезауруса. Таким образом, для каждого дескриптора создается список соответствующих рубрик с указанием того, в какую из дизъюнкций рубрики входит данный дескриптор.

Каждая рубрика в данной технологии фиксирует запрос пользователя, который описывается посредством дескрипторов тезауруса. При этом в тезаурусе находится куст дескрипторов, соответствующий данной рубрике, и устанавливается связь между рубрикой и наивысшим дескриптором (опорный дескриптор) в иерархии куста. Одной рубрике может соответствовать несколько опорных дескрипторов.

Развитием данной технологии является описание рубрики на ЕЯ.

Технология автоматического рубрицирования на основе семантической сети позволяет быстро настраиваться на различные рубрикаторы и типы документов, но имеет большую трудоемкость разработки тезауруса.

Рубрицирование на основе продукционной модели основывается на выделенных экспертом из текста заранее концепциях или понятиях. Каждое понятие предметной области описывается экспертом с помощью особой конструкции – определения понятия, объединяющего в себе набор характерных для данного понятия слов и фраз. Определение понятия представляет собой выражение, записанное на специальном языке, позволяющем объединить эти слова и фразы с помощью стандартных булевых функций. В определении понятия при записи слов и фраз допускается использование символов-шаблонов &, * и т.д., что позволяет отказаться от процедуры морфологического анализа, используемой для нормализации лексики документа. Поскольку описание понятий производится экспертом вручную, это в ряде случаев позволяет повысить производительность. В дополнение к этим функциям в языке определения понятий может быть предусмотрена возможность введения концептуальных ограничений, заключающаяся в указании порядка следования слов, расстояния между словами и т.д. Кроме того, фразам в определении понятия могут быть назначены экспертные веса, показывающие, насколько каждая из фраз характерна для данного понятия.

Процесс рубрицирования продукционной модели разбивается на два этапа. Первым из них является выделение понятий из текста, которое можно представить как процесс распознавания, основывающийся на использовании данных из базы определений. Решение о наличии понятий в тексте принимается путем вычисления справедливости выражения, определяющего понятие относительно данного текста. Если выражение справедливо, то считается, что понятие присутствует в тексте. Кроме того, если в определении понятия присутствуют экспертные веса, то вычисляются вес или вероятность появления данного понятия в обрабатываемом тексте с учетом частоты встречаемости фраз в тексте сообщения.

На втором этапе принимается решение о принадлежности текста к конкретной рубрике. Учитывают понятия, выделенные на первом этапе из текста с возможными весами. Решение принимается на основе правил рубрицирования, которые, так же как и определения понятий, формулируются экспертом заранее с использованием языка правил. Пример:

(if

test: (or [australian-dollar-concept]

(and [dollar-concept]

[australia-concept]

(not [us-dollar-concept])

……………………….

…))

action: (assign australian-dollar-category))

 

Совокупность определений и правил рубрицирования составляет базу правил. Процесс рубрицирования по продукционным моделям может быть представлен рисунком 7.2.

 

       
 
   

 

 


           
 
 
   
Понятия
   
 

 

 


       
   
 
 

 








Дата добавления: 2014-11-10; просмотров: 1376. Нарушение авторских прав; Мы поможем в написании вашей работы!



Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

Основные симптомы при заболеваниях органов кровообращения При болезнях органов кровообращения больные могут предъявлять различные жалобы: боли в области сердца и за грудиной, одышка, сердцебиение, перебои в сердце, удушье, отеки, цианоз головная боль, увеличение печени, слабость...

Вопрос 1. Коллективные средства защиты: вентиляция, освещение, защита от шума и вибрации Коллективные средства защиты: вентиляция, освещение, защита от шума и вибрации К коллективным средствам защиты относятся: вентиляция, отопление, освещение, защита от шума и вибрации...

Задержки и неисправности пистолета Макарова 1.Что может произойти при стрельбе из пистолета, если загрязнятся пазы на рамке...

Седалищно-прямокишечная ямка Седалищно-прямокишечная (анальная) ямка, fossa ischiorectalis (ischioanalis) – это парное углубление в области промежности, находящееся по бокам от конечного отдела прямой кишки и седалищных бугров, заполненное жировой клетчаткой, сосудами, нервами и...

Основные структурные физиотерапевтические подразделения Физиотерапевтическое подразделение является одним из структурных подразделений лечебно-профилактического учреждения, которое предназначено для оказания физиотерапевтической помощи...

Почему важны муниципальные выборы? Туристическая фирма оставляет за собой право, в случае причин непреодолимого характера, вносить некоторые изменения в программу тура без уменьшения общего объема и качества услуг, в том числе предоставлять замену отеля на равнозначный...

Studopedia.info - Студопедия - 2014-2024 год . (0.008 сек.) русская версия | украинская версия