Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Общие принципы и этапы построения ИПТ




Построение тезауруса требует исследования информационной системы, в которой он будет применяться, а также анализа логики знаний тех областей, которые должны найти отражение в тезаурусе, и включает научную разработку классификационных схем понятий. Терминология, используемая в тезаурусе, должна быть полной, однородной и охватывать все основные тематические группы предметной области. В свою очередь, тематические группы могут быть расширены в целях охвата смежных проблем.

Разработка информационно-поискового тезауруса включает следующие этапы:

• сбор массива ЛЕ;

• формирование словника ‑ словаря ключевых слов;

• дескрипторизация словаря;

• установление парадигматических отношений между дескрипторами (построение словарных статей и указателей);

• оформление тезауруса.

Сбор массива лексических единиц

Сбор массива лексических единиц состоит в выявление терминологического фонда из представительного фонда информационных документов, а также предполагает включение терминов из следующих источников:

· тезаурусов по родственной тематике,

· терминологических, энциклопедических, толковых и других словарей и справочников;

· таблиц универсальной десятичной классификации (УДК);

· тематических рубрикаторов;

· библиотечно-библиографической классификации (ББК);

· государственных стандартов и других источников.

 

Критериями количественных и качественных параметров представительного массива документов и словника являются:

· скорость роста массива документов и словника;

· дифференцированность и устойчивость частотных характеристик элементов словника;

· процентное содержание в словнике специальных, общих и смежных терминов;

· вероятность использования элементов словника при индексировании и поиске документов.

Формирование словника

Словник представляет собой простой перечень ключевых слов, которые в ИПС являются поисковыми терминами и используются в поисковых образах документов (ПОД) и поисковых предписаниях (ПП). Важнейшей характеристикой словника является полнота охвата терминологии документов, вводимых в информационно-поисковую систему (ИПС). Существует прямая зависимость работоспособности тезауруса от методики составления словника. Наиболее простой способ представляет собой отбор ключевых слов из заглавий, аннотаций, рефератов и текстов документов.

Отбор ключевых слов из текстов должен выполняться по следующим правилам.

1. Ключевыми словами не являются:

· служебные слова (предлоги, союзы, частицы и т. д.);

· наречия, деепричастия и местоимения,

· редко встречаемые термины;

· часто встречающиеся, но общие термины («метод», «система», «описание», «устройство» и т. п.), их можно использовать в сочетании с другими словами, которые сузили бы их значение;

· термины, не относящиеся к данной терминологической области;

2. В качестве ключевых слов могут выступать:

· существительные, прилагательные, числительные, причастия и их сочетания, глаголы в качестве ключевых слов используются очень редко;

· полисемичные термины могут быть включены только в тех значениях, в которых они употребляются в данной тематической области, с соответствующими пояснениями.

После того как выполнен отбор ключевых слов из текстов, необходимо решить вопрос о способе их представления.Существует два способа решения данного вопроса:

· использовать в качестве ключевых слов — развернутые словосочетания. Например: «коммерческие информационные службы»;

· ориентироваться на ключевые слова — унитермы (отдельные лексические единицы). Например: «оформление», «механика», «логика».

В зависимости от используемого способа представления ключевых слов, будут получены различные словари ключевых слов, а значит и различные дескрипторные языки. Унитермный способ обеспечивает глубокое и детальное индексирование и увеличивает количество точек доступа к разыскиваемым документам. Но существуют понятия, которые не всегда могут быть выражены единичным термином. Разделение на унитермы таких словосочетаний грозит потерей информации при поиске.

Поэтому, ключевые слова, включаемые в словник, формулируют с учетом интересов поиска информации для каждого ключевого слова отдельно и с учетом их лексикографической обработки. В общем случае при разработке тезауруса следует ориентироваться на единичные ключевые слова, сохраняя словосочетания, удовлетворяющие лингвистическим и прагматическим критериям.

Лингвистический критерий ‑ в качестве ключевых слов, представляющие собой словосочетания, рекомендуется использовать устойчивые словосочетания, которые являются цельными лексическими единицами языка и по своим функциям эквивалентны отдельным словам.

Словосочетание является устойчивым, если:

· при его образовании одно из слов изменяет свое значение — происходит переосмысление одного из компонентов словосочетания. Например: «легкая музыка», «легкая промышленность» (переосмысливается прилагательное «легкий»);

· одно из слов употребляется только в единственном или только во множественном числе. Например: «немецкий язык», «европейские языки»;

· имеет один или несколько синонимов. Например: «перспективы» = «будущее» = «перспективы развития» = «тенденции».

· при замене составляющих его слов, изменении порядка слов в нем или при преобразовании прилагательного в существительное с предлогом потеряется его смысл. Например: «железная дорога».

К устойчивым словосочетаниям относят имена собственные или словосочетания, включающие имена собственные. Например: «Латинская Америка», «Таблица Менделеева».

 

На решение о сохранении словосочетаний влияют и прагматические соображения:

· рекомендуется сохранять часто встречающиеся словосочетания;

· рекомендуется сохранять словосочетания, если их компоненты не могут использоваться по отдельности;

· рекомендуется сохранять словосочетания как способ устранения информационного шума.

Дескрипторизация словаря

Дескрипторизация словарязаключается в переводе поисковых образов текстов документов с языка ключевых слов на дескрипторный язык. Процесс дескрипторизации включает нормализацию ключевых слов и установление классов условной эквивалентности.

Нормализация состоит в приведении ключевых слов к унифицированной грамматической форме, являющейся стандартной для информационно-поисковых тезаурусов. Нормализация состоит из следующих действий:

· различные формы глаголов заменяются существительными;

· различные формы прилагательного, используемого в роли отдельного ключевого слова, заменяются формой именительного падежа единственного числа мужского рода;

· различные формы существительного заменяются формой именительного падежа;

· если существительное имеет две формы числа (единственное и множественное), то оно приводится к типовым формам согласно ГОСТ 18383-73;

· словосочетания приводятся в прямой форме (вначале прилагательное, затем существительное, например, «библиотечный каталог»).

 

Установление классов эквивалентности ключевых слов.

Существует два класса эквивалентности ключевых слов: безусловная и условная.

Безусловная эквивалентность может быть представлена:

· лексическими синонимами (существительными и прилагательными). Например: «габарит — размер». В качестве лексических синонимов выступает русский термин и соответствующий ему термин иностранного языка;

· полным наименованием и общепринятым сокращением. Например: «НТИ = научно-техническая информация».

Условная эквивалентность ключевых слов существует только в рамках конкретной ИПС. Условная эквивалентность выражается в следующем: если замена одного ключевого слова в любом тексте документального массива системы другим ключевым словом не влияет на результаты поиска, то такие ключевые слова являются эквивалентными в сфере действия конкретной ИПС.

Условная эквивалентность может быть представлена:

• квазисинонимами ‑ семантически родственными словами, смысловым различием которых можно пренебречь в рамках конкретной ИПС (воздух = атмосфера);

• терминами, выражающими понятия и представления, связанные логическими отношениями и психологическими ассоциациями. Как правило, такие связи представляются в виде парадигматических отношений, но иногда они подменяются отношением эквивалентности. Например: «авиация = самолет»; «алфавит = буква»; «громкоговоритель = радиовещание»; «алюминий = дюраль»; «зарубежная = иностранный»;

• пропусками слов в речи, имеющими хождение в определенной отрасли знания. Например: «машина = электронная вычислительная машина».

Условная эквивалентность ключевых слов является регулярным средством формирования классов условной эквивалентности. Безусловная эквивалентность ключевых слов менее распространена.

В естественном языке часто точное значение слов можно определить только из контекста, в котором они употреблены. Неоднозначность (омонимия) и многозначность (полисемии) слов естественного языка препятствуют достижению соответствия между содержанием документа и средствами выражения этого содержания. Это создает сложности для автоматизированной обработки слов.

Многозначность единичных ключевых слов можно снять путем перевода их в словосочетания. Единичные ключевые слова со значением омонима подвергаются дескрипторизации наряду с другими ключевыми словами, в результате чего происходит расчленение множества ключевых слов на классы условной эквивалентности. В качестве представителя (доминанты) класса в дескрипторном ИПЯ выбирается одно из ключевых слов данного класса. Это слово можно назвать «дескриптором», и оно имеет два значения:

• класс условно эквивалентных (взаимозаменяемых) ключевых слов;

• ключевое слово, являющееся представителем данного класса эквивалентности.

В дескрипторном словаре, представляющем собой алфавитный перечень ключевых слов и дескрипторов, от ключевых слов даются ссылки к соответствующим дескрипторам. Дескрипторы сопровождаются списками условно эквивалентных им ключевых слов, которые уточняют значение дескриптора.

 

Установление парадигматических отношений

Парадигматические (аналитические) отношениявыражают постоянные смысловые связи между лексическими единицами ИПЯ, не зависящие от текста. Парадигматические отношениястабильны для каждой предметной области.

В ИПТ используются следующие парадигматические отношения:

1. родовидовые;

2. отношение синонимии (условной эквивалентности);

3. ассоциативные отношения.

Родовидовые отношения формируются сопоставлением объемов понятий дескрипторов, между ними выявляются отношения подчинения(объем одного понятия целиком включается в объем другого понятия) и пересечения(объемы понятий пересекаются). Логическое отношение подчинения связывает родовое понятие (понятие большого объема) и видовое понятие (понятие меньшего объема).

Родовидовые отношения (выше — ниже, шире — уже) между несколькими дескрипторами обычно представляются в виде иерархического дерева.

Отношение пересечения понятий выражаются через ссылки «см. также». Например:

а) Родовидовые отношения: «Преобразование информации» см. также «Декодирование –Кодирование»

б) Отношение функция (назначение) — предмет (процесс): «Надежность» См. также «Защита»

в) Отношение признак (свойство) — предмет (процесс): «Движение» См. также «Динамика» и т. д.

Родовидовые отношения выражают сильные парадигматические отношения. Отношения пересечения между дескрипторами представлены слабыми парадигматическими отношениями.

 

Ассоциативные отношения можно установить с помощью сопоставления признаков, входящих в определения представленных понятий, и анализа содержания используемой тематической области. Анализ текстов документов по конкретной тематике поможет выявить основную систему ассоциаций.

Основные ассоциативные отношения:

· «целое — часть»,

· «сходство или контраст»,

· «причина — следствие»,

· смежности.

Отношение «целое — часть»(«часть — целое») отражает факт вхождения одного объекта или процесса в состав другого. Например: ВЗУ – CD, DVD, флеш-память.

Отношение сходства существует между предметами (процессами, свойствами), обладающими общими признаками (назначение, форма, функция и т. д.).Например: «картотека — каталог».

Отношение контраста устанавливается в том случае, когда происходит противопоставление объектов, процессов, свойств по критерию отличия, между ними.Например: «хороший — плохой». Ассоциации по контрасту возникают вследствие наличия в языке антонимов (противоположных по значению слов).

Отношение «причинаследствие»— отношение между парой дескрипторов, когда наличие объекта (процесса, свойства), обозначенного одним дескриптором означает наличие объекта (процесса, свойства), обозначенного другим дескриптором.

Такое понимание ассоциации не предполагает разграничения между причиной и следствием и не требует наличия подлинной причинно-следственной связи. К причинно-следственным отношениям можно отнести отношение «функция (назначение) — предмет (процесс)» или «предмет (процесс) — признак (свойство)». Например: «арктика — холод».

Ассоциативная связь между предметами или явлениями, воспринимающимися в непосредственной близости друг к другу в пространстве и во времени, называется отношением смежности.Например: «стол — стул».







Дата добавления: 2015-10-12; просмотров: 834. Нарушение авторских прав; Мы поможем в написании вашей работы!


Рекомендуемые страницы:


Studopedia.info - Студопедия - 2014-2021 год . (0.006 сек.) русская версия | украинская версия