Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Использование словарей в задачах индексирования





Еще при появлении первых ИПС возникли идеи использования в качестве индексов систем автоматически формируемых словарей или подключаемых заранее подготовленных словарных массивов, снабженных рядом дополнительных атрибутов — тезаурусов. В тезаурусах лексическим единицам приписывается пояснительный текст (словарная статья, ссылки на другие слова, описание связей между словами). Содержательно ссылки регламентируют отношения синонимии, противопоставления слов, подчиненность, иерархии прочих отношений. Структура наполнения тезауруса регламентируется стандартами ISO 2788 [Ланде Д.В., с.48], ГОСТ 7.25-80 (для одноязычных тезаурусов) [ГОСТ 7.25-80], ГОСТ 7.24-90 (для многоязычных тезаурусов) [ГОСТ 7.24-90]. При формировании поискового индекса системы с использованием тезауруса, каждое слово из документов, входящих в базу данных ИПС, анализируется на вхождение в тезаурус. Особенно актуально является формирование тематических тезаурусов для специализированных баз данных.

При обработке и анализе ЕЯ-текстов часто используются словари. В работе [Мидоу Ч.] дано определение словарям и представлен обзор словарей. Словарь это нормативный список, который предназначен для выделения вхождения лексических элементов в словарный состав язык, а также написание, употребление и значение лексических элементов. Таким образом, под определение словаря подпадают: тезаурус, классификационная таблица, словарь синонимов, глоссарий. Словари обеспечивают:

1. Устранение многозначности – ликвидация сложностей естественного языка, допускающих синонимы и омографы -

2. Поиск подходящих слов – для облегчения работы индексатора в формулировании поискового предписания

3. Качественный контроль или контроль над ошибками, поскольку будет содержать списки «правильных» слов.

Выделяют следующие типы словарей:

1. Словарь синонимичных пар - для каждой лексической единицы словаря имеется определение из одного термина, одно и тоже определение может быть применено более чем к одной лексической единице.

2. Словарь с многократными связями - для каждой лексической единицы словаря имеется определение из более чем одного термина. Определяющие термины могут быть связаны с определяемым термином любым из нескольких видов отношений.

3. Двуязычный словарь - имеют форму свойственную как словарю синонимичных пар, так и всем другим словарям. Для каждой лексической единицы определяется соответствие другой лексической единицы.

4. Словарь с определениями на естественном языке.

5. Тезаурус - слова группируются по понятиям, к которым они относятся. Имеется два типа лексических единиц: термин снабженный указанием месте, которое содержит это слово в контексте, понятийное слово – определение которого образует базовый контекст, объясняющий отношение терминов к понятию. Понятия упорядочены по иерархическому принципу.

6. Классификационная таблица – словарь дающий определения на естественном языке для кодов иерархической классификации.

7. Таблицы адресов – определение дается в виде символа, указывающего нахождение информации о лексической единице.

В работе [Плешко, ИТ-8-2001] рассматриваются разделение словарей на следующие виды:

1. Онтология – описание или организация того, множества существующих вещей, и определяющих, взаимосвязи вещей. Связи внутри онтологии могут быть многосторонними и сложными.

2. Систематика – вид древовидной онтологии, набор категорий и подкатегорий. Она, проще, чем истинная онтология, и не демонстрирует всего богатства реляционной структуры онтологии.

В [Евгеньев, ИТ-6-2001] рассматриваются теоретические основы применения справочников как онтологий или механизма электронного представления инженерных знаний. В работе предлагается расширение стандартного понимания инженерных онтологий. Предлагается т.н. СПРУТ-технология объединяющая три онтологических компонента: метаонтология, предметная онтология и онтология задач. Представленная модель, построена на базе стандартов IDEF1X, IDEF0. Построенная модель позволяет придерживаться национальных стандартов Российской Федерации. На основе теоретической модели созданы интеллектуальные системы автоматизированного конструирования и проектирования технологических процессов. По заверению автора произошло сокращение трудоемкости создания специализированных прикладных систем в десятки раз по сравнению с традиционными средствами. В работе [Ермаков и Плешко] для реализации синтаксико-семантического поиска предлагается модель словаря управления глаголами. В таком словаре для каждого из глаголов (около 20 тысяч в русском языке) должно быть указано, какими падежами и с какими предлогами он может управлять — т.н. модель управления. Для каждой модели также указывается, в каких семантических ролях (семантических падежах) выступают актанты глагола. Это позволяет более тонко дифференцировать связи. В результате простое предложение текста может быть преобразовано в строку таблицы реляционной базы данных. При этом имя таблицы соответствует предикату (сказуемому), а столбцы — семантическим ролям участников ситуации, описываемой предикатом.

В [Браславский П.И.] рассматривается применение различных справочников (тезаурусов) для решения задач информационного поиска.







Дата добавления: 2015-08-29; просмотров: 320. Нарушение авторских прав; Мы поможем в написании вашей работы!




Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...


Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...


ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...


Теория усилителей. Схема Основная масса современных аналоговых и аналого-цифровых электронных устройств выполняется на специализированных микросхемах...

Задержки и неисправности пистолета Макарова 1.Что может произойти при стрельбе из пистолета, если загрязнятся пазы на рамке...

Вопрос. Отличие деятельности человека от поведения животных главные отличия деятельности человека от активности животных сводятся к следующему: 1...

Расчет концентрации титрованных растворов с помощью поправочного коэффициента При выполнении серийных анализов ГОСТ или ведомственная инструкция обычно предусматривают применение раствора заданной концентрации или заданного титра...

Билиодигестивные анастомозы Показания для наложения билиодигестивных анастомозов: 1. нарушения проходимости терминального отдела холедоха при доброкачественной патологии (стенозы и стриктуры холедоха) 2. опухоли большого дуоденального сосочка...

Сосудистый шов (ручной Карреля, механический шов). Операции при ранениях крупных сосудов 1912 г., Каррель – впервые предложил методику сосудистого шва. Сосудистый шов применяется для восстановления магистрального кровотока при лечении...

Трамадол (Маброн, Плазадол, Трамал, Трамалин) Групповая принадлежность · Наркотический анальгетик со смешанным механизмом действия, агонист опиоидных рецепторов...

Studopedia.info - Студопедия - 2014-2025 год . (0.011 сек.) русская версия | украинская версия