Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Использование словарей в задачах индексирования





Еще при появлении первых ИПС возникли идеи использования в качестве индексов систем автоматически формируемых словарей или подключаемых заранее подготовленных словарных массивов, снабженных рядом дополнительных атрибутов — тезаурусов. В тезаурусах лексическим единицам приписывается пояснительный текст (словарная статья, ссылки на другие слова, описание связей между словами). Содержательно ссылки регламентируют отношения синонимии, противопоставления слов, подчиненность, иерархии прочих отношений. Структура наполнения тезауруса регламентируется стандартами ISO 2788 [Ланде Д.В., с.48], ГОСТ 7.25-80 (для одноязычных тезаурусов) [ГОСТ 7.25-80], ГОСТ 7.24-90 (для многоязычных тезаурусов) [ГОСТ 7.24-90]. При формировании поискового индекса системы с использованием тезауруса, каждое слово из документов, входящих в базу данных ИПС, анализируется на вхождение в тезаурус. Особенно актуально является формирование тематических тезаурусов для специализированных баз данных.

При обработке и анализе ЕЯ-текстов часто используются словари. В работе [Мидоу Ч.] дано определение словарям и представлен обзор словарей. Словарь это нормативный список, который предназначен для выделения вхождения лексических элементов в словарный состав язык, а также написание, употребление и значение лексических элементов. Таким образом, под определение словаря подпадают: тезаурус, классификационная таблица, словарь синонимов, глоссарий. Словари обеспечивают:

1. Устранение многозначности – ликвидация сложностей естественного языка, допускающих синонимы и омографы -

2. Поиск подходящих слов – для облегчения работы индексатора в формулировании поискового предписания

3. Качественный контроль или контроль над ошибками, поскольку будет содержать списки «правильных» слов.

Выделяют следующие типы словарей:

1. Словарь синонимичных пар - для каждой лексической единицы словаря имеется определение из одного термина, одно и тоже определение может быть применено более чем к одной лексической единице.

2. Словарь с многократными связями - для каждой лексической единицы словаря имеется определение из более чем одного термина. Определяющие термины могут быть связаны с определяемым термином любым из нескольких видов отношений.

3. Двуязычный словарь - имеют форму свойственную как словарю синонимичных пар, так и всем другим словарям. Для каждой лексической единицы определяется соответствие другой лексической единицы.

4. Словарь с определениями на естественном языке.

5. Тезаурус - слова группируются по понятиям, к которым они относятся. Имеется два типа лексических единиц: термин снабженный указанием месте, которое содержит это слово в контексте, понятийное слово – определение которого образует базовый контекст, объясняющий отношение терминов к понятию. Понятия упорядочены по иерархическому принципу.

6. Классификационная таблица – словарь дающий определения на естественном языке для кодов иерархической классификации.

7. Таблицы адресов – определение дается в виде символа, указывающего нахождение информации о лексической единице.

В работе [Плешко, ИТ-8-2001] рассматриваются разделение словарей на следующие виды:

1. Онтология – описание или организация того, множества существующих вещей, и определяющих, взаимосвязи вещей. Связи внутри онтологии могут быть многосторонними и сложными.

2. Систематика – вид древовидной онтологии, набор категорий и подкатегорий. Она, проще, чем истинная онтология, и не демонстрирует всего богатства реляционной структуры онтологии.

В [Евгеньев, ИТ-6-2001] рассматриваются теоретические основы применения справочников как онтологий или механизма электронного представления инженерных знаний. В работе предлагается расширение стандартного понимания инженерных онтологий. Предлагается т.н. СПРУТ-технология объединяющая три онтологических компонента: метаонтология, предметная онтология и онтология задач. Представленная модель, построена на базе стандартов IDEF1X, IDEF0. Построенная модель позволяет придерживаться национальных стандартов Российской Федерации. На основе теоретической модели созданы интеллектуальные системы автоматизированного конструирования и проектирования технологических процессов. По заверению автора произошло сокращение трудоемкости создания специализированных прикладных систем в десятки раз по сравнению с традиционными средствами. В работе [Ермаков и Плешко] для реализации синтаксико-семантического поиска предлагается модель словаря управления глаголами. В таком словаре для каждого из глаголов (около 20 тысяч в русском языке) должно быть указано, какими падежами и с какими предлогами он может управлять — т.н. модель управления. Для каждой модели также указывается, в каких семантических ролях (семантических падежах) выступают актанты глагола. Это позволяет более тонко дифференцировать связи. В результате простое предложение текста может быть преобразовано в строку таблицы реляционной базы данных. При этом имя таблицы соответствует предикату (сказуемому), а столбцы — семантическим ролям участников ситуации, описываемой предикатом.

В [Браславский П.И.] рассматривается применение различных справочников (тезаурусов) для решения задач информационного поиска.







Дата добавления: 2015-08-29; просмотров: 320. Нарушение авторских прав; Мы поможем в написании вашей работы!




Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...


Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...


ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...


Теория усилителей. Схема Основная масса современных аналоговых и аналого-цифровых электронных устройств выполняется на специализированных микросхемах...

Приложение Г: Особенности заполнение справки формы ву-45   После выполнения полного опробования тормозов, а так же после сокращенного, если предварительно на станции было произведено полное опробование тормозов состава от стационарной установки с автоматической регистрацией параметров или без...

Измерение следующих дефектов: ползун, выщербина, неравномерный прокат, равномерный прокат, кольцевая выработка, откол обода колеса, тонкий гребень, протёртость средней части оси Величину проката определяют с помощью вертикального движка 2 сухаря 3 шаблона 1 по кругу катания...

Неисправности автосцепки, с которыми запрещается постановка вагонов в поезд. Причины саморасцепов ЗАПРЕЩАЕТСЯ: постановка в поезда и следование в них вагонов, у которых автосцепное устройство имеет хотя бы одну из следующих неисправностей: - трещину в корпусе автосцепки, излом деталей механизма...

Методы анализа финансово-хозяйственной деятельности предприятия   Содержанием анализа финансово-хозяйственной деятельности предприятия является глубокое и всестороннее изучение экономической информации о функционировании анализируемого субъекта хозяйствования с целью принятия оптимальных управленческих...

Образование соседних чисел Фрагмент: Программная задача: показать образование числа 4 и числа 3 друг из друга...

Шрифт зодчего Шрифт зодчего состоит из прописных (заглавных), строчных букв и цифр...

Studopedia.info - Студопедия - 2014-2025 год . (0.007 сек.) русская версия | украинская версия