Студопедия — Использование словарей в задачах индексирования
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Использование словарей в задачах индексирования






Еще при появлении первых ИПС возникли идеи использования в качестве индексов систем автоматически формируемых словарей или подключаемых заранее подготовленных словарных массивов, снабженных рядом дополнительных атрибутов — тезаурусов. В тезаурусах лексическим единицам приписывается пояснительный текст (словарная статья, ссылки на другие слова, описание связей между словами). Содержательно ссылки регламентируют отношения синонимии, противопоставления слов, подчиненность, иерархии прочих отношений. Структура наполнения тезауруса регламентируется стандартами ISO 2788 [Ланде Д.В., с.48], ГОСТ 7.25-80 (для одноязычных тезаурусов) [ГОСТ 7.25-80], ГОСТ 7.24-90 (для многоязычных тезаурусов) [ГОСТ 7.24-90]. При формировании поискового индекса системы с использованием тезауруса, каждое слово из документов, входящих в базу данных ИПС, анализируется на вхождение в тезаурус. Особенно актуально является формирование тематических тезаурусов для специализированных баз данных.

При обработке и анализе ЕЯ-текстов часто используются словари. В работе [Мидоу Ч.] дано определение словарям и представлен обзор словарей. Словарь это нормативный список, который предназначен для выделения вхождения лексических элементов в словарный состав язык, а также написание, употребление и значение лексических элементов. Таким образом, под определение словаря подпадают: тезаурус, классификационная таблица, словарь синонимов, глоссарий. Словари обеспечивают:

1. Устранение многозначности – ликвидация сложностей естественного языка, допускающих синонимы и омографы -

2. Поиск подходящих слов – для облегчения работы индексатора в формулировании поискового предписания

3. Качественный контроль или контроль над ошибками, поскольку будет содержать списки «правильных» слов.

Выделяют следующие типы словарей:

1. Словарь синонимичных пар - для каждой лексической единицы словаря имеется определение из одного термина, одно и тоже определение может быть применено более чем к одной лексической единице.

2. Словарь с многократными связями - для каждой лексической единицы словаря имеется определение из более чем одного термина. Определяющие термины могут быть связаны с определяемым термином любым из нескольких видов отношений.

3. Двуязычный словарь - имеют форму свойственную как словарю синонимичных пар, так и всем другим словарям. Для каждой лексической единицы определяется соответствие другой лексической единицы.

4. Словарь с определениями на естественном языке.

5. Тезаурус - слова группируются по понятиям, к которым они относятся. Имеется два типа лексических единиц: термин снабженный указанием месте, которое содержит это слово в контексте, понятийное слово – определение которого образует базовый контекст, объясняющий отношение терминов к понятию. Понятия упорядочены по иерархическому принципу.

6. Классификационная таблица – словарь дающий определения на естественном языке для кодов иерархической классификации.

7. Таблицы адресов – определение дается в виде символа, указывающего нахождение информации о лексической единице.

В работе [Плешко, ИТ-8-2001] рассматриваются разделение словарей на следующие виды:

1. Онтология – описание или организация того, множества существующих вещей, и определяющих, взаимосвязи вещей. Связи внутри онтологии могут быть многосторонними и сложными.

2. Систематика – вид древовидной онтологии, набор категорий и подкатегорий. Она, проще, чем истинная онтология, и не демонстрирует всего богатства реляционной структуры онтологии.

В [Евгеньев, ИТ-6-2001] рассматриваются теоретические основы применения справочников как онтологий или механизма электронного представления инженерных знаний. В работе предлагается расширение стандартного понимания инженерных онтологий. Предлагается т.н. СПРУТ-технология объединяющая три онтологических компонента: метаонтология, предметная онтология и онтология задач. Представленная модель, построена на базе стандартов IDEF1X, IDEF0. Построенная модель позволяет придерживаться национальных стандартов Российской Федерации. На основе теоретической модели созданы интеллектуальные системы автоматизированного конструирования и проектирования технологических процессов. По заверению автора произошло сокращение трудоемкости создания специализированных прикладных систем в десятки раз по сравнению с традиционными средствами. В работе [Ермаков и Плешко] для реализации синтаксико-семантического поиска предлагается модель словаря управления глаголами. В таком словаре для каждого из глаголов (около 20 тысяч в русском языке) должно быть указано, какими падежами и с какими предлогами он может управлять — т.н. модель управления. Для каждой модели также указывается, в каких семантических ролях (семантических падежах) выступают актанты глагола. Это позволяет более тонко дифференцировать связи. В результате простое предложение текста может быть преобразовано в строку таблицы реляционной базы данных. При этом имя таблицы соответствует предикату (сказуемому), а столбцы — семантическим ролям участников ситуации, описываемой предикатом.

В [Браславский П.И.] рассматривается применение различных справочников (тезаурусов) для решения задач информационного поиска.







Дата добавления: 2015-08-29; просмотров: 281. Нарушение авторских прав; Мы поможем в написании вашей работы!



Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Неисправности автосцепки, с которыми запрещается постановка вагонов в поезд. Причины саморасцепов ЗАПРЕЩАЕТСЯ: постановка в поезда и следование в них вагонов, у которых автосцепное устройство имеет хотя бы одну из следующих неисправностей: - трещину в корпусе автосцепки, излом деталей механизма...

Понятие метода в психологии. Классификация методов психологии и их характеристика Метод – это путь, способ познания, посредством которого познается предмет науки (С...

ЛЕКАРСТВЕННЫЕ ФОРМЫ ДЛЯ ИНЪЕКЦИЙ К лекарственным формам для инъекций относятся водные, спиртовые и масляные растворы, суспензии, эмульсии, ново­галеновые препараты, жидкие органопрепараты и жидкие экс­тракты, а также порошки и таблетки для имплантации...

Общая и профессиональная культура педагога: сущность, специфика, взаимосвязь Педагогическая культура- часть общечеловеческих культуры, в которой запечатлил духовные и материальные ценности образования и воспитания, осуществляя образовательно-воспитательный процесс...

Устройство рабочих органов мясорубки Независимо от марки мясорубки и её технических характеристик, все они имеют принципиально одинаковые устройства...

Ведение учета результатов боевой подготовки в роте и во взводе Содержание журнала учета боевой подготовки во взводе. Учет результатов боевой подготовки - есть отражение количественных и качественных показателей выполнения планов подготовки соединений...

Studopedia.info - Студопедия - 2014-2024 год . (0.01 сек.) русская версия | украинская версия