Студопедия — Использование словарей в задачах индексирования
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Использование словарей в задачах индексирования






Еще при появлении первых ИПС возникли идеи использования в качестве индексов систем автоматически формируемых словарей или подключаемых заранее подготовленных словарных массивов, снабженных рядом дополнительных атрибутов — тезаурусов. В тезаурусах лексическим единицам приписывается пояснительный текст (словарная статья, ссылки на другие слова, описание связей между словами). Содержательно ссылки регламентируют отношения синонимии, противопоставления слов, подчиненность, иерархии прочих отношений. Структура наполнения тезауруса регламентируется стандартами ISO 2788 [Ланде Д.В., с.48], ГОСТ 7.25-80 (для одноязычных тезаурусов) [ГОСТ 7.25-80], ГОСТ 7.24-90 (для многоязычных тезаурусов) [ГОСТ 7.24-90]. При формировании поискового индекса системы с использованием тезауруса, каждое слово из документов, входящих в базу данных ИПС, анализируется на вхождение в тезаурус. Особенно актуально является формирование тематических тезаурусов для специализированных баз данных.

При обработке и анализе ЕЯ-текстов часто используются словари. В работе [Мидоу Ч.] дано определение словарям и представлен обзор словарей. Словарь это нормативный список, который предназначен для выделения вхождения лексических элементов в словарный состав язык, а также написание, употребление и значение лексических элементов. Таким образом, под определение словаря подпадают: тезаурус, классификационная таблица, словарь синонимов, глоссарий. Словари обеспечивают:

1. Устранение многозначности – ликвидация сложностей естественного языка, допускающих синонимы и омографы -

2. Поиск подходящих слов – для облегчения работы индексатора в формулировании поискового предписания

3. Качественный контроль или контроль над ошибками, поскольку будет содержать списки «правильных» слов.

Выделяют следующие типы словарей:

1. Словарь синонимичных пар - для каждой лексической единицы словаря имеется определение из одного термина, одно и тоже определение может быть применено более чем к одной лексической единице.

2. Словарь с многократными связями - для каждой лексической единицы словаря имеется определение из более чем одного термина. Определяющие термины могут быть связаны с определяемым термином любым из нескольких видов отношений.

3. Двуязычный словарь - имеют форму свойственную как словарю синонимичных пар, так и всем другим словарям. Для каждой лексической единицы определяется соответствие другой лексической единицы.

4. Словарь с определениями на естественном языке.

5. Тезаурус - слова группируются по понятиям, к которым они относятся. Имеется два типа лексических единиц: термин снабженный указанием месте, которое содержит это слово в контексте, понятийное слово – определение которого образует базовый контекст, объясняющий отношение терминов к понятию. Понятия упорядочены по иерархическому принципу.

6. Классификационная таблица – словарь дающий определения на естественном языке для кодов иерархической классификации.

7. Таблицы адресов – определение дается в виде символа, указывающего нахождение информации о лексической единице.

В работе [Плешко, ИТ-8-2001] рассматриваются разделение словарей на следующие виды:

1. Онтология – описание или организация того, множества существующих вещей, и определяющих, взаимосвязи вещей. Связи внутри онтологии могут быть многосторонними и сложными.

2. Систематика – вид древовидной онтологии, набор категорий и подкатегорий. Она, проще, чем истинная онтология, и не демонстрирует всего богатства реляционной структуры онтологии.

В [Евгеньев, ИТ-6-2001] рассматриваются теоретические основы применения справочников как онтологий или механизма электронного представления инженерных знаний. В работе предлагается расширение стандартного понимания инженерных онтологий. Предлагается т.н. СПРУТ-технология объединяющая три онтологических компонента: метаонтология, предметная онтология и онтология задач. Представленная модель, построена на базе стандартов IDEF1X, IDEF0. Построенная модель позволяет придерживаться национальных стандартов Российской Федерации. На основе теоретической модели созданы интеллектуальные системы автоматизированного конструирования и проектирования технологических процессов. По заверению автора произошло сокращение трудоемкости создания специализированных прикладных систем в десятки раз по сравнению с традиционными средствами. В работе [Ермаков и Плешко] для реализации синтаксико-семантического поиска предлагается модель словаря управления глаголами. В таком словаре для каждого из глаголов (около 20 тысяч в русском языке) должно быть указано, какими падежами и с какими предлогами он может управлять — т.н. модель управления. Для каждой модели также указывается, в каких семантических ролях (семантических падежах) выступают актанты глагола. Это позволяет более тонко дифференцировать связи. В результате простое предложение текста может быть преобразовано в строку таблицы реляционной базы данных. При этом имя таблицы соответствует предикату (сказуемому), а столбцы — семантическим ролям участников ситуации, описываемой предикатом.

В [Браславский П.И.] рассматривается применение различных справочников (тезаурусов) для решения задач информационного поиска.







Дата добавления: 2015-08-29; просмотров: 277. Нарушение авторских прав; Мы поможем в написании вашей работы!



Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

ТЕОРИЯ ЗАЩИТНЫХ МЕХАНИЗМОВ ЛИЧНОСТИ В современной психологической литературе встречаются различные термины, касающиеся феноменов защиты...

Этические проблемы проведения экспериментов на человеке и животных В настоящее время четко определены новые подходы и требования к биомедицинским исследованиям...

Классификация потерь населения в очагах поражения в военное время Ядерное, химическое и бактериологическое (биологическое) оружие является оружием массового поражения...

Объект, субъект, предмет, цели и задачи управления персоналом Социальная система организации делится на две основные подсистемы: управляющую и управляемую...

Законы Генри, Дальтона, Сеченова. Применение этих законов при лечении кессонной болезни, лечении в барокамере и исследовании электролитного состава крови Закон Генри: Количество газа, растворенного при данной температуре в определенном объеме жидкости, при равновесии прямо пропорциональны давлению газа...

Ганглиоблокаторы. Классификация. Механизм действия. Фармакодинамика. Применение.Побочные эфффекты Никотинчувствительные холинорецепторы (н-холинорецепторы) в основном локализованы на постсинаптических мембранах в синапсах скелетной мускулатуры...

Studopedia.info - Студопедия - 2014-2024 год . (0.011 сек.) русская версия | украинская версия