Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Использование словарей в задачах индексирования





Еще при появлении первых ИПС возникли идеи использования в качестве индексов систем автоматически формируемых словарей или подключаемых заранее подготовленных словарных массивов, снабженных рядом дополнительных атрибутов — тезаурусов. В тезаурусах лексическим единицам приписывается пояснительный текст (словарная статья, ссылки на другие слова, описание связей между словами). Содержательно ссылки регламентируют отношения синонимии, противопоставления слов, подчиненность, иерархии прочих отношений. Структура наполнения тезауруса регламентируется стандартами ISO 2788 [Ланде Д.В., с.48], ГОСТ 7.25-80 (для одноязычных тезаурусов) [ГОСТ 7.25-80], ГОСТ 7.24-90 (для многоязычных тезаурусов) [ГОСТ 7.24-90]. При формировании поискового индекса системы с использованием тезауруса, каждое слово из документов, входящих в базу данных ИПС, анализируется на вхождение в тезаурус. Особенно актуально является формирование тематических тезаурусов для специализированных баз данных.

При обработке и анализе ЕЯ-текстов часто используются словари. В работе [Мидоу Ч.] дано определение словарям и представлен обзор словарей. Словарь это нормативный список, который предназначен для выделения вхождения лексических элементов в словарный состав язык, а также написание, употребление и значение лексических элементов. Таким образом, под определение словаря подпадают: тезаурус, классификационная таблица, словарь синонимов, глоссарий. Словари обеспечивают:

1. Устранение многозначности – ликвидация сложностей естественного языка, допускающих синонимы и омографы -

2. Поиск подходящих слов – для облегчения работы индексатора в формулировании поискового предписания

3. Качественный контроль или контроль над ошибками, поскольку будет содержать списки «правильных» слов.

Выделяют следующие типы словарей:

1. Словарь синонимичных пар - для каждой лексической единицы словаря имеется определение из одного термина, одно и тоже определение может быть применено более чем к одной лексической единице.

2. Словарь с многократными связями - для каждой лексической единицы словаря имеется определение из более чем одного термина. Определяющие термины могут быть связаны с определяемым термином любым из нескольких видов отношений.

3. Двуязычный словарь - имеют форму свойственную как словарю синонимичных пар, так и всем другим словарям. Для каждой лексической единицы определяется соответствие другой лексической единицы.

4. Словарь с определениями на естественном языке.

5. Тезаурус - слова группируются по понятиям, к которым они относятся. Имеется два типа лексических единиц: термин снабженный указанием месте, которое содержит это слово в контексте, понятийное слово – определение которого образует базовый контекст, объясняющий отношение терминов к понятию. Понятия упорядочены по иерархическому принципу.

6. Классификационная таблица – словарь дающий определения на естественном языке для кодов иерархической классификации.

7. Таблицы адресов – определение дается в виде символа, указывающего нахождение информации о лексической единице.

В работе [Плешко, ИТ-8-2001] рассматриваются разделение словарей на следующие виды:

1. Онтология – описание или организация того, множества существующих вещей, и определяющих, взаимосвязи вещей. Связи внутри онтологии могут быть многосторонними и сложными.

2. Систематика – вид древовидной онтологии, набор категорий и подкатегорий. Она, проще, чем истинная онтология, и не демонстрирует всего богатства реляционной структуры онтологии.

В [Евгеньев, ИТ-6-2001] рассматриваются теоретические основы применения справочников как онтологий или механизма электронного представления инженерных знаний. В работе предлагается расширение стандартного понимания инженерных онтологий. Предлагается т.н. СПРУТ-технология объединяющая три онтологических компонента: метаонтология, предметная онтология и онтология задач. Представленная модель, построена на базе стандартов IDEF1X, IDEF0. Построенная модель позволяет придерживаться национальных стандартов Российской Федерации. На основе теоретической модели созданы интеллектуальные системы автоматизированного конструирования и проектирования технологических процессов. По заверению автора произошло сокращение трудоемкости создания специализированных прикладных систем в десятки раз по сравнению с традиционными средствами. В работе [Ермаков и Плешко] для реализации синтаксико-семантического поиска предлагается модель словаря управления глаголами. В таком словаре для каждого из глаголов (около 20 тысяч в русском языке) должно быть указано, какими падежами и с какими предлогами он может управлять — т.н. модель управления. Для каждой модели также указывается, в каких семантических ролях (семантических падежах) выступают актанты глагола. Это позволяет более тонко дифференцировать связи. В результате простое предложение текста может быть преобразовано в строку таблицы реляционной базы данных. При этом имя таблицы соответствует предикату (сказуемому), а столбцы — семантическим ролям участников ситуации, описываемой предикатом.

В [Браславский П.И.] рассматривается применение различных справочников (тезаурусов) для решения задач информационного поиска.







Дата добавления: 2015-08-29; просмотров: 320. Нарушение авторских прав; Мы поможем в написании вашей работы!




Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...


ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...


Теория усилителей. Схема Основная масса современных аналоговых и аналого-цифровых электронных устройств выполняется на специализированных микросхемах...


Логические цифровые микросхемы Более сложные элементы цифровой схемотехники (триггеры, мультиплексоры, декодеры и т.д.) не имеют...

Тема: Кинематика поступательного и вращательного движения. 1. Твердое тело начинает вращаться вокруг оси Z с угловой скоростью, проекция которой изменяется со временем 1. Твердое тело начинает вращаться вокруг оси Z с угловой скоростью...

Условия приобретения статуса индивидуального предпринимателя. В соответствии с п. 1 ст. 23 ГК РФ гражданин вправе заниматься предпринимательской деятельностью без образования юридического лица с момента государственной регистрации в качестве индивидуального предпринимателя. Каковы же условия такой регистрации и...

Седалищно-прямокишечная ямка Седалищно-прямокишечная (анальная) ямка, fossa ischiorectalis (ischioanalis) – это парное углубление в области промежности, находящееся по бокам от конечного отдела прямой кишки и седалищных бугров, заполненное жировой клетчаткой, сосудами, нервами и...

Этапы творческого процесса в изобразительной деятельности По мнению многих авторов, возникновение творческого начала в детской художественной практике носит такой же поэтапный характер, как и процесс творчества у мастеров искусства...

Тема 5. Анализ количественного и качественного состава персонала Персонал является одним из важнейших факторов в организации. Его состояние и эффективное использование прямо влияет на конечные результаты хозяйственной деятельности организации.

Билет №7 (1 вопрос) Язык как средство общения и форма существования национальной культуры. Русский литературный язык как нормированная и обработанная форма общенародного языка Важнейшая функция языка - коммуникативная функция, т.е. функция общения Язык представлен в двух своих разновидностях...

Studopedia.info - Студопедия - 2014-2025 год . (0.01 сек.) русская версия | украинская версия