Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Информационно-поисковые языки




 

Для общения человека с компьютером разрабатываются спе­циальные искусственные языки, естественный язык (ЕЯ) в этом качестве пока не может быть использован без специального пред­варительного преобразования. В естественном языке присутству­ют: синонимия, омонимия и полисемия, избыточность, субъек­тивность и другие свойства, препятствующие его автоматизиро­ванной обработке.Синонимы — слова, различающиеся по написанию, но совпада­ющие по смыслу (Россия, РФ, Российская Федерация).
Омонимы - слова, совпадающие по звуковому и графическому составу, но имеющие разные значения (ключ может быть — теле­графный, поисковый, к замку, к шкафу и т.д.).Полисемия — наличие у одного и того же слова нескольких раз­ных, но связанных между собой значений (например: фамилия — как имя и фамилия как семья; индекс — как средство более быстрого поиска в БД и как код документа в ИПС).Избыточность ЕЯ — наличие лишней информации, без которой можно точно и однозначно установить смысл или значение сообщения. Таким образом, в естественном языке часто нет однозначного соответствия между словом и его значением.
Искусственный язык, как правило, разрабатывается на основе ЕЯ. При этом устраняется многозначность слов ЕЯ. В ИПС для однозначного описания основного смысла содержания документа и информационного запроса используются специализированные языки, которые называются информационно-поисковыми языка­ми.
ИПЯ состоит из алфавита, лексики и грамматики. Алфавит — система знаков, используемая для записи слов. В ИПЯ могут быть использованы: буквы латинского алфавита; кирил­лица; цифры; пунктуационные знаки.
Лексика (словарный состав) — совокупность слов, входящих в состав языка, называемых также лексическими единицами. Лекси­ческая единица — слово или семантически неделимое словосочета­ние, выражающее какое-либо понятие.
Грамматика — набор правил, по которым из конечного числа элементов определенного типа (например, букв или слов) можно получить язык для выражения содержания документов или запросов или описания фактов с целью последующего поиска. Грамматика подразделяется на морфологию и синтаксис.
Морфология — правила построения и изменения слов. Синтак­сис — правила построения и изменения соединения слов (построе­ние фраз).
Слова любого языка в процессе отображения предметов реального мира вступают между собой в определенные отношения. Эти отноше­ния можно разделить на парадигматические и синтагматические.

Парадигматические отношения - логические отношения, суще­ствующие между лексическими единицами ИПЯ независимо от кон­текста, в котором эти лексические единицы употребляются. Эти от­ношения обусловлены предметно-логическими, а не языковыми факторами, т.е. относятся к категории внеязыковых связей. Приме­ры парадигматических отношений: часть — целое ( отдел — органи­зация); род — вид (ценная бумага — акция); причина-следствие; функциональное сходство; ассоциации. Учет парадигматических от­ношений необходим для правильного выбора и точного употребле­ния слов. Поэтому в семантически развитом ИПЯ должны быть в явном виде выражены важнейшие отношения между терминами, иначе при отображении текста документа может произойти потеря или искажение смысла документа. Например, при поиске норматив­ных документов, касающихся термина «акция», для увеличения пол­ноты поиска возможно указание термина «ценная бумага».

Синтагматические отношения — отношения слов при соедине­нии их в словосочетания и фразы. Линейные логические отношения, которые устанавливаются между словами непосредственно при их использовании в тексте, объединяют эти слова в сочетания и пред­ложения. Для уточнения .смысла документа или запроса, помимо ключевых слов, часто необходимо указывать в каких синтагматиче­ских отношениях эти слова находятся. Так, фраза «защита окружаю­щей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл/хотя и состоят из одних и тех же ключевых слов.

Таким образом, развитый ИПЯ должен обладать средствами ото­бражения парадигматических и синтагматических отношений.

Для оценки сравнительной эффективности различных языков используется понятие семантическая сила языка.

Семантическая сила ИПЯ характеризует смысловыразительные возможности ИПЯ и показывает, насколько ИПЯ уступает ЕЯ. Семантическая сила тем больше, чем богаче словарный.состав ИПЯ и шире его словообразовательные возможности (создание новых слов, соответствующих новым понятиям); шире используются средства отображения парадигматических и синтагматических отношений между словами.

Можно указать следующие требования, которым должен удовле­творять семантически развитый ИПЯ:

располагать лексико-грамматическими средствами для точного отображения центральной темы документа и запроса;

не содержать полисемии, синонимии и омонимии, т.е. каждая запись на ИПЯ должна допускать только одно толкование;

отображать только объективные характеристики предметов и отношений между ними;

быть удобным для алгоритмического сопоставления (отождеств­ления) поискового образа документа (ПОД) и поискового предписа­ния (ПП).

Как правило, чем больше семантическая сила ИПЯ, тем труднее

с ним работать.

Наиболее часто в качестве основания деления при классифика­ции ИПЯ используют способ организации понятий.

По способу организации понятий различают:

предкоординируемые (классификационные) ИПЯ;

посткоординируемые (дескрипторные) ИПЯ.

Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав зада­ется в виде фиксированного списка слов, словосочетаний и фраз. При индексировании документов или запросов можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования докумен­тов, т.е. при создании языка.

Словарный состав предкоординируемых языков напоминает дву­язычный разговорник, в котором заранее зафиксированы наиболее употребительные фразы. При помощи предкоординируемого языка происходит отнесение документа к классу, обозначенному лексичес­кими единицами этого языка, т.е. классификация документа.

Посткоординируемые (дескрипторные языки) основаны на ме­тоде координатного индексирования. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного 'ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний ЕЯ — ключевых слов и дескрипторов.

Координатное индексирование — индексирование, при котором основное смысловое содержание текста (документа) или информа­ционного запроса представляется в виде сочетания ключевых слов или дескрипторов.

Ключевые слова - это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назыв­ной функцией. Назывные слова - слова, обозначающие вещи, явле­ния, процессы, имена собственные (т.е. в качестве ключевого слова не может выступать предлог, союз и др.).

 







Дата добавления: 2015-04-19; просмотров: 690. Нарушение авторских прав; Мы поможем в написании вашей работы!


Рекомендуемые страницы:


Studopedia.info - Студопедия - 2014-2022 год . (0.002 сек.) русская версия | украинская версия