Информационно-поисковые языки
Для общения человека с компьютером разрабатываются специальные искусственные языки, естественный язык (ЕЯ) в этом качестве пока не может быть использован без специального предварительного преобразования. В естественном языке присутствуют: синонимия, омонимия и полисемия, избыточность, субъективность и другие свойства, препятствующие его автоматизированной обработке.Синонимы — слова, различающиеся по написанию, но совпадающие по смыслу (Россия, РФ, Российская Федерация). Парадигматические отношения - логические отношения, существующие между лексическими единицами ИПЯ независимо от контекста, в котором эти лексические единицы употребляются. Эти отношения обусловлены предметно-логическими, а не языковыми факторами, т.е. относятся к категории внеязыковых связей. Примеры парадигматических отношений: часть — целое (отдел — организация); род — вид (ценная бумага — акция); причина-следствие; функциональное сходство; ассоциации. Учет парадигматических отношений необходим для правильного выбора и точного употребления слов. Поэтому в семантически развитом ИПЯ должны быть в явном виде выражены важнейшие отношения между терминами, иначе при отображении текста документа может произойти потеря или искажение смысла документа. Например, при поиске нормативных документов, касающихся термина «акция», для увеличения полноты поиска возможно указание термина «ценная бумага». Синтагматические отношения — отношения слов при соединении их в словосочетания и фразы. Линейные логические отношения, которые устанавливаются между словами непосредственно при их использовании в тексте, объединяют эти слова в сочетания и предложения. Для уточнения.смысла документа или запроса, помимо ключевых слов, часто необходимо указывать в каких синтагматических отношениях эти слова находятся. Так, фраза «защита окружающей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл/хотя и состоят из одних и тех же ключевых слов. Таким образом, развитый ИПЯ должен обладать средствами отображения парадигматических и синтагматических отношений. Для оценки сравнительной эффективности различных языков используется понятие семантическая сила языка. Семантическая сила ИПЯ характеризует смысловыразительные возможности ИПЯ и показывает, насколько ИПЯ уступает ЕЯ. Семантическая сила тем больше, чем богаче словарный.состав ИПЯ и шире его словообразовательные возможности (создание новых слов, соответствующих новым понятиям); шире используются средства отображения парадигматических и синтагматических отношений между словами. Можно указать следующие требования, которым должен удовлетворять семантически развитый ИПЯ: располагать лексико-грамматическими средствами для точного отображения центральной темы документа и запроса; не содержать полисемии, синонимии и омонимии, т.е. каждая запись на ИПЯ должна допускать только одно толкование; отображать только объективные характеристики предметов и отношений между ними; быть удобным для алгоритмического сопоставления (отождествления) поискового образа документа (ПОД) и поискового предписания (ПП). Как правило, чем больше семантическая сила ИПЯ, тем труднее с ним работать. Наиболее часто в качестве основания деления при классификации ИПЯ используют способ организации понятий. По способу организации понятий различают: предкоординируемые (классификационные) ИПЯ; посткоординируемые (дескрипторные) ИПЯ. Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. При индексировании документов или запросов можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т.е. при создании языка. Словарный состав предкоординируемых языков напоминает двуязычный разговорник, в котором заранее зафиксированы наиболее употребительные фразы. При помощи предкоординируемого языка происходит отнесение документа к классу, обозначенному лексическими единицами этого языка, т.е. классификация документа. Посткоординируемые (дескрипторные языки) основаны на методе координатного индексирования. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного 'ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний ЕЯ — ключевых слов и дескрипторов. Координатное индексирование — индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых слов или дескрипторов. Ключевые слова - это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назывной функцией. Назывные слова - слова, обозначающие вещи, явления, процессы, имена собственные (т.е. в качестве ключевого слова не может выступать предлог, союз и др.).
|