Студопедия — Виды информационно-поисковых систем
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Виды информационно-поисковых систем






Информационно-поисковая система (ИПС)– это совокупность языково-алгоритмических, программных и технических средств, предназначенная для хранения, поиска и выдачи необходимой информации. Поиск производится по неформатированным (т.е. неупорядоченным) запросам. ИПС обеспечивает автоматизированный информационный поиск, т.е. информационный поиск, объектом которого являются записи, содержащие описания документов - поисковые образы документов или фактов.

Информационно-поисковый язык (ИПЯ) - искусственный язык, обеспечивающий компактную, строго алгоритмизированную запись содержания документов и запросов в ИПС. ИПЯ можно определить как специализированную семантическую систему, которая состоит из алфавита, правил образования (грамматики) и правил интерпретации (семантики), которые определяют способы перевода терминов и предложений (фраз) формального языка на соответствующий естественный язык.

ИПЯ – это информационный язык, предназначенный для записи семантической (смысловой) информации с целью последующего использования в ИПС. Он обеспечивает документальный и фактографический информационный автоматизированный поиск. документальные ИПЯ предназначены для записи сведений, зафиксированных в документах и запросах на естественном языке и обеспечивают отыскание в массиве документов таких, которые отвечают на поставленный запрос – например, найти документ со словами "информационно-поисковая система". фактографические ИПЯ служат для описания объектов (фактов) и обеспечивают отыскание в массиве объектов таких, которые также отвечают на поставленный запрос – найти "выплавку стали на Кременчугском сталеплавильном комбинате за январь прошлого года".

ИПЯ обычно состоит из словаря (тезауруса) и грамматики.

Тезаурус включает лексику[12] ИПЯ и систему его парадигматических отношений. Грамматика содержит правила образования производных единиц ИПЯ (предложений, синтагм, семантических кодов), регламентирует использование указателей связи, указателей роли и других средств обозначения синтагматических отношений (определения парадигматических и синтагматических отношений см. ниже).

Поисковый образ документа (ПОД) – описание документа, выраженное средствами ИПЯ и характеризующее основное смысловое содержание или какие-либо другие признаки этого документа, необходимые для его поиска по запросу. Это текст на ИПЯ, поставленный в однозначное соответствие документу и отражающий признаки документа, необходимые для его поиска по запросу к ИПС (так называемые поисковые признаки документа – в основном, ключевые слова). Кроме поисковых признаков, раскрывающих содержание документа или, как минимум, определяющих его тему ПОД обычно содержит также идентифицирующие и некоторые дополнительные сведения (выходные данные, тип документа, его язык и т.д.). Содержание и структура ПОД определяются типом ИПС и ИПЯ.

Поисковый образ запроса (ПОЗ) – записанный на ИПЯ текст, выражающий смысловое содержание информационного запроса и содержащего указания, необходимые для наиболее эффективного осуществления информационного поиска. Это текст на ИПЯ, являющийся результатом перевода информационного запроса с естественного языка и отражающий признаки документов или фактов, подлежащих отбору ИПС в ответ на данный запрос. В ПОЗ могут указываться как тематические, так и библиографические характеристики искомых документов. Содержание и структура ПОЗ также определяются типом ИПС и ИПЯ.

На вход ИПС поступает информация двух видов:

∙ документы и факты, т.е. информация, отражающая достигнутый уровень знаний о каком-либо классе объектов (устройств, технологических процессов, химических веществ, реакций, теорем и т.п.) в виде;

∙ запросы, т.е. информация, отражающая информационную потребность абонентов ИПС.

Информация 1-го вида называется поисковым массивом, а 2-го вида – информационными запросами. Элементы поискового массива и информационные запросы вводятся в ИПС на естественном языке, затем подвергаются индексированию, т.е. переводу на формализованный информационно-поисковый.язык. Информация 1-го вида составляет базу документов и фактов ИПС, по которым абонент может выполнять поиск нужных ему данных.

Информация 2-го вида – это запросы абонента к ИПС на поиск требуемых документов и фактов. Запрос также может содержать ключевые слова, выходные данные, тип документа (роман, статья, закон и т.п.), его язык, объём и т.д.).

Чаще всего пользователь вводит в ИПС информационные запросы ПОЗ, представляющие собой ключевые слова, по которым ИПС ищет аналогичные ключевые слова в документах (ПОД), содержащихся в поисковом массиве системы. При семантическом (смысловом) соответствии ПОЗ и ПОД документ (или их перечень) выводится пользователю. Это основная функция ИПС – выявление элементов информационного массива, которые отвечают на запрос, предъявляемый системе.

ИПС состоит из двух основных компонентов – абстрактной ИПС и информационно-поискового устройства. Абстрактная ИПС – это совокупность информационно-поискового языка, правил индексирования и критерия семантического соответствия. Абстрактная ИПС реализуется при помощи информационно-поискового устройства – программы на языке высокого уровня плюс носители информации на магнитных, оптических дисках, flash-памяти и т.д.

К средствам реализации абстрактной ИПС относятся также инструкции по ведению информационных массивов, обработке запросов, программы для ЭВМ и т.п. По характеру поискового массива и выдаваемой информации ИПС подразделяют на документальные, которые содержат реферативные или полнотекстовые документы со всеми выходными данными, и фактографические, включающие конкретные сведения об объектах – факты без указания источника информации.

Поиск информационный документальный – информационный поиск, объектом которого являются записи, содержащие описания документов (ПОД). При таком поиске в ответ на запрос, в котором сформулированы требования к искомой информации (напр., перечислены характеристики телевизора), выдаётся перечень документов, содержащих нужную информацию (паспорт, руководство по эксплуатации, гарантии) с последующей выдачей самих документов или их копий.

Поиск информационный фактографический – информационный поиск, объектом которого являются записи, содержащие описания фактических данных. в ответ на запрос, в котором сформулированы требования к искомой информации (напр., перечислены характеристики телевизора) нужная информация выдаётся в виде фактов, напр., технические данные - напряжение питания, количество каналов, частотный диапазон принимаемых сигналов, видеоформат и т.п.

Поисковые признаки – это признаки документа или факта, по которым производится информационный поиск. Поисковые признаки, отражающие информационную потребность абонента ИПС, фиксируются в ПОЗ, а поисковые признаки, отражающие характеристики документов или фактов, включённых в поисковый массив – в ПОД или фактографических записях. Процесс информационного поиска состоит в сопоставлении поисковых признаков ПОЗ с поисковыми признаками ПОД или фактографических записей документов.

Поиск информационный – процесс отыскания в некотором множестве записей (поисковом массиве) таких, которые отвечают признакам, указанном в информационном запросе.


ИПС может работать в режиме ретроспективного информационного поиска (рис. 7.1) или избирательного распределения информации (рис. 7.2).

Справочная документальная ИПС работает следующим образом:

Сначала поисковый массив заполняется документами. В блоке 1 каждый документ индексируется, т.е. ему присваивается набор ключевых слов, УДК, ББК, издательство, год выпуска и т.п. Из тезауруса к индексу добавляются дополнительные дескрипторы, позволяющие более точно распознавать документ. В результате образуется ПОД – поисковый образ документа. В блоке 2 фиксируется адрес (место в памяти – поисковом массиве, где он будет храниться). Поисковый массив располагается на винчестере или CD-диске.

При поступлении запроса пользователя в блоке 3 производится его индексация, т.е. запросу присваиваются поисковые ключевые слова и другие указатели (напр., тип документа), по ним в блоке "Поисковые предписания" определяется зона памяти, где расположены документы данной тематики. В блоке 4 каждый документ проверяется на совпадение дескрипторов запроса с дескрипторами документа из поискового массива и перечень найденных документов с наибольшим совпадением дескрипторов и других указателей выдаётся абоненту.

 


Для справочной ИПС набор поисковых дескрипторов может быть любым. Документальная ИПС для избирательного распределения отличается от справочной тем, что набор поисковых дескрипторов, в целом, фиксирован, т.е. абонент каждый раз запрашивает одну и ту же информацию (напр., работник банка – ежедневные курсы валют, военком – списки призывников или ветеранов, пассажир автостанции – расписание автобусов и т.п. в остальном работа ИПС на рис. 7.2 аналогична работе справочной ИПС на рис. 7.1).

Ниже приведены основные определения и понятия, используемые в ИПС:

Дескриптор – (от лат. descriptor – описывающий) – лексическая единица (слова, словосочетания) информационного языка. Дескриптор служит для описания основного содержания документа или формулировки информационного запроса при поиске документов в ИПС. Дескриптором может быть любое ключевое слово. Многозначному слову ("коса" на реке и "коса" из волос) соответствует несколько дескрипторов, а синонимам – один дескриптор.

Поиск информационный автоматизированный – информационный поиск, реализованный как последовательность формализованных операций, выполняемых с целью отыскания документов (статей, книг, научно-технических отчётов, описания к авторским свидетельствам и патентам и т.п.), содержащих необходимую информацию (с последующей выдачей самих документов или их копий либо с выдачей только перечня документов) или с целью выдачи фактических данных, представляющих собой ответ на запрос. Поиск ведётся с помощью ИПС и состоит из двух операций - индексирования и установления семантического соответствия между запросами и документами. Индексирование (назначение ключевых слов) при поиске часто осуществляется вручную. Поиск предполагает моделирование деятельности человека, связанной с пониманием текстов, что становится возможным на основе результатов соответствующих лингвистических и логических исследований, которые используют методы структурной лингвистики и логической семантики.

ретроспективный информационный поиск – это информационный поиск (документальный или фактографический), при котором нужная информация отыскивается во всём массиве документов или фактов по любому запросу, соответствующему тематике поискового массива.

Тезаурус - словарь лексических единиц ИПЯ (лексика – вся совокупность слов, входящих в язык) и естественного языка– перечень всех ключевых слов и их вариантов для ПОЗ и ПОД. Цель тезауруса – более полное индексирование документов и запросов, т.к. он дополняет ПОД и ПОЗ дескрипторами[13], которые по смыслу связаны с основными дескрипторами. Это позволяет ИПС более точно находит запрашиваемые материалы.

Индекс – таблица ссылок на объекты, используемая для определения адреса записи.

Индексирование (от лат. index – признак, указатель) – присвоение документу (запросу) набора ключевых слов или кодов, служащих указателем содержания документа (запроса) и используемых для информационного поиска (в основном, для научно-технических документов).

Возможны два способа индексирования:

∙ свободное, когда непосредственно из текста документа извлекают ключевые слова без учёта всех видоизменений их форм и отношений между ними;

∙ контролируемое, когда в ПОД включаются только те слова, которые зафиксированы в информационно-поисковом тезаурусе, где указаны их синонимические, родо-видовые и ассоциативные отношения.

Традиционные системы индексирования (иерархические, фасетные, и алфавитно-предметные классификации) не обеспечивают возможности поиска документов по любому, заранее не заданному сочетанию признаков (характеристик). Наилучшие результаты поиска даёт координатное индексирование. Для уменьшения затрат времени и средств разрабатываются методы автоматического индексирования: статистические, пермутационные и др.

координатное индексирование – способ выражения основного смыслового содержания документа или информационного запроса в виде определённой совокупности ключевых слов, которые явно или в скрытом виде содержатся или подразумеваются в индексируемом тексте. Этот способ получил широкое распространение в 50-х гг ХХ века, на нём основаны дескрипторные информационно-поисковые языки. Метод координатного индексирования основан на том, что смысловое содержание документа может быть выражено списком ключевых слов.

Индексирование позволяет механизировать и автоматизировать информационный поиск.

информационно-поисковый тезаурус – семантическая сеть, в которой понятия связаны регулярными и устойчивыми семантическими отношениями – иерархическими (например, род-вид, целое-часть).

Информационный язык – искусственный язык, созданный в целях лучшей реализации основной функции языка – коммуникативной, т.е. функции передачи информации.

Парадигма – совокупность всех словоформ данного слова. Если дано некоторое существительное (напр., "котёнок"), его парадигму составят слова, образуемые при изменении по падежам и числам ("котёнок", "котята", "котёнка", "котят" и т.д.).

Ключевое слово – слово или устойчивое словосочетание, выбираемое из документа (текста) и используемое для координатного индексирования этого текста.

избирательное распределение информации – информационный поиск (обычно документальный), который производится по постоянным запросам ограниченного числа пользователей – абонентов через фиксированные промежутки времени в массиве документов, поступивших за этот промежуток времени. Цель – оперативное оповещение абонентов о новых поступлениях по их тематике.

Парадигматическое отношение, отношение базисное – это семантическое отношение, существующее между словами естественного или информационного языка независимо от контекста. Оно связывает слова, обозначающие предметы, между которыми существует постоянная связь (в противоположность синтагматическому отношению). Парадигматическое отношение соответствует отношению "целое – часть", например, "самолёт" – "крыло". Частными случаями парадигматических отношений являются отношение подчинения, которое соответствует приблизительно отношению класса к подклассу, и ассоциативное отношение. Парадигматическое отношение применяется для снижения потерь информации при поиске. С этой целью оно должно быть явно задано в информационном языке. Существует четыре основных способа задания отношения: лексикографический, табличный, графический и аналитический.

Лексикографический способ заключается в том, что слова информационного языка снабжаются в словаре пометами, указывающими на парадигматическое отношение между ними. Например, при дескрипторе "жидкость" могут быть пометы: видовые термины (отношение подчинения) – "вода", "нефть"; связанный термин (отношение ассоциативное) – "текучесть".

При табличном способе слова информационного языка, связанные парадигматическим отношением с данным дескриптором, также включаются в словарную статью последнего, но вместо указанных помет вид отношения определяется заранее обусловленным взаимным расположением дескрипторов.

Графический способ заключается в построении схем, в которых парадигматическое отношение между словами информационного языка обозначены при помощи стрелок. Например, изображение иерархической классификации в виде дерева.

При аналитическом способе отношения выражаются структурой слова информационного языка, которое в этом случае представляет собой производное, сложное образование – семантический код.

Синтагматическое отношение – семантическое отношение, которое возникает между словами естественного или информационного языка в определённом контексте. В противоположность парадигматическому отношению оно указывает не на постоянную связь, а на наличие некоторой ситуации, объединяющей объекты, обозначенные в данном контексте соответствующими словами. В числе синтагматических отношений выделяются субъектные, объектные, пространственные, временные и т.д. (сродни ситуации "самолёт летит" - самолёт есть субъект полёта, "самолёт ремонтируют" – самолёт есть объект ремонта. Синтагматические отношения также используются главным образом для снижения поискового шума. С этой целью они в информационном языке должны быть заданы явно. Чаще всего применяются указатели связи и указатели роли. Первые указывают на наличие синтагматических отношений между группой дескрипторов ПОД или ПОЗ, вторые - на разновидность отношения, связывающего данный дескриптор с некоторым другим. Иногда синтагматические отношения задаются заранее обусловленным взаимным расположением дескриторов в ПОД или ПОЗ (так называемый анкетный способ представления информации).

отношение подчинения – парадигматическое отношение между словами информационного языка, которое чаще всего соответствует родо-видовому отношению между выражаемыми ими понятиями ("самолёт" – "реактивный самолёт").

Пертинентность (от лат. pertineo – касаюсь, отношусь) – соответствие документа или фактографической записи фактической информационной потребности абонента ИПС независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационногог запроса.

Таким образом, документальная ИПС – это ИПС, предназначенная для отыскания документов (статей, книг, научно-технических отчётов, описания к авторским свидетельствам и патентам и т.п.), содержащих необходимую информацию. Поисковый массив документальной ИПС состоит из поисковых образов документов, т.е. элементов, каждый из которых передаёт основное содержание документа, независимо от того, сколько объектов описывается в документе. В ответ на предъявленный информационный запрос документальная ИПС выдаёт множество документов, содержащих искомую информацию, или указывает адреса хранения этих документов. Адрес хранения – это код, однозначно определяющий местонахождение документа в хранилище. Роль адреса хранения может играть каталожный, инвентарный или порядковый номер документа, его библиографическое описание – автор, наименование, источник. Выбор того или иного типа адреса хранения определяется способом организации массива документов. ИПС могут выполнять функции избирательного распределения информации или ретроспективного (справочного) поиска, а также совмещать эти функции. В состав ИПС входят блоки, выполняющие основные операции информационного поиска - индексирование документов и запросов и установление семантического соответствия между запросами и документами, причём первая операция часто выполняется вручную.







Дата добавления: 2015-09-19; просмотров: 3857. Нарушение авторских прав; Мы поможем в написании вашей работы!



Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Метод Фольгарда (роданометрия или тиоцианатометрия) Метод Фольгарда основан на применении в качестве осадителя титрованного раствора, содержащего роданид-ионы SCN...

Потенциометрия. Потенциометрическое определение рН растворов Потенциометрия - это электрохимический метод иссле­дования и анализа веществ, основанный на зависимости равновесного электродного потенциала Е от активности (концентрации) определяемого вещества в исследуемом рас­творе...

Гальванического элемента При контакте двух любых фаз на границе их раздела возникает двойной электрический слой (ДЭС), состоящий из равных по величине, но противоположных по знаку электрических зарядов...

Гидравлический расчёт трубопроводов Пример 3.4. Вентиляционная труба d=0,1м (100 мм) имеет длину l=100 м. Определить давление, которое должен развивать вентилятор, если расход воздуха, подаваемый по трубе, . Давление на выходе . Местных сопротивлений по пути не имеется. Температура...

Огоньки» в основной период В основной период смены могут проводиться три вида «огоньков»: «огонек-анализ», тематический «огонек» и «конфликтный» огонек...

Упражнение Джеффа. Это список вопросов или утверждений, отвечая на которые участник может раскрыть свой внутренний мир перед другими участниками и узнать о других участниках больше...

Studopedia.info - Студопедия - 2014-2024 год . (0.009 сек.) русская версия | украинская версия