Студопедия — Гайдамакин Н. А. 15 страница
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Гайдамакин Н. А. 15 страница






Идеи координации понятий, т. е. использования операций над классами, активно развивались в 40-с—50-с гг. в первых механизированных системах организации поиска документов (уже упоминавшиеся карты У. Баттена на основе оптического совпадения, система «Зато-кодирования» К. Муэрса и система унитермов М. Тауба). При этом определилось два направления координации понятий — предкоординация и посткоординация (см. рис. 6.3).

Предкоординация понятий предусматривает использова­ние операций над классами при индексировании документов.Иначе говоря, индекс документа представляет собой конструкцию из исходных понятии (классов) классификатора, постро­енную на основе логических операций. В системах на основе посткоординации понятий логические операции над класса­ми осуществляются при поиске документов, т. е. в процессе фор­мирования поискового образа запроса. Технология и механизм поиска при этом включают предварительный отбор всех доку­ментов с индексами классов (рубрик), входящих в логическую конструкцию запроса, с последующим осуществлением соб­ственно логических операций над отобранными совокупностями (множествами) документов.

6.2.3. Информационно-поисковые тезаурусы

Особую роль в развитии информационно-поисковых сис­тем сыграли работы Мортимера Тауба, разработавшего в 1951 году систему унитермов. В системе Тауба содержание до­кумента индексируется совокупностью терминов в виде одно­словных обозначений — унитермов. Например, документ по теории информационного поиска может быть проиндексирован двумя унитермами — «Информационный», «Поиск». В ка­честве унитермов чаще всего выступают элементы словаря клю­чевых терминов по определенной предметной области.

В системе Тауба первоначально не предполагалось какой-либо связи или отношений между унитермами и, следователь­но, ее можно отнести к чисто дескрипторным системам. Вмес­те с тем сразу же проявились и такие специфические проблемы дескрипторных систем, как ложная координация понятий. Яв­ление ложной координации заключается в такой координации понятий (классов, терминов), которые хотя по отдельности и присутствуют в содержании документа, но комбинируются по смыслу с другими понятиями (терминами, классами). Так, на­пример, в содержании документа, в котором речь идет об ин­формационном обеспечении поисковых бригад при ликвида­ции чрезвычайных происшествий и последствий стихийных бедствий, также присутствуют в числе прочих унитермы — «Ин­формационный» и «Поиск», и, следовательно, он совершенно неправильно может быть выдан на запрос по теории информа­ционного поиска.

Другой проблемой в системах на основе унитермов явля­ются синонимичность и омонимичность * некоторых терми­нов, что приводит к неоднозначности индексирования докумен­тов. Для преодоления ложной координации и других проблем стали вводить составные термины, указатели связи и ролей терминов («род— вид», «средство действия» и т. п.), заново открывая в некотором смысле предметную иерархическую руб­рикацию со связями, и внося тем самым в чисто дескрипторную систему элементы семантики. Так появилось отдельное на­правление информационно-поисковых систем, получившее на­звание тезаурусов.

* Синонимы — одинаковые или близкие по смыслу слова, омонимы — слова, одинаковые в написании и звучании, но имеющие разный смысл — ключ (в замке), ключ (источник воды).

 

Тезаурус (с греч. «хранилище», «запас», «сокровищница») в узком смысле представляет собой специальный словарь-спра­вочник, в котором перечислены ключевые слова-дескрипторы определенной предметной области, указаны синонимичные им ключевые слова, установлены способы устранения cинонимии, омонимии, полисемии, определены родо-видовые и ассоциа­тивные связи дескрипторов.*

* Строгое определение информационно-поискового тезауруса (нормативный словарь дескрипторного ИПЯ с зафиксированными в нем парадигматическими отношениями лексических единиц) приведено в ГОСТ 7.74-96 СИБИД. Информационно-поис­ковые языки.—М.: Изд-во стандартов, 1997.

 

В более общем плане в тезаурусе выделяют классифика­ционную схему и алфавитный перечень дескрипторов-ключевых слов. Классификационная схема определяет системати­зацию дескрипторов по уровням иерархии исходя из «родо-видовых» или ролевых отношений. Алфавитный перечень содержит словарный фонд дескрипторов для индексирования документов.

Внешним отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации со связями и ролевыми отношениями является то, что в тезаурусах помимо классификационной схемы присутствуют сами ключевые слова и дескрипторы, объе­диняемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов, понятий и т. д., но не определены и нет самих ключевых терми­нов, им соответствующих.

Главная идея информационно-поисковых тезаурусов зак­лючается в повышении эффективности и автоматизации ин­дексирования документов в рамках дескрипторного подхода. Иначе говоря, в системах на основе информационно-поиско­вых тезаурусов ПОД представлен набором дескрипторов (клю­чевых терминов). Однако в процессе индексирования докумен­тов учитываются семантические (родо-видовые, ролевые, си­нонимичные, омонимичные, полисемичные и ассоциативные) отношения между дескрипторами, что, в конечном счете, обес­печивает более адекватный содержанию ПОД и повышает эф­фективность поиска документов (по точности, полноте и шуму).

Разработка тезаурусов и их внедрение в информационно-поисковые системы интенсивно осуществлялись в 60-е и 70-е годы. При этом в соответствии с тематическим профилем вы­делились многоотраслевые, отраслевые и узкотематические тезаурусы. Первым многоотраслевым тезаурусом за рубежом явился «Тезаурус технических и научных терминов», вышед­ший в декабре 1967 г. в США. В 1972 г. под редакцией Ю. И. Шемакина был разработан первый отечественный многоотрасле­вой «Тезаурус научно-технических терминов». В семидесятые годы тезаурусы были разработаны практически для всех отрас­лей деятельности, а также создано большое количество узкотематических специализированных тезаурусов.

На основе практики разработки и использования информа­ционно-поисковых тезаурусов были также разработаны специ­альные представления тезаурусов, закрепленные в нашей стра­не в соответствующих ГОСТах.* Согласно ГОСТ 18383-73 фор­ма представления тезауруса включает алфавитное перечисление статей по каждому дескриптору (термину) в следующем виде:**

...

РЕФЕРАТ

с резюме

в СВЕРТЫВАНИЕИНФОРМАЦИИ

н РЕФЕРАТАВТОРСКИЙ

РЕФЕРАТГРАФИЧЕСКИЙ

РЕФЕРАТИНФОРМАТИВНЬШ

РЕФЕРАТ«ТЕЛЕГРАФНОГОСТИЛЯ»

РЕФЕРАТУКАЗАТЕЛЬНЫЙ

РЕФЕРИРОВАНИЕ

а АННОТАЦИЯ

...

где в качестве буквенных обозначений выступают следующие:

с — термины-синонимы;

в — термины, подчиняющие заглавный термин, т.е. выше по иерархии;

н — термины, подчиненные заглавному, т. е. ниже по иерар­хии;

а — термины, ассоциированные с заглавным термином.

* ГОСТ 18383-73. Тезаурус информационно-поисковый. Общие положения. Фор­ма представления.

** Пример позаимствован из работы: Соколов А.В. Информационно-поисковые системы: Учеб. пособие для вузов/Под ред. А. Б. Рябова.—М.: Радио и связь, 1981.

 

Еще одной особенностью тезаурусов является применяе­мая на практике возможность расширения словарной базы но­выми ключевыми терминами, появляющимися при накоплении документов в ходе эксплуатации системы. В этом плане раз­личают базовые и рабочие тезаурусы. Базовые тезаурусы выс­тупают в качестве нормативных пособий по лексике в той или иной отрасли знаний или предметной области. Рабочие тезау­русы в стартовом виде строятся на основе базовых тезаурусов и дополняются в процессе индексирования и анализа появле­ния в документах новых или специфичных терминов (так на­зываемые профессионализмы, иногда жаргонные термины и т. д.). В результате возникает еще один специфический компонент эксплуатации соответствующих ИПС, называемый веде­нием тезауруса.

6.2.4. Автоматизация индексирования документов

Важным в практическом плане аспектом информационно-поисковых систем являются технологии, принципы и механиз­мы индексирования документов применительно к той или иной классификационной схеме.

Развитие теории информационного поиска документов, создание первых механизированных информационно-поиско­вых систем поначалу не предполагали какой-либо автоматиза­ции (механизации) индексирования документов. Индексирова­ние осуществлялось специально подготовленными специалис­тами-экспертами в предметной области ИПС, которые могли осуществлять многоаспектный и глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. Такой под­ход обусловливал высокие накладные расходы на создание и ведение документальных информационно-поисковых систем, так как требовал наличия в организационном штате высоко­квалифицированных специалистов-индексаторов. Кроме того, в процесс индексирования при этом вносился человеческий фак­тор (субъективность поисковых образов одного документа, проиндексированного разными специалистами и т. п.).

Поэтому в теории информационного поиска в 50-х-60-х го­дах выделилось отдельное направление исследований, связан­ное с вопросами автоматизации индексирования документов. Идеи и начало этих исследований были инициированы появле­нием уже упоминавшейся системы унитермов Тауба. Индекси­рование документов набором однословных дескрипторов-тер­минов (унитермов), имеющихся в тексте документа, позволило снизить профессиональные требования к индексаторам и, фигурально выражаясь, механистицировать* процесс индек­сирования.

* Иначе в некотором смысле приблизить к чисто механической работе по выяв­лению в тексте унитермов.

 

С применением и все более широким использованием вы­числительной техники в информационно-поисковых докумен­тальных системах эти подходы трансформировались в задачи и технологии автоматического, т.е. без участия специалис­тов, индексирования документов.

Огромную роль в исследовании и последующем развитии теории информационного поиска документов сыграли резуль­таты Кренфилдского (I и II) проекта, проводившегося в конце 50-х — начале 60-х годов Английской ассоциацией специаль­ных библиотек и информационных бюро. В ходе эксперимен­тальных исследований эффективности нескольких различных по типу информационно-поисковых систем (система на основе УДК, фасетная система, система унитермов и некоторые их раз­новидности), проведенных в ходе реализации Кренфилдского проекта, выявились факторы противоречивого влияния неко­торых семантических показателей классификационных ИПС (глубина уровней классов при индексировании, объем словар­ной базы и др.) на полноту и точность информационного поис­ка. Выявилась общая принципиальная закономерность—при повышении полноты поиска на основе использования тех или иных семантических методов при индексировании происходит снижение точности поиска и наоборот. Еще одним «неожидан­ным» результатом явилось небольшое отличие в показателях эффективности поиска документов в системах с развитой се­мантикой индексирования и в системах на основе неконтролиру­емой лексики.

Последний результат активизировал в дальнейшем внима­ние к более простым и менее дорогим дескрипторным систе­мам с неконтролируемой или слабоконтролируемой лексикой (унитермы, полнотекстовые системы), в которых на основе по­сткоординации при обработке запросов удается достичь впол­не приемлемых показателей полноты и точности поиска. Эти­ми же обстоятельствами был обусловлен импульс исследова­ниям технологий автоматического индексирования и уже на новом уровне возродилась идея полной механизации (точнее, уже автоматизации) индексирования документов.

Сформировалось два, хотя и близких, но различных по со­держанию подхода автоматическому индексированию. Первый подход основан на использовании словаря ключевых слов (тер­минов) и применяется в системах на основе информационно-поисковых тезаурусов. Индексирование в таких системах осу­ществляется путем последовательного автоматического поис­ка в тексте документа каждого ключевого термина. На этой основе строится и поддерживается индекс системы, собственно и реализующий поисковое пространство документов.

Применяется два типа образования индекса — прямой и инвертированный (см. рис. 6.8).

Рис. 6.8. Прямой и инвертированный типы организации индекса

Прямой тип индекса строится по схеме «Документ-тер­мины». Поисковое пространство в этом случае представлено в виде матрицы размерностью NxM (N — количество докумен­тов, М —количество ключевых терминов). Строки этой матри­цы представляют поисковые образы документов.

Инвертированный тип индекса строится по обратной схе­ме— «Термин —документы». Поисковое пространство соот­ветственно представлено аналогичной матрицей только в транс­понированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.

На основе автоматического индексирования документов по ключевым терминам могут решаться также и задачи автомати­ческой классификации документов, т. е. автоматического от­несения документов к тем или иным классификационным рубрикам. Такие задачи особенно актуализировались в связи с интенсивным развитием в 90-х годах глобальных информаци­онных сетей, появлением «электронной» периодики, книг и ог­ромных массивов прочей неструктурированной текстовой ин­формации в компьютерной форме. Автоматическое распозна­вание в больших объемах текстовой информации документов по определенной тематике позволяет существенно снизить зат­раты на предварительный отбор информации из внешних ис­точников для пополнения базы документов ИПС по соответ­ствующей предметной области. Принцип решения таких задач аналогичен решению задач информационного оповещения (см. рис. 6.2). Для конкретного класса документов (рубрики) стро­ится поисковый образ, который в системах на основе индекси­рования по ключевым терминам может быть представлен на­бором определенных терминов или их сочетаний. Поисковые образы документов из внешних источников сравниваются по определенному критерию с поисковым образом py6pики, и на этой основе принимается решение о внесении документов в базу, т. е. об отнесении содержания документа к предметной области ИПС.

Второй подход к автоматическому индексированию приме­няется в полнотекстовых системах. В процессе индексирова­ния «на учет», т. е. в индекс заносится информация обо всех словах текста документа (отсюда, как уже отмечалось, и назва­ние «полнотекстовые»). Более подробно особенности полно­текстового индексирования рассматриваются в следующем па­раграфе.

6.3. Полнотекстовые информационно-поисковые системы

Процессы массовой компьютеризации и информатизации деятельности предприятий, организаций в конце 80-х и в 90-х годах привели к накоплению огромных массивов неструктури­рованной текстовой компьютерной информации, с одной сто­роны, и доступности (всеобщей распространенности и персо-нальности) вычислительной техники, с другой стороны. Воз­никла потребность в программном инструментарии, который бы обеспечивал эффективный поиск нужных текстовых дан­ных.

Семантические подходы к автоматизации такого рода за­дач (информационно-поисковые каталоги, фасетные и тезаурусные системы) не могли быть в полной мере использованы в массовой персональной автоматизации, т. е. на рабочем месте отдельного пользователя или для небольшой рабочей группы, так как требовали серьезной предварительной проработки со­ответствующей предметной области.* Потребовались средства, которые бы в максимальной степени освобождали пользовате­ля от необходимости сложной предварительной структуриза­ции предметной области и затратных процедур индексирова­ния при накоплении, получении и агрегировании текстовых данных, но в то же время создавали бы эффективный и интуи­тивно понятный поисковый инструментарий необходимых до­кументов.

* В этом отношении примечательным является следующее замечание — файло­вые системы ОС ПК предусматривают создание произвольной схемы логических дис­ков, каталогов, подкаталогов и т.п., которые по логике должны отображать структуру предметной области сведений пользователя ПК и, тем самым, в упрощенном утриро­ванном виде решать задачи систематизации размещения документов-файлов для быс­трого и эффективного их нахождения. Однако в большинстве случаев пользователями такая адекватная их потребностям система каталогов не создается из-за недостаточной их квалификации или нетривиальности самой структуры предметной области и дан­ные зачастую размещаются довольно хаотично.

 

В результате на рынке программных продуктов в конце 80-х годов появились полнотекстовые ИПС и программные средства их создания, называемые иногда полнотекстовыми СУБД.

6.3.1. Информационно-технологическая структура полнотекстовых ИПС

Полнотекстовые ИПС строятся на основе информационно-поисковых языков дескрипторного типа. Их информационно-технологическая структура представлена на рис. 6.9 и включа­ет следующие элементы:

• хранилище (базу) документов;

• глобальный словарь системы;

• индекс документов инвертированного типа;

• интерфейс ввода (постановки на учет) документов в сис­тему;

• механизм (машину) индексирования;

• интерфейс запросов пользователя;

• механизм поиска документов (поисковую машину);

• механизм извлечения (доставки) найденных документов.

Хранилище документов может быть организовано как единая локально сосредоточенная информационная структу­ра в виде специального файла (файлов) с текстами докумен­тов. Организация такого файла предусматривает указательную конструкцию на основе массива адресов размещения докумен­тов. Для компактного хранения документов они могут быть сжаты архиваторами.

Другой вариант не предусматривает создания локально со­средоточенного хранилища документов, а ограничивается лишь массивом адресов расположения документов в соответствую­щей компьютерной информационной инфраструктуре (струк­тура дисков и каталогов отдельного компьютера или локаль­ной информационной сети, информационная инфраструктура глобальной информационной сети). Файлы текстовых докумен­тов распределены и размещаются в тех узлах и элементах ин­формационной инфраструктуры, которые соответствуют техно­логии создания и обработки документов (документообороту). Вместе с тем все они учтены в полнотекстовой ИПС (т.е. проиндексированы по содержанию и зафиксированы по месторас­положению) для эффективного поиска и доступа к ним. Такой подход более логичен с точки зрения технологий документо­оборота или распределенного характера систем (например, си­стема WWW сети Интернет), но недостатком имеет необходи­мость постоянного отслеживания и учета возможных переме­щений документов.

 

Рис. 6.9. Информационно-технологическая структура полнотекстовых ИПС

Одним из наиболее характерных элементов полнотексто­вых ИПС является глобальный словарь системы. Глобальные словари могут быть статическими и динамическими.

Статические словари не зависят от содержания докумен­тов, вошедших в хранилище, а определены изначально в систе­ме. В качестве таких статических словарей в том или ином виде, как правило, выступают словари основных словоформ соответ­ствующего языка (русского, английского, немецкого и т. д.).

Динамические словари определяются набором словоформ, имеющихся в накапливаемых в хранилище документах. Изна­чально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы, которых еще не было в ранее накопленных документах. Такой подход более экономи­чен и обеспечивает некоторую настройку словарной базы на предметную область документов.

Элементы глобального словаря выступают в качестве дес­крипторов ИПЯ системы. Поступающие через интерфейс вво­да/вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полно­текстовых МПС полностью автоматизируется и заключается в создании специального двоичного вектора, компоненты кото­рого показывают наличие или отсутствие в данном документе слова с соответствующим номером (позицией) из глобального словаря. В результате на «учет» в системе ставятся все слова текста документа, откуда, повторимся, происходит и название — «полнотекстовые ИПС».

Важной особенностью, оказывающей существенное влия­ние на эффективность полнотекстовых ИПС, является на­личие либо отсутствие морфологического разбора при индек­сировании документов и запросов. Морфологический разбор по­зволяет распознавать как одну общую словоформу все однокоренные слова (вода, водный, водяной), а также лексемы, т. е. одни и те же слова, отличающиеся в тексте различными окон­чаниями, приставками и суффиксами (водный, водного, водному, воду, воде и т. п.). Такой процесс основывается на нормали­зации глобального словаря системы, объединяющей в одну сло­воформу (в одну позицию) все однокоренные слова и лексемы. Кроме того, при морфологическом разборе отбрасываются так называемые неинформативные слова (стоп-слова) — предло­ги, союзы, восклицания, междометия и некоторые другие грам­матические категории. В большинстве случаев морфологичес­кий разбор осуществляется в системах со статическим глобаль­ным словарем. Для русского языка в качестве такого нормализованного глобального словаря используется составлен­ный в 1968 году академиком И. К. Зализняком морфологичес­кий словарь русского языка. Он позволяет распознать и соот­ветственно нормализовать более 3 млн. словоформ.

В результате индексирования ПОД каждого нового доку­мента представляется набором словоформ из глобального сло­варя, присутствующих в тексте документа, и поступает в виде соответствующего двоичного вектора для дополнения индекса системы. Индекс строится по инвертированной схеме и в дво­ичном виде отражает весь (полный) текст учтенных или накоп­ленных документов.

При удалении документа из системы соответственно уда­ляется и поисковый образ документа, т. е. соответствующий столбец индекса.

Пользователь языком запросов ИПЯ полнотекстовой ИПС через соответствующий интерфейс запросов выражает свои информационные потребности по поиску документов, которые в общем плане, так же как и документы, индексируются и в виде двоичных векторов поисковых образов запросов поступа­ют на поисковую машину. Механизм поиска основывается на тех или иных алгоритмах и критериях сравнения поискового образа запроса с поисковыми образами документов, образую­щими индекс системы. Результатом поиска является определе­ние номеров документов, поисковые образы которых соответ­ствуют или близки поисковому образу запроса. Далее специ­альная подсистема на основе установленных в хранилище документов указательных конструкций извлекает и достав­ляет соответствующие документы пользователю.

Таким образом, программное обеспечение полнотекстовых ИПС обеспечивает полный технологический цикл ввода, обра­ботки, поиска и получения документов. В практическом плане ИПС могут поставляться как готовый информационный про­дукт, т. е. с уже сформированной базой документов и интерфей­сом поиска и доступа к ним.* В других случаях поставляется программная среда, позволяющая такую базу создать и сформи­ровать тем самым документальную информационно-поисковую систему. Такие программные средства иногда называют полно­текстовыми СУБД.

* Такими информационными продуктами, основанными в том числе и на полно­текстовых технологиях, являются многочисленные юридические информационно-справочные системы — «Кодекс», «Гарант», «Консультант плюс» и др.

 

6.3.2. Механизмы поиска документов в полнотекстовых ИПС

В полнотекстовых ИПС поиск документов осуществляет­ся по индексу системы через дескрипторный язык запросов с логическими операциями над словоформами, а также через дру­гие механизмы использования поисковых образов документов и запросов.

Принцип и механизм поиска документов по индексу сис­темы очевидны. Пользователь должен указать путем перечис­ления и ввода в систему тех словоформ, набор которых выра­жает его информационные потребности. К примеру, если пользователю необходимо найти документы, содержание кото­рых касается экспорта редкоземельных элементов, то запрос к системе может выглядеть следующим образом «экспорт ред­коземельные элементы». В ответ система по индексу опреде­лит номера (группу) документов, где присутствует слово «экс­порт», группу документов, где присутствует слово «редкоземель­ные», и группу документов, где присутствует слово «элементы». Ясно, что полнота и точность такого поиска будут оставлять желать много лучшего, так как в первой группе документов могут присутствовать в том числе и документы, в которых речь идет об экспорте чего-то другого, например леса, или об экс­порте вообще. Во второй группе документов могут присутство­вать документы, в которых речь идет, в том числе, о добыче или производстве редкоземельных элементов, но не об их экс­порте. В третьей группе документов могут присутствовать и документы, в которых речь идет, скажем, о преступных элемен­тах, что, конечно же, совершенно может не соответствовать благим информационным потребностям пользователя.

Слабая эффективность подобного способа выражения ин­формационных потребностей преодолевается некоторыми реляиионными дополнениями такого чисто дескрипторного языка запросов на основе посткоординации, только не понятий, а словоформ. В язык запросов вводятся логические операции от­ношений дескрипторов запроса — операция логического «И», операция логического «ИЛИ», операция логического отрица­ния «НЕ».

Если словоформы запроса из приведенного выше примера объединить операцией логического «И», то система отберет только те документы, в которых одновременно присутствуют словоформы «Экспорт», «Редкоземельные», «Элементы». Не­смотря на возможность ложной координации словоформ, та­кое усовершенствование чисто дескрипторного характера язы­ка запросов приводит к существенному повышению эффектив­ности поиска и предоставляет пользователю более развитые возможности по выражению своих информационных потреб­ностей.

Следует также добавить, что подобные принципы постро­ения языка запросов повышают требования к квалификации пользователя, в частности по пониманию и оперированию ло­гическими операциями. Вместе с тем, как показывает практи­ка, большинство так называемых «неподготовленных» пользова­телей способно самостоятельно осваивать и применять подоб­ные, в общем-то, интуитивно понятные языковые конструкции.

На практике язык запросов полнотекстовой ИПС дополня­ется также операциями работы с датами и в ряде систем воз­можностями координатного анализа текста документов. Ра­нее неявно предполагалось, что единичным объектом поиска словоформ и соответственно областью действия логических операторов является документ, а не более мелкие его составля­ющие — абзацы, предложения. В системах с координатным ана­лизом область действия логических операторов можно сужать вплоть до предложения. Примером таких возможностей явля­ется запрос на отыскание таких документов, где словоформы «экспорт», «редкоземельные», «элементы» присутствуют одно­временно (операция «И») внутри одного предложения. Коор­динатный анализ позволяет еще более повысить эффективность поиска релевантных документов, но требует более детального индексирования. Для словоформ словаря системы в индексе должны при осуществлении координатного анализа фиксиро­ваться не только номера документов, но номера абзацев, номе­ра предложений и номера соответствующих словоформ в по­рядке следования слов в соответствующих предложениях.

Отличительной особенностью поиска документов по ин­дексу является практическая независимость времени (скорос­ти) поиски от объема базы документов, особенно если исполь­зуется статический словарь. Для любого запроса, независимо от текущего объема базы документов, выполняется приблизи­тельно одинаковое количество операций, связанных с просмот­ром строк индексного массива и определением совокупности номеров релевантных документов. Следующей стадией выпол­нения запроса является собственно извлечение из базы (файла документов) самих документов. Для этого обычно в полнотек­стовой ИПС создается специальный массив (см. рис. 6.9) адре­сов начала расположения документов.

В системах с динамически поддерживаемыми словарями время поиска при увеличении объема базы документов сначала также увеличивается (т. к. пропорционально увеличивается объем словаря и, соответственно, объем индекса), а затем так же, как в системах со статическими словарями, перестает зави­сеть от объема базы документов. Это объясняется тем, что с некоторой границы объема базы документов словарь системы уже набирает практически полный набор словоформ, присущих конкретной предметной области, и вероятность появления в новом документе слова, которого еще не было в словаре систе­мы, резко падает.







Дата добавления: 2015-08-12; просмотров: 727. Нарушение авторских прав; Мы поможем в написании вашей работы!



Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...

Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

ПУНКЦИЯ И КАТЕТЕРИЗАЦИЯ ПОДКЛЮЧИЧНОЙ ВЕНЫ   Пункцию и катетеризацию подключичной вены обычно производит хирург или анестезиолог, иногда — специально обученный терапевт...

Ситуация 26. ПРОВЕРЕНО МИНЗДРАВОМ   Станислав Свердлов закончил российско-американский факультет менеджмента Томского государственного университета...

Различия в философии античности, средневековья и Возрождения ♦Венцом античной философии было: Единое Благо, Мировой Ум, Мировая Душа, Космос...

Мотивационная сфера личности, ее структура. Потребности и мотивы. Потребности и мотивы, их роль в организации деятельности...

Классификация ИС по признаку структурированности задач Так как основное назначение ИС – автоматизировать информационные процессы для решения определенных задач, то одна из основных классификаций – это классификация ИС по степени структурированности задач...

Внешняя политика России 1894- 1917 гг. Внешнюю политику Николая II и первый период его царствования определяли, по меньшей мере три важных фактора...

Studopedia.info - Студопедия - 2014-2024 год . (0.008 сек.) русская версия | украинская версия