Студопедия — МОДЕЛИ ПОИСКА ИНФОРМАЦИИ
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

МОДЕЛИ ПОИСКА ИНФОРМАЦИИ






 

Модель поиска текстовой информации характеризуется четырьмя параметрами:

- представлением документов и запросов;

- критерием смыслового соответствия;

- методами ранжирования результатов запросов;

- механизмом обратной связи, обеспечивающим оценку релевантности пользователем.

Рассмотрим некоторые модели поиска информации.

Булева модель представляет документы с помощью набора терминов, присутствующих в индексе, каждый из которых рассматривается как булева переменная. При наличии термина в документе соответствующая переменная принимает значение True. Присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций OR или NOT. Мерой соответствия запроса документу служит значение статуса выборки RSV. В булевой модели RSV равно либо 1 (документ релевантен), если для данного документа вычисление выражения запроса дает True, либо 0 в противном случае.

Хотя такая модель позволяет пользователям вводить в запросы произвольные сложные выражения, эффективность поиска невелика. К тому же ранжировать результаты невозможно, так как все найденные документы имеют одинаковые RSV, а терминам нельзя присвоить весовые коэффициенты. Могут быть и ошибки. Например, запрос, содержащий десять терминов, связанных операцией AND, не обнаружит нужный документ, содержащий меньшее количество терминов. В указанном случае необходима обратная связь с пользователем.

Модель нечетких множеств основывается на теории нечетких множеств, допускающей частичную принадлежность элемента тому или иному множеству. Здесь логические операции переопределены так, чтобы учесть возможность неполной принадлежности множеству, а обработка запросов пользователя выполняется аналогично булевой модели.

Пространственно-векторная модель основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом их n нормированных векторов терминов. Значение первого компонента вектора, представляющего документ, отражает вес термина в нем. Запрос пользователя также представляется n-мерным вектором. Показатель RSV, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа. Чем больше RSV, тем выше релевантность документа запросу.

Вероятностные модели подразумевают, что векторы терминов ортогональны и существующие взаимосвязи между терминами не имеют значения. Модель базируется на вероятности релевантности и нерелевантности документа запросу, которые вычисляются на основе фактического присутствия терминов в документе.

 







Дата добавления: 2014-11-10; просмотров: 2548. Нарушение авторских прав; Мы поможем в написании вашей работы!



Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

Понятие и структура педагогической техники Педагогическая техника представляет собой важнейший инструмент педагогической технологии, поскольку обеспечивает учителю и воспитателю возможность добиться гармонии между содержанием профессиональной деятельности и ее внешним проявлением...

Репродуктивное здоровье, как составляющая часть здоровья человека и общества   Репродуктивное здоровье – это состояние полного физического, умственного и социального благополучия при отсутствии заболеваний репродуктивной системы на всех этапах жизни человека...

Случайной величины Плотностью распределения вероятностей непрерывной случайной величины Х называют функцию f(x) – первую производную от функции распределения F(x): Понятие плотность распределения вероятностей случайной величины Х для дискретной величины неприменима...

МЕТОДИКА ИЗУЧЕНИЯ МОРФЕМНОГО СОСТАВА СЛОВА В НАЧАЛЬНЫХ КЛАССАХ В практике речевого общения широко известен следующий факт: как взрослые...

СИНТАКСИЧЕСКАЯ РАБОТА В СИСТЕМЕ РАЗВИТИЯ РЕЧИ УЧАЩИХСЯ В языке различаются уровни — уровень слова (лексический), уровень словосочетания и предложения (синтаксический) и уровень Словосочетание в этом смысле может рассматриваться как переходное звено от лексического уровня к синтаксическому...

Плейотропное действие генов. Примеры. Плейотропное действие генов - это зависимость нескольких признаков от одного гена, то есть множественное действие одного гена...

Studopedia.info - Студопедия - 2014-2024 год . (0.013 сек.) русская версия | украинская версия