Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

МОДЕЛИ ПОИСКА ИНФОРМАЦИИ





 

Модель поиска текстовой информации характеризуется четырьмя параметрами:

- представлением документов и запросов;

- критерием смыслового соответствия;

- методами ранжирования результатов запросов;

- механизмом обратной связи, обеспечивающим оценку релевантности пользователем.

Рассмотрим некоторые модели поиска информации.

Булева модель представляет документы с помощью набора терминов, присутствующих в индексе, каждый из которых рассматривается как булева переменная. При наличии термина в документе соответствующая переменная принимает значение True. Присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций OR или NOT. Мерой соответствия запроса документу служит значение статуса выборки RSV. В булевой модели RSV равно либо 1 (документ релевантен), если для данного документа вычисление выражения запроса дает True, либо 0 в противном случае.

Хотя такая модель позволяет пользователям вводить в запросы произвольные сложные выражения, эффективность поиска невелика. К тому же ранжировать результаты невозможно, так как все найденные документы имеют одинаковые RSV, а терминам нельзя присвоить весовые коэффициенты. Могут быть и ошибки. Например, запрос, содержащий десять терминов, связанных операцией AND, не обнаружит нужный документ, содержащий меньшее количество терминов. В указанном случае необходима обратная связь с пользователем.

Модель нечетких множеств основывается на теории нечетких множеств, допускающей частичную принадлежность элемента тому или иному множеству. Здесь логические операции переопределены так, чтобы учесть возможность неполной принадлежности множеству, а обработка запросов пользователя выполняется аналогично булевой модели.

Пространственно-векторная модель основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом их n нормированных векторов терминов. Значение первого компонента вектора, представляющего документ, отражает вес термина в нем. Запрос пользователя также представляется n-мерным вектором. Показатель RSV, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа. Чем больше RSV, тем выше релевантность документа запросу.

Вероятностные модели подразумевают, что векторы терминов ортогональны и существующие взаимосвязи между терминами не имеют значения. Модель базируется на вероятности релевантности и нерелевантности документа запросу, которые вычисляются на основе фактического присутствия терминов в документе.

 







Дата добавления: 2014-11-10; просмотров: 2578. Нарушение авторских прав; Мы поможем в написании вашей работы!




Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...


Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...


ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...


Теория усилителей. Схема Основная масса современных аналоговых и аналого-цифровых электронных устройств выполняется на специализированных микросхемах...

Дезинфекция предметов ухода, инструментов однократного и многократного использования   Дезинфекция изделий медицинского назначения проводится с целью уничтожения патогенных и условно-патогенных микроорганизмов - вирусов (в т...

Машины и механизмы для нарезки овощей В зависимости от назначения овощерезательные машины подразделяются на две группы: машины для нарезки сырых и вареных овощей...

Классификация и основные элементы конструкций теплового оборудования Многообразие способов тепловой обработки продуктов предопределяет широкую номенклатуру тепловых аппаратов...

Виды нарушений опорно-двигательного аппарата у детей В общеупотребительном значении нарушение опорно-двигательного аппарата (ОДА) идентифицируется с нарушениями двигательных функций и определенными органическими поражениями (дефектами)...

Особенности массовой коммуникации Развитие средств связи и информации привело к возникновению явления массовой коммуникации...

Тема: Изучение приспособленности организмов к среде обитания Цель:выяснить механизм образования приспособлений к среде обитания и их относительный характер, сделать вывод о том, что приспособленность – результат действия естественного отбора...

Studopedia.info - Студопедия - 2014-2025 год . (0.013 сек.) русская версия | украинская версия