Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Линейная модель работы ИПС.





Считаем, что в системе имеется t дескрипторов (иначе говоря объем тезауруса равен t). Тогда любой документ (точнее его поисковый образ) можно идентифицировать с помощью битового (двоичного) вектора X=(x1,…..,xt), где xj=1, если j-й дескриптор присутствует в описании документа, в противном случае xi=0.

Если в системе d документов, то вся информация может быть представлена с помощью матрицы Cdt:

//расписать матрицу (3)

i-я строка матрицы является описанием i-го документа.

Запрос (точнее его поисковое предписание) также можно представить в виде битового вектора Q=(q1,…,qt).

(формула ri) (4) - количество дескрипторов, которые одновременно присутствуют и в запросе и в i-м документе. Эта величина называется критерием релевантности i-го документа относительно запроса Q.

R =(r1,….,rd) - вектор релевантностей для запроса Q.

Результатом поиска обычно признаются документы, релевантность которых выше заданного порога r*, который должен зависеть от числа дескрипторов в запросе и в документе, что не очень удобно.

Выражение для R можно записать в матричной форме: R=C Q.

Пример. Пусть в системе имеется 6 дескрипторов и 2 документа имеющих описания (1,1,1,0,0,0) и (1,1,1,1,1,1). Подается запрос Q=(1,1,1,0,0,0). Тогда r1=r2=3, хотя очевидно, что 1-й документ лучше соответствует запросу.

Другой критерий: (формула ri)

Для нашего примера в этом случае r1=1, r2=1/2.

Как видим, второй критерий более совершенен, что объясняется учетом не только совпадений дескрипторов в описаниях, но и несовпадений.

К сожалению, в силу человеческого фактора, однотипные документы часто характеризуют разными ключевыми словами, и это необходимо учесть в поисковой модели. Целесообразно учитывать степень похожести дескрипторов и документов.

Вычислим матрицы A, D:

AttTtdCdt, Ddd= CdtCTtd.

Элемент ajm матрицы A показывает количество одновременных присутствий j-го и m-го дескрипторов в описаниях документов, а элемент dik матрицы D– количество общих дескрипторов в i-м и k-м документах. Таким образом, матрица A показывает степень похожести дескрипторов, а матрица D – степень похожести документов. С помощью определения порогов a* и d* эти матрицы приводятся к бинарному виду:

//формулы бинаризации матриц A и D (получаем A' и D') (5)

Пусть:

                     
A =         D =      
                     
  a٭ = 3     d٭ = 3

 

aij ≤ a*=> aij' = 0

aij > a* => aij = 1

dij ≤ d*=> dij' = 0

dij > d* => dij = 1

                     
A =         D =      
                     

 

Имеем смысл использовать критерий: R=D'(C(A' Q)) (6)

R=D'(C (A' Q))

Фактически в этом случае все похожие дескрипторы автоматически добавляются к запросу, по расширенному запросу производится поиск, а затем к множеству полученных документов добавляются похожие.

 







Дата добавления: 2015-10-19; просмотров: 531. Нарушение авторских прав; Мы поможем в написании вашей работы!




Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...


Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...


Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...


Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Постинъекционные осложнения, оказать необходимую помощь пациенту I.ОСЛОЖНЕНИЕ: Инфильтрат (уплотнение). II.ПРИЗНАКИ ОСЛОЖНЕНИЯ: Уплотнение...

Приготовление дезинфицирующего рабочего раствора хлорамина Задача: рассчитать необходимое количество порошка хлорамина для приготовления 5-ти литров 3% раствора...

Дезинфекция предметов ухода, инструментов однократного и многократного использования   Дезинфекция изделий медицинского назначения проводится с целью уничтожения патогенных и условно-патогенных микроорганизмов - вирусов (в т...

Разработка товарной и ценовой стратегии фирмы на российском рынке хлебопродуктов В начале 1994 г. английская фирма МОНО совместно с бельгийской ПЮРАТОС приняла решение о начале совместного проекта на российском рынке. Эти фирмы ведут деятельность в сопредельных сферах производства хлебопродуктов. МОНО – крупнейший в Великобритании...

ОПРЕДЕЛЕНИЕ ЦЕНТРА ТЯЖЕСТИ ПЛОСКОЙ ФИГУРЫ Сила, с которой тело притягивается к Земле, называется силой тяжести...

СПИД: морально-этические проблемы Среди тысяч заболеваний совершенно особое, даже исключительное, место занимает ВИЧ-инфекция...

Studopedia.info - Студопедия - 2014-2025 год . (0.008 сек.) русская версия | украинская версия