Студопедия — АВТОМАТИЧЕСКОЕ ИНДЕКСИРОВАНИЕ
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

АВТОМАТИЧЕСКОЕ ИНДЕКСИРОВАНИЕ






 

Автоматическое индексирование документов может основываться на простых односложных, или многословных составных терминах (фразах). Простые термины далеко не идеальны для индексирования, поскольку смысл слов вне контекста нередко бывает неоднозначным. Термины-фразы обладают большей дискриминирующей способностью.

Термин-фраза может состоять из основы фразы и остальных компонентов. Основой фразы признается термин с частотой вхождения в документы, превышающей определенный порог. Остальные компоненты термина-фразы имеют среднюю или низкую частоту вхождения. При этом учитывается их связь с основой фразы, например размещение их в одном предложении или на некотором заданном расстоянии друг от друга.

Для генерации групп взаимосвязанных слов по замеченным закономерностям совместного их вхождения в документы применяются методы группирования или кластеризации терминов. Если представить матрицу терминов в виде двухмерного массива, вышеупомянутый метод сравнивает друг с другом столбцы матрицы и делает заключение о том, входит та или иная группа терминов в несколько документов совокупности. Если такое неоднократное вхождение имеет место, то термины считаются связанными и группируются в один класс.

Основу методов автоматического индексирования составляет присваивание весовых коэффициентов терминам на основе статистических характеристик.

Предположим, что в исследуемой совокупности имеется документов. Пусть - частота вхождения термина в документ . Индексирование на основе частоты термина позволяет достичь лишь одной из целей индексирования – полноты поиска. Для повышения точности поиска используют термины, сконцентрированные в отдельных документах. Это позволяет отделить документы, где такие термины встречаются, от тех, где их нет.

Пусть - число документов, в которых встречается термин . Тогда величина log( / ) может служить индикатором того, является ли термин дискриминатором документов .

Частоту термина и последнюю величину можно объединить в рамках единой модели индексирования по частоте, означающей вес термина в документе :

= log( / ).

Еще один статистический метод индексирования основывается на дискриминации по термину. Здесь каждый документ рассматривается как точка в пространстве документов. Чем больше сходства у множеств терминов двух документов, тем ближе расположены соответствующие точки в пространстве документов.

В рамках данной схемы можно оценивать качество термина как дискриминатора документа, основываясь на том, какие изменения произойдут в пространстве документов после введения термина в индекс. Для количественной оценки такого изменения удобно использовать увеличение или уменьшение расстояния между документами. Термин является хорошим дискриминатором, если его введение увеличивает среднее расстояние между документами (снижается плотность в пространстве документов). Дискриминирующая характеристика термина , обозначаемая , вычисляется как разность между плотностями пространства документов до и после введения термина. Для совместного учета частоты термина и его дискриминирующей характеристики применяют следующую схему взвешивания:

= .

Полученные значения весов терминов могут использоваться в процессе принятия решения о включении термина в ПОД. Однако часто в ПОД заносят все термины, встречающиеся в документе, и их веса.

 







Дата добавления: 2014-11-10; просмотров: 1159. Нарушение авторских прав; Мы поможем в написании вашей работы!



Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

ФАКТОРЫ, ВЛИЯЮЩИЕ НА ИЗНОС ДЕТАЛЕЙ, И МЕТОДЫ СНИЖЕНИИ СКОРОСТИ ИЗНАШИВАНИЯ Кроме названных причин разрушений и износов, знание которых можно использовать в системе технического обслуживания и ремонта машин для повышения их долговечности, немаловажное значение имеют знания о причинах разрушения деталей в результате старения...

Различие эмпиризма и рационализма Родоначальником эмпиризма стал английский философ Ф. Бэкон. Основной тезис эмпиризма гласит: в разуме нет ничего такого...

Индекс гингивита (PMA) (Schour, Massler, 1948) Для оценки тяжести гингивита (а в последующем и ре­гистрации динамики процесса) используют папиллярно-маргинально-альвеолярный индекс (РМА)...

Метод Фольгарда (роданометрия или тиоцианатометрия) Метод Фольгарда основан на применении в качестве осадителя титрованного раствора, содержащего роданид-ионы SCN...

Потенциометрия. Потенциометрическое определение рН растворов Потенциометрия - это электрохимический метод иссле­дования и анализа веществ, основанный на зависимости равновесного электродного потенциала Е от активности (концентрации) определяемого вещества в исследуемом рас­творе...

Гальванического элемента При контакте двух любых фаз на границе их раздела возникает двойной электрический слой (ДЭС), состоящий из равных по величине, но противоположных по знаку электрических зарядов...

Studopedia.info - Студопедия - 2014-2024 год . (0.009 сек.) русская версия | украинская версия