Студопедия — Весовые коэффициенты
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Весовые коэффициенты






До сих пор рассматривались отдельно взятый документ, не принимая во внимание, что он входит в базу данных наряду со множеством других документов. Если все документы одной и той же тематики или направления представить в виде одного, очень большого документа, то и к такому составному документу также применимы законы Зипфа.

Использование составного документа позволяет повысить качество выборки значащих слов (или их рейтинг) путем введения нового понятия инверсная частота термина, которая характеризует вес или значимость термина. Под термином может пониматься не только отдельное слово, но и единое по смыслу словосочетание

Инверсная частота термина i определяется выражением

, (1.1)

Где n ‑ общее число рассмотренных документов,

m – количество документов, содержащих данный термин.

Использование инверсной частоты позволяет снизить опасность попадания малозначащих терминов в состав выборки. С учетом инверсной частоты вес или значимость термина в каждом документе определится выражением

, (1.2)

где z — вес или значимость термина в некотором документе;

f— частота повторения термина в рассматриваемом документе;

i — инверсная частота этого термина в группе документов;

s— количество значащих слов в рассматриваемом документе.

Кстати, вес или значимость одного и того же термина в различных документах обычно существенно отличается друг от друга.

Роль инверсной частоты в приведенной формуле состоит в том, чтобы уменьшить вес слов и устойчивых словосочетаний, которые выполняют вспомогательные функции в документе, обеспечивая стиль и определенный характер повествования. Для случайных слов и сочетаний мала частота повторения терминов f, а для стоп-слов и вспомогательных понятий стремится к нулю инверсная частота i. Таким образом, вес или значимость термина z позволяет выделить именно ключевые слова и сочетания. Этот же параметр позволяет также ранжировать значащие слова, т. е. построить их последовательность в порядке значимости.







Дата добавления: 2015-10-12; просмотров: 865. Нарушение авторских прав; Мы поможем в написании вашей работы!



Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Этапы творческого процесса в изобразительной деятельности По мнению многих авторов, возникновение творческого начала в детской художественной практике носит такой же поэтапный характер, как и процесс творчества у мастеров искусства...

Тема 5. Анализ количественного и качественного состава персонала Персонал является одним из важнейших факторов в организации. Его состояние и эффективное использование прямо влияет на конечные результаты хозяйственной деятельности организации.

Билет №7 (1 вопрос) Язык как средство общения и форма существования национальной культуры. Русский литературный язык как нормированная и обработанная форма общенародного языка Важнейшая функция языка - коммуникативная функция, т.е. функция общения Язык представлен в двух своих разновидностях...

Тема 5. Организационная структура управления гостиницей 1. Виды организационно – управленческих структур. 2. Организационно – управленческая структура современного ТГК...

Методы прогнозирования национальной экономики, их особенности, классификация В настоящее время по оценке специалистов насчитывается свыше 150 различных методов прогнозирования, но на практике, в качестве основных используется около 20 методов...

Методы анализа финансово-хозяйственной деятельности предприятия   Содержанием анализа финансово-хозяйственной деятельности предприятия является глубокое и всестороннее изучение экономической информации о функционировании анализируемого субъекта хозяйствования с целью принятия оптимальных управленческих...

Studopedia.info - Студопедия - 2014-2024 год . (0.008 сек.) русская версия | украинская версия