Студопедия — Эффективность ИПС
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Эффективность ИПС






Эффективность информационного поиска (от лат. effectus - завершённый, законченный) – техническая оценка качества информационного поиска в ИПС. Основными параметрами, характеризующими её, считаются коэффициент полноты поиска R и коэффициент точности поиска Р (или эквивалентные им коэффициенты потерь информации Q и поискового шума S). Наиболее распространённый способ оценки эффективности поиска основывается на сопоставлении выдачи ИПС с результатами определения релевантности (соответствия) документов, входящих в информационный массив системы, которое производит группа специалистов-экспертов. Этот подход используется в большинстве известных методов определения потерь информации при поиске и поискового шума, несмотря на неоднозначность результатов такого определения релевантности, связанную с элементами субъективности при экспертной оценке. Идеальной считается ИПС, характеризуемая нулевыми значениями коэффициента потерь информации при поиске и поискового шума (или, что то же, значениями коэффициента полноты и точности равными единице). В реальных системах такие показатели недостижимы. Коэффициент полноты поиска обычно колеблется в пределах 0,7-0,9, а коэффициент точности поиска – в очень широких пределах, снижаясь до 0,1. величины коэффициента полноты и точности поиска зависят от ряда факторов: объёма и характеристик информационного массива, степени специфичности информационных запросов, свойств, используемых в системе информационно-поискового языка, критерия семантического соответствия.

Основным способом снижения потерь информации при поиске при заданных условиях функционирования ИПС является введение парадигматических отношений между словами информационного языка.

основным способом снижения поискового шума является введение синтагматических отношений между словами информационного языка в поисковых образах документов и запросов. При этом в критерии семантического соответствия должно быть учтено введение этих отношений. Английским учёным С. Клевердоном установлена обратная зависимость между полнотой и точностью поиска в одной системе (при использовании одного и того же ИПЯ).

Поэтому в ИПС иногда применяют ИПЯ, позволяющие в разной степени использовать парадигматические и синтагматические отношения. Это позволяет достигнуть приемлемых с точки зрения потребителя значений коэффициентов полноты и точности поиска или приемлемого соотношения этих значений. Следует учитывать, что достижение максимально возможной полноты поиска связано с огромными сложностями. Последние 5-10% требуют такого же усложнения языкового аппарата системы, как и предыдущие 90-95%, что влечёт за собой увеличение трудоёмкости обработки входной информации и времени поиска. Поэтому к максимальной полноте поиска стремятся лишь в особых случаях (напр., при патентной экспертизе).

Эффективность информационного поиска в документальной ИПС оценивается, в основном, коэффициентом точности поиска и коэффициентом полноты поиска.

коэффициент точности поиска – один из параметров, характеризующих техническую эффективность поиска

,

где а – число релевантных документов, выданных ИПС в ответ на информационный запрос;

b – число нерелевантных документов, выданных при этом системой. Коэффициент точности поиска связан с коэффициентом поискового шума S соотношением P = 1 – S.

Коэффициент полноты поиска - один из параметров, характеризующих техническую эффективность информационного поиска

где а – число релевантных документов, выданных ИПС в ответ на информационный запрос;

c – число релевантных документов в поисковом массиве системы, не выданных системой.

Этот коэффициент связан с коэффициентом потерь информации при поиске Q соотношением R = 1 – Q.

Потери информации при поиске – это невыдача ИПС документов или фактов, релевантных данному запросу. Коэффициент потерь Q связан с коэффициентом полноты поиска R соотношением Q = 1 – R.

Поисковый шум – выдача ИПС документов, нерелевантных данному запросу информационного языка.

Релевантный документ – документ является релевантным по отношению к информационному запросу, если между запросом и документом существует отношение релевантности.

Релевантность (от лат. relevo – поднимаю, облегчаю) семантическое соответствие пары текстов, один из которых представляет собой информационный запрос, а другой – документ в документальной ИПС или описание факта в фактографической ИПС.

Различают релевантность содержательную и релевантность формальную. Содержательная релевантность трактуется как соответствие документа или фактографической записи информационному запросу, определяемое неформальным путём, а формальная – как соответствие, определяемое алгоритмически путём сравнения ПОЗ с ПОД или с фактографической записью на основании применяемого в ИПС критерия семантического соответствия. В неавтоматизированных ИПС процесс поиска основан на определении персоналом системы содержательной релевантности, а в автоматизированных ИПС отбор документов или фактов основан на определении формальной релевантности.

Содержательная релевантность в автоматизированных ИПС, определяемая, например, методом экспертных оценок выдачи, используется для получения данных об эффективности информационного поиска в системе.

Контрольные вопросы по разделу 7

1. Что такое информационно-поисковая система (ИПС)?

2. Что такое информационно-поисковый язык (ИПЯ), тезаурус, грамматика языка?

3. Что такое поисковый образ документа, поисковый образ запроса, поисковый массив?

4. Из каких компонентов состоит ИПС? Абстрактная ИПС, информационно-поисковое устройство.

5. Какие существуют виды ИПС, чем отличается документальный поиск от фактографического?

6. Для чего нужны поисковые признаки, как они используются в информационном поиске?

7. Описать по блок-схеме ИПС работу документальной и фактографической ИПС.

8. В чем отличие документальной и фактографической ИПС?

9. Дать определение понятиям дескриптор, парадигма, тезаурус, индекс, индексирование, координатное индексирование?

10. Что такое поиск информационный автоматизированный, ретроспективный информационный поиск, избирательное распределение информации?

11. Что такое парадигматическое отношение, какими способами оно задаётся?

12. Что такое синтагматическое отношение, отношение подчинения, пертинентность?

13. Что такое эффективность информационного поиска, как она оценивается?

14. Как определяются коэффициенты точности и полноты поиска, коэффициент поискового шума, как они связаны между собой?

15. Что такое потери информации при поиске, поисковый шум, релевантность, релевантный документ?

 







Дата добавления: 2015-09-19; просмотров: 2424. Нарушение авторских прав; Мы поможем в написании вашей работы!



Шрифт зодчего Шрифт зодчего состоит из прописных (заглавных), строчных букв и цифр...

Картограммы и картодиаграммы Картограммы и картодиаграммы применяются для изображения географической характеристики изучаемых явлений...

Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...

Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Меры безопасности при обращении с оружием и боеприпасами 64. Получение (сдача) оружия и боеприпасов для проведения стрельб осуществляется в установленном порядке[1]. 65. Безопасность при проведении стрельб обеспечивается...

Весы настольные циферблатные Весы настольные циферблатные РН-10Ц13 (рис.3.1) выпускаются с наибольшими пределами взвешивания 2...

Хронометражно-табличная методика определения суточного расхода энергии студента Цель: познакомиться с хронометражно-табличным методом опреде­ления суточного расхода энергии...

Машины и механизмы для нарезки овощей В зависимости от назначения овощерезательные машины подразделяются на две группы: машины для нарезки сырых и вареных овощей...

Классификация и основные элементы конструкций теплового оборудования Многообразие способов тепловой обработки продуктов предопределяет широкую номенклатуру тепловых аппаратов...

Именные части речи, их общие и отличительные признаки Именные части речи в русском языке — это имя существительное, имя прилагательное, имя числительное, местоимение...

Studopedia.info - Студопедия - 2014-2024 год . (0.01 сек.) русская версия | украинская версия