Введение……………………………………………………………….3за 2011 год
_____________________________________________________________ Факультет кибернетики и информационной безопасности Кафедра информационных технологий в социальных системах
Отчёт по лабораторной работе «Изучение средств подготовки поискового предписания и стратегий поиска документальной информации в реферативной БД» по курсу “Автоматизированные информационные систем”
Работу выполнил студент группы К7-681 Сыроежкин Герман
Проверил Максимов Н.В.
Москва, 2012 Цель работы: Освоение средств подготовки поискового предписания и оценка стратегий поиска информации в базе данных реферативно-библиографической информации.
Метод выполнения. В работе используются три следующих поисковых технологии:
1). “Вербальная” технология - поиск по поисковому предписанию (ПП) в режиме “запрос-ответ", в том числе: поиск по структурированному ПП с использованием только нормализованной лексики поля ключевых слов; поиск по ПП, построенному с использованием операторов полного ИПЯ со свободной лексикой по полю ключевых слов; поиск по комбинированному ПП, с несколькими поисковыми полями в т.ч. с использованием общего поискового словаря; поиск по ПП с использованием критерия частичного вхождения.
2). Технология накопления результата.
3). Технология реформулировки запроса по обратной связи.
Оценка качества поиска проводится с помощью показателей эффективности работы АИПС. Для этого каждый полученный документ должен быть оценен на соответствие теме (информационной потребности) по следующей шкале: - "релевантен", если соответствует теме и удовлетворяет информационной потребности; - "неопределенная релевантность", если соответствует теме но не удовлетворяет информационной потребности; - "нерелевантен", если не соответствует теме. Порядок выполнения работы: Работа выполняется в среде АИС ИРБИС на материале БД ИНФОРМАТИКА и включает в себя три этапа: 1. Структурирование запроса и формирование исходного поискового предписания; 2. Изучение технологии формирования ПП и выполнения поиска по запросу; 3. Поиск в режиме динамического реформулирования запроса.
Этап 1.Структурирование запроса и формирование исходного ПП Тема: Внутрисемейная и межсемейная изменчивость среди человеческих лиц
Проблема: Математически обосновать внутрисемейную и межсемейную изменчивость среди человеческих лиц. Сопоставление математических признаков внутри семьи или между семьями. Цель: Разработать компьютерный алгоритм, способный определить какие черты лица подвергаются изменениям с возрастом и в какой степени внутри семьи. Выявление и изучение причин изменчивости, поиск зависимостей внутри семьи и между семьями. Точность (доля релевантных документов во множестве выданных) будем рассчитывать по следующей формуле: , где a – кол-во релевантных док-ов, b – кол-во нерелевантных. Признаки 1. Способ представления лица: а) лицо – как часть тела (с точки зрения физиологии и назначения); б) лицо – как объект моделирования (с точки зрения моделирования); Основные черты лица <а>, Модель <б>. 2. Возможности представления объектной модели: а) графическая; б) математическая; Характеристики изображения <а>, Математические характеристики<б>. 3. Положение черт (частей) лица, используемых при моделировании, относительно центра лица: Нос, глаза, уши, рот. 4. Инструментарий обработки, используемый при моделировании графической модели: Цветовая модель, яркость, контрастность, светлота, гамма. 5. Инструментарий обработки, используемый при моделировании математической модели: Математическое ожидание, дисперсия, отклонение. 6. Численные характеристики глаз: Межзрачковое расстояние, диаметр радужки.
1) Поиск по полю «Ключевые слова» Математические характеристики: Ключевые слова: Анализ данных, статистика, дисперсия, математическое ожидание, среднеквадратичное отклонение.
Основные характеристики изображения: Ключевые слова: внутрисемейная изменчивость, межсемейная изменчивость, цветовая модель, яркость, контрастность, светлота, гамма.
Основные черты лица: Ключевые слова: линия губ, черты лица, межзрачковое расстояние, диаметр радужки.
Этап 2. Изучение “вербальной” технологии поиска по запросу. Модифицировано поисковое предписание Истинно релевантных документов – 23.
Математическая характеристики:
Основные характеристики изображения:
Поиск по полю «Ключевые слова»: ((‘анализ$данн$’) or (дисперс$) or ((cтатистик$ and (баз$ or $данн$ or $информац$)) not $библ$) or (‘cтатисти$анализ$’ and $инфо$)) and ((освещенност$ not (книг$ and библ$)) or контрастн$ or цвет)
Поиск по полю «Реферат»: ((‘анализ$данн$’) or (дисперс$) or ((cтатистик$ and (баз$ or $данн$ or $информац$)) not $библ$) or (‘cтатисти$анализ$’ and $инфо$)) and ((освещенност$ not (книг$ and библ$)) or контрастн$ or цвет)
Поиск по общему словарю ALL: ((‘анализ$данн$’) or (дисперс$) or ((cтатистик$ and (баз$ or $данн$ or $информац$)) not $библ$) or (‘cтатисти$анализ$’ and $инфо$)) and ((освещенност$ not (книг$ and библ$)) or контрастн$ or цвет)
Поиск с применением автомаскирования по полям для каждой категории:
Математические характеристики: ((((‘$анализ$данн$’ and $дисперси$) or $статисти$) and ($средн$ or ($математ$ and $ожидани$))) not $библ$ not $РГБ$ not $геогр$)
Выделился один документ, благодарю слову, найденному в параллельном заглавии
Основные характеристики изображения: (освещенност$ or контрастн$ or цвет) not (книг$ and библ$)
Этап 3. Изучение технологии реформулирования запроса “по обратной связи”.
Итеративный эвристический поиск По предложению запроса, показавшего наибольший показатель точности. После первой итерации эвристического поиска - 8 релевантных документов из 25.
Результаты второй и третьей итераций полностью совпали с результатами первой итерации. Подмножество по релевантности и выдаче полностью совпали.
Эвристический поиск по итоговому результату Объединив множества релевантных документов полученных в результате составления модифицированного поискового выражения по полю «Ключевые слова» и итеративного эвристического поиска получено 25 документов.
Для полученного результата выполнен эвристический поиск. В результате из 25 полученных документов - 8 релевантных.
Эффективный поиск
Сводная таблица результатов поиска
Заключение
В данной работе были освоены средства подготовки поискового предписания и оценка стратегий поиска информации в базе данных реферативно-библиографической информации.
Были применены следующие технологии поиска: § "Вербальная" технология; § Технология накопления результата; § Технологии реформулирования запроса “по обратной связи”.
Оценка качества поиска в данной работе была произведена при помощи показателей эффективности "полнота-точность". Для поиска наиболее эффективным оказывается совместное применение нескольких технологий, применение одной технологии дает хорошее значение лишь по одному показателю (полнота/точность).
В данной лабораторной работе таким примером может являться поиск по полю «Ключевые слова» с применением автомаскирования. В выдаче 14 документов, из них 7 релевантных с точностью 50% и полнотой 30%.
В ходе поиска было выявлено новое ключевое слово, подходящее для поиска по теме указанной предметной области: ЦВЕТ; а так же выявлены нерезультативные ключевые слова, которые не дали документов: МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ, МАТОЖИДАНИЕ.
При применении эвристического поиска было обнаружено, что на каждом этапе в выдаче содержатся одни и те же релевантные документы. Возможно, данная закономерность является следствием совпадения многих ключевых слов(или других характеристик)в данных документах, что не позволяет расширить область поиска новых релевантных документов.
В конечном счете, были найдены документы, содержание которых поможет в достижении цели.
Оглавление Введение……………………………………………………………….3
|