Информационный поиск в среде интернет
Программы, поддерживающие HTML-стандарты, обеспечивающие квалифицированное представление материалов пользователям и навигацию по ссылкам, называются броузерами. С целью упрощения процедуры во многих случаях поиск информации осуществляется простым использованием ключевых слов. Машины поиска используют сетевые роботы – спайдеры (боты) и индексы. Первые перемещаются в сети от сайта к сайту. Оказавшись на сайте, спайдер посылает отчет поисковой машине. Поисковые механизмы индексируют содержание страниц полностью или отдельные их части, такие, например, как заголовки документов. Основными характеристиками машин поиска являются язык запросов, представление исходных и выходных документов, время индексации и поиска, объем индекса, качество представления материала. Как правило, поисковые машины обеспечивают интерфейс типа меню, с помощью которого пользователь может скомпоновать запрос на поиск информации, используя ключевые слова, фразы и логические связки. Большинство машин поиска находят очень большое число «релевантных» документов и страниц. Обычно эти материалы ранжируются по степени корреляции с запросом. Типичный цикл работы машины поиска состоит в следующем: - найти новый документ; - отметить документ как извлеченный; - расшифровать ссылки; - проиндексировать содержание документа. Агенты в системе отвечают за извлечение документов из сети. Для выполнения этой работы поисковый механизм находит свободного агента и передает ему задание на поиск. Агент приступает к работе и возвращает либо содержание документа, либо объяснение, почему данный документ нельзя доставить. Агенты запускаются как отдельные процессы, что позволяет изолировать основной процесс от ошибок и проблем с памятью. Одновременно используется много агентов. В развитых системах поиска имеются такие возможности: - сохранения параметров поиска для повторного использования, а часто и полной истории запросов пользователя; - параллельного поиска на множестве ресурсов Интернета; - оформления результатов в виде отчетов (HTML-файлов) и сохранения их в базе данных; - слежения за обновлением информационных ресурсов Интернета, в том числе с частотой, задаваемой пользователем. Прогресс систем поиска идет по пути увеличения интеллектуализации агентов и механизмов обучения, создания совершенных моделей знаний и правилам выводов на знаниях, анализа естественно-языковых текстов и т. д.
|