Поисковые машины
Поисковая машина - поисковая система с формируемой программным "роботом" базой данных, содержащей информацию об информационных ресурсах. Все поисковые машины, предназначенные для сети Интернет, имеют более или менее схожие принципы работы. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками. Почти каждая поисковая система (скажем так — классическая поисковая система) состоит из трех основных компонентов: · веб-паука (web spider); · индексатора; · алгоритма поиска и оценки результатов. Веб-паук, несмотря на всю экзотичность подобного названия, -это всего-навсего специальная программа, которая запускается на компьютере (компьютерах), подключенном к Интернету, и ее основная задача — шерстить весь этот Интернет (точнее, интернетовские странички) во всех возможных направлениях. Ведь странички, как мы говорили, состоят из гиперссылок, так вот паук и носится как угорелый по гиперссылкам «паутины» сайтов и скачивает полученные таким образом странички для второго компонента - индексной базы. Индексатор — это обработчик скачанных веб-пауком страниц. Он извлекает оттуда все слова и складывает их в поисковую базу (индексную базу). При этом индексатор записывает, где именно было найдено то или иное слово, и данная информация потом используется в поиске. Алгоритм поиска — это главное ноу-хау любой поисковой системы. От алгоритма зависит эффективность полученного результата - то есть насколько быстро и точно пользователь найдет то, что его интересует. Таким образом, когда пользователь вводит свой запрос, поисковая машина ищет ответ в своей индексной базе и выводит результаты в соответствии со своим алгоритмом поиска. Для хорошей работы поисковой системы важны все три компонента. Причем каждый из них, на самом деле, весьма сложен, и его работа подчиняется огромному количеству всевозможных хитрых правил, которые, к тому же, постоянно корректируются. Поисковик должен иметь и шустрого паука, и мощную индексную базу, и эффективный алгоритм поиска — только тогда вы будете получать действительно полезные результаты. Невероятно распространено заблуждение, что во время поиска по вашему запросу избранная поисковая машина обходит миллионы известных ей адресов и сверяет соответствие ключевых слов содержимому "свежих" гипертекстов. Не так! Поиск интересующих вас ссылок ведется в постоянно обновляемой собственной информационной базе (колоссального размера индексные файлы) поисковой машины, и в ответ на ваш запрос выдаются подходящие URL-адреса во всех концах сети Интернет. Поисковая машина самостоятельно постоянно ведет циклический опрос заданных адресов в Сети, пополняя собственную базу данных. В значительной степени, доступность документа для поисковой системы зависит от его автора. В его власти использовать в гипертексте наиболее запрашиваемые ключевые слова, поместить документ на доступном для основных поисковых машин сервере и не забыть заявить о себе поисковым службам международной сети Интернет. Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы сохранить окно с результатами запроса к поисковой машине. Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определения похожести - весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим ожиданиям. Некоторые поисковые машины позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме. Поскольку поисковые машины существуют в Интернете, в основном, за счёт публикуемой рекламы, как правило, самые популярные системы поиска могут предоставить вам наилучшие возможности. Для рядового пользователя услуги поисковых серверов, как правило, предоставляются бесплатно. Достаточно лишь указать адрес поисковой системы в рабочей строке браузера или обратиться к ней через каталог закладок. Главной задачей любой поисковой машина является поиск информации, соответствующей информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность. Релевантность - это степень соответствия результатов поиска сформулированному запросу. Что значит «степень соответствия»? Вот смотрите. Например, вы студент (школьник, аспирант, кандидат, профессор), и вам нужно написать какой-то реферат. Как продвинутое дитя интернетовского века, вы не собираетесь его писать самостоятельно, а надеетесь найти соответствующий текст в Интернете и выдать его за свой. Не берясь оценивать подобное действо с точки зрения морали, будем рассматривать это просто как пример. Итак, прежде всего вам нужно найти сайт с рефератами. Вы заходите на поисковую систему и вводите слово для поиска «рефераты». Поисковая система заглядывает в свою индексную базу и видит там ссылки примерно на 7 864 295 страниц, на которых это слово встречается 31 378 327 раз. (Цифры абсолютно реальные и предоставлены поисковой системой Япс1ех.) Причем это слово присутствует как на страницах сайта «Банк рефератов», так и на страницах дневника Леночки, где дословно написано следующее: «Сегодня пыталась писать реферат. Шесть ногтей покрасила, но так ни черта и не написала. Какой-то сегодня прям нерефератный день, дивчонки, да?» Так какую ссылку пользователь хочет получить первой: на банк рефератов или на страничку Леночки, где просто употребляется слово «реферат»? Разумеется, на банк рефератов! Вот это и называется — релевантность, то есть степень соответствия запросу. Каким образом поисковая система может определить эту релевантность, то есть какие из страничек с заданной поисковой строкой наиболее интересны и полезны пользователю? В этом как раз и заключается ноу-хау различных поисковиков, однако общий принцип у них достаточно похож, и анализ результатов проводится примерно следующим образом: · Проверяется, сколько раз заданное слово (словосочетание) встречается на отобранных страничках. Разумеется, чем больше, тем лучше, потому что больше вероятность того, что эти страницы посвящены именно данной тематике. · Проверяется расстояние между словами, если введена целая фраза. То есть если пользователь ищет «Герберт фон Кара-ян», то страничка, на которой встречается «Герберт фон Ка-раян родился» будет более релевантной, чем страничка с текстом: «Герберт утром встал, побрился, достал из кармана фон дер пшик, а потом включил Караян по телевизору». · Количество ссылок на данную страницу (индекс цитируемое™). Чем больше на данную страницу ссылаются (ставят гиперссылку) другие страницы, тем больше вероятность того, что именно эта страница нужна пользователю. · Каким шрифтом (стилем) набрана на странице искомая фраза. Если фраза написана крупным шрифтом (является заголовком) или выделена жирным — это тоже признак более высокой релевантности данной страницы. · Возраст сайта. Чем дольше существует данный сайт, тем лучше это влияет на релевантность. Таким образом, как видите, уровень релевантности — это целый комплекс всевозможных параметров, которые нужно не только получить и сохранить в поисковой базе, но и правильно интерпретировать. Наиболее известные и популярные системы для поиска информации: · Яndex (русскоязычная) - http://www.yandex.ru · Rambler (русскоязычная) - http://www.rambler.ru Кроме рассмотренных, существуют также системы для поиска файлов (files.ru), людей (whowhere.ru) и т. д. Список ссылок на различные поисковые системы размещен на Web-странице monk.newmail.ru. Организация поиска Рассмотрим работу поисковой машины на примере поисковой системы Яндекс. Для вызова поисковой системы, пользователь вводит в адресной строке обозревателя Интернет ее адрес, в нашем примере мы используем поисковую систему Яндекс: www.yandex.ru или www.ya.ru (в варианте упрощенной загрузки). После загрузки поисковой системы в строке для поиска вводите запрос (ключевую фразу), который представляет собой строку текста (на русском, английском или любом другом языке) и нажимайте кнопку Найти.
|