Студопедия — Поисковые машины
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Поисковые машины






Поисковая машина - поисковая система с формируемой программным "роботом" базой данных, содержащей информацию об информационных ресурсах.

Все поисковые машины, предназначенные для сети Интернет, имеют более или менее схожие принципы работы. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками.

Почти каждая поисковая система (скажем так — классическая поисковая система) состоит из трех основных ком­понентов:

· веб-паука (web spider);

· индексатора;

· алгоритма поиска и оценки результатов.

Веб-паук, несмотря на всю экзотичность подобного названия, -это всего-навсего специальная программа, которая запускается на компьютере (компьютерах), подключенном к Интернету, и ее основная задача — шерстить весь этот Интернет (точнее, интер­нетовские странички) во всех возможных направлениях. Ведь странички, как мы говорили, состоят из гиперссылок, так вот паук и носится как угорелый по гиперссылкам «паутины» сайтов и скачивает полученные таким образом странички для второго компонента - индексной базы.

Индексатор — это обработчик скачанных веб-пауком страниц. Он извлекает оттуда все слова и складывает их в поисковую базу (индексную базу). При этом индексатор записывает, где именно было найдено то или иное слово, и данная информация потом используется в поиске.

Алгоритм поиска — это главное ноу-хау любой поисковой сис­темы. От алгоритма зависит эффективность полученного резуль­тата - то есть насколько быстро и точно пользователь найдет то, что его интересует.

Таким образом, когда пользователь вводит свой запрос, поисковая машина ищет ответ в своей индексной базе и выводит результаты в соответствии со своим алгоритмом поиска.

Для хорошей работы поисковой системы важны все три ком­понента. Причем каждый из них, на самом деле, весьма сложен, и его работа подчиняется огромному количеству всевозможных хитрых правил, которые, к тому же, постоянно корректируются.

Поисковик должен иметь и шустрого паука, и мощную индекс­ную базу, и эффективный алгоритм поиска — только тогда вы будете получать действительно полезные результаты.

Невероятно распространено заблуждение, что во время поиска по вашему запросу избранная поисковая машина обходит миллионы известных ей адресов и сверяет соответствие ключевых слов содержимому "свежих" гипертекстов. Не так! Поиск интересующих вас ссылок ведется в постоянно обновляемой собственной информационной базе (колоссального размера индексные файлы) поисковой машины, и в ответ на ваш запрос выдаются подходящие URL-адреса во всех концах сети Интернет. Поисковая машина самостоятельно постоянно ведет циклический опрос заданных адресов в Сети, пополняя собственную базу данных. В значительной степени, доступность документа для поисковой системы зависит от его автора. В его власти использовать в гипертексте наиболее запрашиваемые ключевые слова, поместить документ на доступном для основных поисковых машин сервере и не забыть заявить о себе поисковым службам международной сети Интернет.

Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы сохранить окно с результатами запроса к поисковой машине.

Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определения похожести - весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим ожиданиям. Некоторые поисковые машины позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

Поскольку поисковые машины существуют в Интернете, в основном, за счёт публикуемой рекламы, как правило, самые популярные системы поиска могут предоставить вам наилучшие возможности. Для рядового пользователя услуги поисковых серверов, как правило, предоставляются бесплатно. Достаточно лишь указать адрес поисковой системы в рабочей строке браузера или обратиться к ней через каталог закладок.

Главной задачей любой поисковой машина является поиск информации, соответствующей информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность.

Релевантность - это степень соответствия результатов поиска сформулированному запросу.

Что значит «степень соответствия»? Вот смотрите. Например, вы студент (школьник, аспирант, кандидат, профессор), и вам нужно написать какой-то реферат. Как продвинутое дитя интер­нетовского века, вы не собираетесь его писать самостоятельно, а надеетесь найти соответствующий текст в Интернете и выдать его за свой. Не берясь оценивать подобное действо с точки зре­ния морали, будем рассматривать это просто как пример.

Итак, прежде всего вам нужно найти сайт с рефератами. Вы заходите на поисковую систему и вводите слово для поиска «ре­фераты». Поисковая система заглядывает в свою индексную базу и видит там ссылки примерно на 7 864 295 страниц, на которых это слово встречается 31 378 327 раз. (Цифры абсолютно реаль­ные и предоставлены поисковой системой Япс1ех.) Причем это слово присутствует как на страницах сайта «Банк рефератов», так и на страницах дневника Леночки, где дословно написано следующее: «Сегодня пыталась писать реферат. Шесть ногтей покрасила, но так ни черта и не написала. Какой-то се­годня прям нерефератный день, дивчонки, да?»

Так какую ссылку пользователь хочет получить первой: на банк рефератов или на страничку Леночки, где про­сто употребляется слово «реферат»? Разумеется, на банк рефера­тов! Вот это и называется — релевантность, то есть степень соот­ветствия запросу.

Каким образом поисковая система может определить эту ре­левантность, то есть какие из страничек с заданной поисковой строкой наиболее интересны и полезны пользователю? В этом как раз и заключается ноу-хау различных поисковиков, однако общий принцип у них достаточно похож, и анализ результатов прово­дится примерно следующим образом:

· Проверяется, сколько раз заданное слово (словосочетание) встречается на отобранных страничках. Разумеется, чем больше, тем лучше, потому что больше вероятность того, что эти страницы посвящены именно данной тематике.

· Проверяется расстояние между словами, если введена целая фраза. То есть если пользователь ищет «Герберт фон Кара-ян», то страничка, на которой встречается «Герберт фон Ка-раян родился» будет более релевантной, чем страничка с тек­стом: «Герберт утром встал, побрился, достал из кармана фон дер пшик, а потом включил Караян по телевизору».

· Количество ссылок на данную страницу (индекс цитируе­мое™). Чем больше на данную страницу ссылаются (ста­вят гиперссылку) другие страницы, тем больше вероят­ность того, что именно эта страница нужна пользователю.

· Каким шрифтом (стилем) набрана на странице искомая фраза. Если фраза написана крупным шрифтом (является заголовком) или выделена жирным — это тоже признак бо­лее высокой релевантности данной страницы.

· Возраст сайта. Чем дольше существует данный сайт, тем луч­ше это влияет на релевантность.

Таким образом, как видите, уровень релевантности — это це­лый комплекс всевозможных параметров, которые нужно не только получить и сохранить в поисковой базе, но и правильно интерпретировать.

Наиболее известные и популярные системы для поиска информации:

· Яndex (русскоязычная) - http://www.yandex.ru

· Rambler (русскоязычная) - http://www.rambler.ru

Кроме рассмотренных, существуют также системы для поиска файлов (files.ru), людей (whowhere.ru) и т. д. Список ссылок на различные поисковые системы размещен на Web-странице monk.newmail.ru.

Организация поиска

Рассмотрим работу поисковой машины на примере поисковой системы Яндекс.

Для вызова поисковой системы, пользователь вводит в адресной строке обозревателя Интернет ее адрес, в нашем примере мы используем поисковую систему Яндекс: www.yandex.ru или www.ya.ru (в варианте упрощенной загрузки). После загрузки поисковой системы в строке для поиска вводите запрос (ключевую фразу), который представляет собой строку текста (на русском, английском или любом другом языке) и нажимайте кнопку Найти.







Дата добавления: 2015-09-07; просмотров: 503. Нарушение авторских прав; Мы поможем в написании вашей работы!



Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

Тактические действия нарядов полиции по предупреждению и пресечению групповых нарушений общественного порядка и массовых беспорядков В целях предупреждения разрастания групповых нарушений общественного порядка (далееГНОП) в массовые беспорядки подразделения (наряды) полиции осуществляют следующие мероприятия...

Механизм действия гормонов а) Цитозольный механизм действия гормонов. По цитозольному механизму действуют гормоны 1 группы...

Алгоритм выполнения манипуляции Приемы наружного акушерского исследования. Приемы Леопольда – Левицкого. Цель...

Дренирование желчных протоков Показаниями к дренированию желчных протоков являются декомпрессия на фоне внутрипротоковой гипертензии, интраоперационная холангиография, контроль за динамикой восстановления пассажа желчи в 12-перстную кишку...

Деятельность сестер милосердия общин Красного Креста ярко проявилась в период Тритоны – интервалы, в которых содержится три тона. К тритонам относятся увеличенная кварта (ув.4) и уменьшенная квинта (ум.5). Их можно построить на ступенях натурального и гармонического мажора и минора.  ...

Понятие о синдроме нарушения бронхиальной проходимости и его клинические проявления Синдром нарушения бронхиальной проходимости (бронхообструктивный синдром) – это патологическое состояние...

Studopedia.info - Студопедия - 2014-2024 год . (0.008 сек.) русская версия | украинская версия