Студопедия — Пошук інформації в Інтернеті
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Пошук інформації в Інтернеті






Як мовилося раніше, одним з основних аспектів проведення повторних маркетингових досліджень за допомогою Інтернету є пошук джерел інформації. Сотні мільйонів сайтів, що знаходяться сьогодні в Мережі роблять поставлену задачу достатньо складною. Для того, щоб полегшити цей процес і зробити його більш ефективним, в даному розділі описується підхід до рішення задачі пошуку інформації в Інтернеті.

Для отримання якісного результату при проведенні пошуку необхідно дотримувати ряд умов. Основними з них є контроль повноти обхвату ресурсів і достовірності знайденої інформації.

Перш за все, можливість знаходження тієї або іншої інформації в Мережі визначається повнотою обхвату її ресурсів. Часто проведення пошуку вимагає задіювання максимального об'єму можливих джерел, в ролі яких можуть виступати не тільки web-сайти, але і бази даних, регіональні телеконференції, FTP-архіви і т.д. При цьому необхідною умовою успішного планування і проведення пошукових робіт стає знання всіх основних існуючих на сьогоднішній день типів ресурсів Інтернету, розуміння технічної і тематичної специфіки їх інформаційного наповнення і особливостей доступу до них.

Разом з повнотою обхвату ресурсів, якість пошуку, що проводиться, визначається достовірністю знайденої інформації. Контроль її достовірності може проводитися різними способами, в які входить знаходження і звірка з альтернативними джерелами інформації, встановлення частоти його використовування іншими джерелами, з'ясування статусу документа і сайту, на якому він знаходиться, отримання відомостей про компетентність і положення автора матеріалу і ряд інших.

Мережні інформаційні ресурси. За способом організації і зберігання інформації її джерела в Інтернеті можна розділити на наступні основні категорії:

файлові сервери — є традиційним способом зберігання даних і є комп'ютерами, частина дискового простору яких доступна через Інтернет. Доступ до даних на такому сервері здійснюється за допомогою спеціальних програм, що підтримують протокол передачі файлів — FTP. Даний протокол в загальному випадку вимагає авторизації, тобто ідентифікації користувача. Для здійснення доступу до файлів з боку довільного користувача Мережі звичайно використовується так званий анонімний вхід під реєстраційним ім'ям anonymous, для якого пароль не потрібен. Цей протокол підтримується всіма стандартними браузерами;

web-сайти є сьогодні основним і найпоширенішим типом інформаційних ресурсів в Мережі. Сайт може містити інформацію, представлену в самій довільній формі: графічній, звуковій, відеозображення і т. д.;

телеконференції можуть бути джерелом необхідної інформації, як правило, носячій неофіційний характер. Телеконференції є способом спілкування людей, що мають доступ в Мережу, і є призначений для обговорення яких-небудь питань або розповсюдження інформації. Вони дозволяють добитися зворотного зв'язку з безліччю осіб і провести детальне обговорення якої-небудь проблеми територіально роз'єднаними людьми;

бази даних можуть містити саму довільну інформацію: публікації, довідкову інформацію, інші дані. Найбільш широко поширений спосіб доступу до баз даних через стандартні браузеры, оскільки він забезпечує максимальну потенційну аудиторію споживачів інформації. Разом з безпосереднім витяганням інформації з баз даних широко використовується динамічна побудова web-сторінок в процесі виконання призначених для користувача запитів.

Всі названі раніше джерела можна класифікувати по ряду ознак:

по мовній ознаці — через історико-географічні причини найпоширенішою мовою в Інтернеті є англійський, проте в Мережі представлені практично всі основні мови миру і, як відзначають дослідницькі компанії, їх частка постійно росте. Часто зустрічається ситуація, коли сайт підтримують одночасно декілька мов — на вибір користувача;

по географічній ознаці — у інформаційних ресурсів звичайно є своя цільова аудиторія, і її місцезнаходження часто може бути зіставлено з якимсь географічним регіоном. Слід помітити, що територіальне розділення не відноситься до можливості доступу до ресурсів, який може бути здійснений з будь-якої точки земної кулі;

по вигляду і характеру інформації (новини, рекламна інформація, тематична інформація, довідкова інформація), що представляється, — це найважливіше, з практичної точки зору, розділення по вигляду і характеру інформації, що представляється, оскільки саме інформаційне наповнення зрештою виявляється вирішальним при відборі джерел. В той же час якраз цей аспект може бути тим, що найбільш важко формалізується унаслідок неоднорідності інформації, що представляється. Наприклад, один і той же web-сайт може містити інформацію самих різних видів. Тому приведене розділення на підгрупи достатньою мірою умовно.

Засоби пошуку інформації. За принципом організації і використовування засоби пошуку можна виділити наступні інструменти:

пошукові машини — є ключовим інструментом пошуку інформації, оскільки містять індекси більшості web-серверів Інтернету. Проте саме ця гідність обертається їх головним недоліком. На будь-який запит вони видають звичайно надмірно велика кількість інформації, серед якої тільки незначна частина є корисною, після чого потрібен значний об'єм часу для її витягання і обробки;

мета-засоби пошуку — дозволяють прискорити виконання запиту шляхом передачі аргументів пошуку, тобто ключових слів, одночасно декільком пошуковим системам. При значному прискоренні процесу і збільшенні обхвату пошуку, цей спосіб має ряд недоліків, пов'язаних з необхідністю координації в часі надходження результатів обробки запиту від декількох систем, а також тим, що вони не дозволяють використовувати можливості мови запиту кожного з вживаних пошукових засобів;

спеціалізовані засоби пошуку — є «програми-павуки, які в автоматичному режимі проглядають web-сторінки, відшукуючи на них потрібну інформацію. Механізм їх роботи близький до механізму, який використовують пошукові системи для побудови своїх індексних таблиць. Вибір між першими і другими є класичним вибором між застосуванням універсальних або спеціалізованих засобів;

каталоги — як і пошукові машини, використовуються відвідувачами Інтернету для знаходження необхідної інформації. Каталог є ієрархічно організованою структурою, в яку дані заноситься за ініціативою користувачів. Як наслідок, об'єм інформації в них дещо обмежений в порівнянні з пошуковими системами, але в той же час більш є впорядкований завдяки лежачій в їх основі ієрархічній тематичній структурі.

Методи пошуку інформації. Більш менш серйозний підхід до будь-якої задачі починається з аналізу можливих методів її рішення. Пошук інформації в Інтернеті може бути проведений за допомогою двох основних методів, які, залежно від його цілей і задач, можуть бути використаний по окремості або в комбінації один з одним:

використовування пошукових систем — сьогодні цей метод є одним з основних при проведенні попереднього пошуку. Його застосування засновано на ключових словах, які передаються системі як аргумент пошуку. Результатом є список ресурсів Інтернету, підлягаючих детальному розгляду. Отримання самого релевантного результату вимагає проведення попередньої роботи по складанню тезауруса;

пошук по гіпертекстових посиланнях — оскільки всі сайти Інтернету зв'язані між собою гіперпосиланнями, пошук інформації може бути проведений шляхом послідовного перегляду за допомогою браузера зв'язаних посиланнями web-сторінок. До цього виду пошуку також відноситься використовування каталогів, класифікованих і тематичних списків і всіляких невеликих довідників. Такий метод найбільш трудомісткий, проте «ручний» перегляд web-сторінок часто виявляється єдино можливим на заключних етапах інформаційного пошуку, що вимагає глибокого аналізу. Він може бути також більш ефективний при проведенні повторних циклів або прогляданні знов освічених ресурсів.

Пошук з використанням пошукових машин. Що найбільш широко використовується, але в той же час найскладнішим є метод пошуку з використанням пошукових систем. Його широка поширеність обумовлена тим, що пошукові системи містять в собі індекси величезної кількості сайтів і при правильно сформованому запиті можна відразу ж отримати посилання на ресурси, що цікавлять. Складність методу полягає в тому, що для того, щоб результат був якісним, необхідно уміти вибрати самі відповідні пошукові системи, правильно формулювати запити до них, ураховувати їх особливості і функціональні можливості.

Двояка характеристика даного методу зв'язана з тим, що проведення ефективного пошуку вимагає одночасного рішення двох протилежних задач: збільшенні обхвату з метою витягання максимальної кількості значущої інформації і зменшенні обхвату з метою мінімізації шумової інформації. Неважко побачити, що одночасно здійснити і те і інше досить складно, хоча знайти оптимальне співвідношення все-таки можливо.

Відбір пошукових систем. Даний етап вимагає встановити послідовність використовування пошукових машин відповідно до убування очікуваної ефективності пошуку з приміненням кожної машини.

Всього відомо близько декількох сотень пошукових систем, що розрізняються по регіонах обхвату, принципам проведення пошуку (а, отже, по вхідній мові і характеру сприйманих запитів), об'єму індексної бази, швидкості оновлення інформації, здібності шукати «нестандартну» інформацію і т.д. Основними критеріями вибору пошукових систем є об'єм індексної бази серверу і ступінь розвинутої самої пошукової машини, тобто рівень складності сприйманих нею запитів.

Складання і виконання запитів до пошукових машин. Це найскладніший і трудомісткий етап, пов'язаний з обробкою значної кількості інформації, велика частина якої звичайно є шумовою. На основі тезауруса формуються запити до вибраних пошукових серверів. Після отримання первинних результатів можливе уточнення запитів з метою відсікання очевидно нерелевантної інформації. Потім проводиться відбір ресурсів, починаючи з найцікавіших, з погляду цілей пошуку, і дані з ресурсів, визнаних релевантними, збираються для подальшого аналізу.

Як формат, так і семантика запитів може варіюватися залежно від вживаної пошукової машини і конкретної наочної області. Запити повинні складатися так, щоб область пошуку була максимально конкретизована і є звужений, тобто перевага слід віддавати використовуванню декількох вузьких запитів в порівнянні з одним розширеним. В загальному випадку для кожного основного поняття з тезауруса готується окремий пакет запитів. Так само проводиться їх пробна реалізація — як для уточнення і поповнення тезауруса, так і з метою відсікання шумової інформації.

Мови запиту різних машин пошуку в основному є поєднанням наступних функцій:осуществление пошуку документів за допомогою операторів булевої алгебри AND, OR, NOT. AND (И) — що містить всі терміни, сполучені їм, OR (АБО) — шуканий текст повинен містити хоча б один з термінів, сполучених даним оператором; NOT (НЕ) — пошук документів, в тексті яких відсутні терміни, наступні за даним оператором; здійснення пошуку документів за допомогою операторів відстані, обмеження порядку проходження і відстані між словами. NEAR — другий термін повинен знаходитися на відстані від першого, не перевищуючому певного числа слів; FOLLOWED — терміни слідують в заданому порядку; ADJ — терміни, сполучені оператором, є суміжними; можливість усікання термінів — використовування символу * замість його закінчення терміну; дозволяє включити в шуканий список всі слова, похідні від його початкової частини шаблона; облік морфології мови — машина автоматично ураховує всі форми даного терміну, можливі в мові, на якій ведеться пошук; можливість пошуку по словосполученню, фразі; обмеження пошуку елементом документа (слова запиту повинні знаходитися саме в заголовку, першому абзаці, посиланнях і т. д.); обмеження по даті публікації документа; обмеження на кількість збігів термінів; можливість пошуку графічних зображень;· чутливість до рядкових і прописних букв.

Результат запиту, тобто виведений системою список посилань на знайдені ресурси, обробляється в два етапи. На першому етапі проводиться відсікання очевидно нерелевантних джерел, що потрапили у вибірку через недосконалість пошукової машини або недостатньої «інтелектуальності» запиту. Паралельно проводиться семантичний аналіз, що має на меті уточнення тезауруса для модифікації подальших запитів. Подальша обробка проводиться шляхом послідовного обігу на кожний із знайдених ресурсів і аналізу там інформації, що знаходиться.

Аналіз ресурсів і збір інформації. Кінцевою стадією пошуку є аналіз ресурсів і збір шуканої інформації. Первинний аналіз ресурсів може грунтуватися на анотаціях, якщо вони є, а при їх відсутності — на ознайомленні з інформаційним наповненням ресурсу. Далі інформація витягується з відібраних джерел і використовується у відповідних пошуку цілях.


 







Дата добавления: 2015-09-18; просмотров: 785. Нарушение авторских прав; Мы поможем в написании вашей работы!



Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...

Менадиона натрия бисульфит (Викасол) Групповая принадлежность •Синтетический аналог витамина K, жирорастворимый, коагулянт...

Разновидности сальников для насосов и правильный уход за ними   Сальники, используемые в насосном оборудовании, служат для герметизации пространства образованного кожухом и рабочим валом, выходящим через корпус наружу...

Дренирование желчных протоков Показаниями к дренированию желчных протоков являются декомпрессия на фоне внутрипротоковой гипертензии, интраоперационная холангиография, контроль за динамикой восстановления пассажа желчи в 12-перстную кишку...

Типы конфликтных личностей (Дж. Скотт) Дж. Г. Скотт опирается на типологию Р. М. Брансом, но дополняет её. Они убеждены в своей абсолютной правоте и хотят, чтобы...

Гносеологический оптимизм, скептицизм, агностицизм.разновидности агностицизма Позицию Агностицизм защищает и критический реализм. Один из главных представителей этого направления...

Функциональные обязанности медсестры отделения реанимации · Медсестра отделения реанимации обязана осуществлять лечебно-профилактический и гигиенический уход за пациентами...

Studopedia.info - Студопедия - 2014-2024 год . (0.013 сек.) русская версия | украинская версия