Студопедия — Проблемы современного Web.
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Проблемы современного Web.






Современная сеть World Wide Web давно стала неотъемлемой частью нашего мира. Более того, у многих пользователей Интернет отождествляется с Web, и другие его сервисы воспринимаются как нечто неотъемлемое от Всемирной паутины. И сам Web, и его технологии настолько привычны, что пользователь чаще всего принимает их не задумываясь. А экран компьютера – не только поверхность, на которой отображаются данные. На сегодняшний день это также граница, надежно разделяющая средства доставки Web-данных и средства их обработки.

Сегодня Интернет – это хранилище информации. Оно ориентировано на человека и совершенно не приспособлено для автоматизированной обработки знаний. Компьютеры могут получать и отображать Web-страницы, но не понимают их содержание.

А обработка информации на сегодняшний день представляет серьезную проблему. Установлен закон увеличения информации в обществе – он представляет собой экспоненциальную функцию y=ex, что и позволило говорить об «информационном взрыве», то есть экспоненциальном росте информации в обществе. Информационный кризис (взрыв) имеет следующие проявления[1]:

· появляются противоречия между ограниченными возможностями человека по восприятию и переработке информации и существующими мощными потоками и массивами хранящейся информации;

· существует большое количество избыточной информации, которая затрудняет восприятие полезной для потребителя информации;

· возникают определенные экономические, политические и другие социальные барьеры, которые препятствуют распространению информации. Например, по причине соблюдения секретности часто необходимой информацией не могут воспользоваться работники разных ведомств.

Эти причины породили весьма парадоксальную ситуацию – в мире накоплен громадный информационный потенциал, но люди не могут им воспользоваться в полном объеме в силу ограниченности своих возможностей. Для того чтобы справиться с лавиной информации, нужны надежные и удобные средства ее хранения и, что является основным, ее поиска и обработки.

Эта проблема в полной мере относится к Web, как хранилищу и источнику информации для большого количества пользователей.

С доставкой информации дело обстоит неплохо. Выверенный годами стек протоколов TCP/IP, и алгоритмы маршрутизации обеспечивают надежное соединение по не всегда надежным, а зачастую и вовсе ненадежным линиям. Идея протокола HTTP, «венчающего» стек протоколов TCP/IP, настолько удачна, что за годы своего существования этот протокол не претерпел радикальных изменений. Однако, отобразив Web-станицу на экране, компьютер «забывает» о том, что он вычислительная машина. Интерпретацией Web-данных занимаются только люди. Возможности автоматической обработки Web-информации очень незначительны(1).

Проблема 1 – традиционный Web является синтаксическим – информация, доступная посредством Web, ориентирована в основном на человеческое восприятие, программное обеспечения занимается доставкой информации и, далеко не всегда, проверкой его синтаксиса. Чтобы обработать тексты, имеющиеся в Интернет, программа должна обладать интеллектом.

Самым востребованным и интеллектуальным Web-сервисом, на сегодняшний день, являются поисковые системы, основанные на технологии полнотекстового поиска. Все поисковые запросы выполняются с помощью индекса, содержащего описание вхождений слов из обработанных поисковой системой документов. Сбор сведений о доступных документах, которые потом используются для построения индекса, осуществляют так называемые сетевые роботы (crawlers). Сетевые роботы, начиная с некоторой Web-страницы, рекурсивно обходят ресурсы Интернет, извлекая ссылки на новые документы из получаемых документов. Из-за размеров информационного Web-пространства индексы получаются огромными, как правило, индексируется лишь часть Web-пространства, методы работы с индексами требуют больших вычислительных мощностей, результаты поиска содержат много несоответствующей интересам пользователя информации. Но, тем не менее, поисковые системы это единственные Web-сервисы, которые работают с семантикой, то есть с содержимым документа.

Обращаясь к Web, пользователи могут действовать по различным сценариям. Если нужна статья или справочная информация, пользователь без труда найдет ее, воспользовавшись поисковым сервисом. Но возьмем другой пример приведенный в (1): «покончив с делами, пользователь собрался провести отпуск на Черном море и хочет узнать, какая же температура ожидается в ближайшие дни на южном побережье Крыма. Найти эти сведения также не составляет труда, достаточно выяснить адреса (URL) серверов с информацией о погоде. Вроде бы жаловаться на Web не приходится, однако в данном примере есть смысл рассмотреть действия пользователя более детально. Все, что его интересует – это одно-два числа. Но что приходится предпринять, чтобы получить их? Во-первых, необходимо выяснить адреса Web-страниц с прогнозами. Во-вторых, надо найти информацию о южной части Крыма. В-третьих, надо хотя бы бегло просмотреть эти документы. Пользователь читает об атмосферном давлении, получает множество сведений (которое его, кстати, совершенно не интересуют) и, наконец, находит то, что искал. Не слишком ли велики накладные расходы? В поисках всего одного атрибута пользователю пришлось найти и изучить целый документ. Не лучше ли было бы задать некоему серверу нового поколения запрос: «Температура воздуха на южном берегу Крыма на следующей неделе» и пусть Web-приложение «расстарается» – найдет нужный сервер, выделит и перешлет клиенту сведения о температуре».

К сожалению, качественно выполнить грамматический разбор текста на естественном языке на сегодняшний день невозможно. Один из путей получения точного ответа на свой запрос, формализация ресурсов в Web.

Если обрабатываемый документ является размеченным, то есть явным образом выделены индексируемые слова, то он получает семантически значительно более богатое содержание. В спецификации HTML, начиная с версии 2.0, появился элемент разметки <META>, описывающих именованные свойства документов и указывающих на некоторую информацию о документе в целом. К сожалению, использование этого элемента не получило широкого распространения. Одним из препятствий стало некорректное использование этого элемента, когда метаописания HTML-страницы использовались для привлечения к ней внимания, рекламы, а не для представления свойств документа. В результате многие из поисковых систем отказались от использования метаописания. Другой существенной причиной было отсутствие простого общепризнанного стандарта, фиксирующего существенные «поисковые» свойства HTML-документов. Разные системы, сообщества предлагали и использовали разные имена свойств документа. Многие из использовавшихся свойств преследовали иные цели, нежели описание «поисковых» свойств документов.

Таким образом, хотя поисковые системы и работают с содержимым документа, семантики его они не понимают. Еще одно следствие этого – множество не относящихся к запросу ссылок. Например, если ввести в качестве поискового запроса слова «кузнец» – будут найдены ссылки и на документы с описанием профессии, и на документы где присутствуют Кузнецовы и прочие варианты этой распространенной фамилии, общее количество найденных документов будет составлять десятки тысяч.

Проблема 2 – проблема поиска информации – помимо уже описанных проблем поиска информации, традиционный (синтаксический) Web не позволяет:

· обрабатывать сложные запросы, подразумевающие базовые знания – например, «Найти информацию о животных, использующих звуковую локацию, но не являющихся ни летучей мышью, ни дельфином»;

· находить информацию в репозитариях данных – базы данных, библиотечные электронные каталоги и т.д.;

· делегировать решение сложных задач «Web-агентам» – «Закажи мне на следующий выходной отдых, где-нибудь в теплом месте, не очень далеко и где говорят на русском или английском языке».

Проблема 3 – проблемы HTML – одним из главнейших элементов технологии Web является язык разметки документов HTML, при помощи которого формируется информационное содержимое Web. Долгое время возможности этого языка были вполне достаточны для создания, оформления документов и формирования между ними гиперсвязей. Сегодня же информационная нагрузка в Интернет и типы решаемых в Web задач существенно изменились, и для разработчиков Web-приложений все неудобнее становятся присущие этому языку ограничения (2).

1. HTML не позволяет использовать дополнительные инструкции, при помощи которых можно было бы придумывать новые варианты отображения документа или размечать информацию произвольного типа. Браузер просто «не узнает» их и в лучшем случае игнорирует.

2. HTML с самого начала предназначался только для указания способа оформления фрагментов текста, структура же документа и его содержимое для программ просмотра абсолютно безразличны. Из-за этого сегодня организация механизмов сложного поиска в Web, учитывающих семантику и особенности расположения текста внутри документа, невозможна.

3. Автор документа может использовать инструкции языка в любой последовательности и по своему усмотрению – процесс проверки правильности создания HTML-документов практически никак не контролируется. Это облегчает труд автора, но вносит дополнительную неопределенность при разработке программ-анализаторов документа.

4. Способ форматирования документов определяется в HTML лишь «декларативно» – то, как реально будет отображен HTML-документ на конкретной машине и браузере, автор документа знать не может, и способов уточнить эту информацию средствами самого языка нет.

5. В HTML нельзя изменять действие одних и тех же тегов в зависимости от места их определения внутри документа (например, когда мы собираемся отображать некоторую иерархическую структуру, каждое звено которой должно форматироваться по-разному).

Хотя набор HTML-элементов был существенно расширен по сравнению с первой версией, язык HTML по-прежнему не пригоден для представления многих типов документов. Ниже приведены примеры документов, которые не могут быть адекватно описаны с помощью языка HTML.

Документ, который не содержит типовых компонентов (заголовков, абзацев, списков, таблиц и т.д.) Например, в языке HTML отсутствуют элементы, необходимые для отображения музыкальных символов или математических уравнений.

База данных, такая как каталог книг. Вы можете использовать HTML-страницу, чтобы хранить и отображать информацию из статической базы данных (например, перечень книг и их описание). Однако, если бы вам понадобится осуществить сортировку, фильтрацию, поиск и обработку информации, придется снабдить каждую из составных частей информации соответствующей меткой (как в программе, работающей с базами данных, такой как Microsoft Access). В языке HTML не предусмотрено соответствующих элементов.

Документ, который вы хотите представить в виде иерархической структуры. Допустим, вы пишете книгу и хотите разбить ее на части, главы, разделы А, В, С и т.д. В дальнейшем программа может использовать данную структуру документа для создания оглавления, оформления различных уровней в структуре с помощью всевозможных стилей, извлечения определенных разделов, а также обработки информации иными способами. Однако элемент типа заголовок в HTML содержит лишь описание собственно текста. Например:

<Н2> Содержимое Web-сайта </Н2>

Поскольку внутри элемента типа заголовок вы не задаете вложенные элементы текста, которые относятся к разделам документа, эти элементы не могут быть использованы для представления иерархической структуры документа (2).

Для устранения этих и некоторых других ограничений стандарта в его последующих версиях (HTML 3.2, HTML 4, HTML 5) были добавлены некоторые дополнительные теги и предложены спецификации CSS, CSS2, DOM, несколько облегчающие нелегкий труд создателей Web-страниц. Но не была решена (и не могла быть решена) главная проблема – расширяемости и универсальности HTML. Длительный и сложный процесс утверждения новых стандартов HTML зачастую приводил к тому, что они устаревали, так и не успев появиться. Язык HTML описывает довольно узкий класс документов, а типов информации, используемой в Web, но не поддерживаемой ни одним из браузеров, в последнее время появляется гораздо больше.

Таким образом, основные проблемы World Wide Web связаны, главным образом, с тем, что до сих пор Web-технологии ориентировались исключительно на поддержку человеческой деятельности по поиску и навигации в информационном пространстве Web-ресурсов. «Всемирная паутина» следующего поколения, которую Тим Бернерс-Ли и его коллеги называют Semantic Web, должна быть рассчитана на машинную обработку информации. Создание осмысленной «семантической паутины» в соответствии с предложенной W3C концепцией Semantic Web могло бы решить все перечисленные проблемы поиска и обмена информацией.

 







Дата добавления: 2015-09-07; просмотров: 556. Нарушение авторских прав; Мы поможем в написании вашей работы!



Шрифт зодчего Шрифт зодчего состоит из прописных (заглавных), строчных букв и цифр...

Картограммы и картодиаграммы Картограммы и картодиаграммы применяются для изображения географической характеристики изучаемых явлений...

Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...

Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Объект, субъект, предмет, цели и задачи управления персоналом Социальная система организации делится на две основные подсистемы: управляющую и управляемую...

Законы Генри, Дальтона, Сеченова. Применение этих законов при лечении кессонной болезни, лечении в барокамере и исследовании электролитного состава крови Закон Генри: Количество газа, растворенного при данной температуре в определенном объеме жидкости, при равновесии прямо пропорциональны давлению газа...

Ганглиоблокаторы. Классификация. Механизм действия. Фармакодинамика. Применение.Побочные эфффекты Никотинчувствительные холинорецепторы (н-холинорецепторы) в основном локализованы на постсинаптических мембранах в синапсах скелетной мускулатуры...

Этапы творческого процесса в изобразительной деятельности По мнению многих авторов, возникновение творческого начала в детской художественной практике носит такой же поэтапный характер, как и процесс творчества у мастеров искусства...

Тема 5. Анализ количественного и качественного состава персонала Персонал является одним из важнейших факторов в организации. Его состояние и эффективное использование прямо влияет на конечные результаты хозяйственной деятельности организации.

Билет №7 (1 вопрос) Язык как средство общения и форма существования национальной культуры. Русский литературный язык как нормированная и обработанная форма общенародного языка Важнейшая функция языка - коммуникативная функция, т.е. функция общения Язык представлен в двух своих разновидностях...

Studopedia.info - Студопедия - 2014-2024 год . (0.008 сек.) русская версия | украинская версия