ЯЗЫКИ РАЗМЕТКИ ДОКУМЕНТОВ
Одним из таких языков является HTML – язык разметки документов с помощью специальных конструкций, называемых тегами. Эти конструкции берутся в угловые скобки. Различают теги «открытия», которые задаются ключевыми словами и допустимыми параметрами, и теги «закрытия» – ключевые слова с символом «/». Общая структура HTML-документа может быть представлена следующим форматом:
<! DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.0//EN” “http: //www.w3.org/TR/REC-html40/strict/dtd”> < HTML> < HEAD> < TITLE> Наименование документа< /TITLE> < META name=keywords content=”Представление знаний, Мультиагентные системы”> < /HEAD> < BODY> Собственно текст документа < /BODY> <./HTML>
Комментарий <! DOCTYPE…> фиксирует текущее состояние спецификации версии языка HTML. Кроме того, в HTML-документе выделяются две основные структурные единицы – «голова» документа (между тегами < HEAD> и < /HEAD>) и его «тело» (между тегами < BODY> и < /BODY>). Один из элементов головы документа – это заголовок – произвольный текст между тегами < TITLE> и < /TITLE>. Не менее, а может быть и более важным элементом головы документа является тег < META name=keywords content=”Представление знаний, Мультиагентные системы”>. В приведенном примере этот тег с помощью параметров name и content фиксирует значение первого атрибута как keywords, а второго – как ключевые слова ”Представление знаний’ и “Мультиагентные системы”. Эти и некоторые другие теги типа < META…> ориентированы на аннотирование Интернет-документов и, кроме того, существенно облегчают задачу индексирования их, например, с помощью сетевых роботов. Собственно содержание документа находится в теле. Как правило, оно состоит из последовательности структурных единиц, базисными среди которых являются заголовки разного уровня (текст, заключенный между тегами < Hi> и <./Hi>) и параграфы – текст между тегами < P> и <./P>. По существу, это минимальные средства форматирования Интернет-документов. В HTML эти средства значительно богаче (выравнивание, табуляция, списки различных типов и т.д.). Наиболее важными базовыми конструкциями языка HTML являются якоря. Синтаксически эти конструкции представлены тегами < А> и <./А> с атрибутами NAME и HREF. Пример: < A NAME=”Метка”> текст<./А> (обеспечивает в пределах документа уникальное имя начала фрагмента). При этом текст, заключенный между тегами < А> и <./А>, как правило, задает семантически значимое наименование заголовка. Для ссылок на помеченные таким образом части Интернет-документа используют конструкции < A HREF =”#Метка”> текст<./А> или < A HREF =”URL”> текст<./А>. Первая из них задает локальную ссылку на часть документа, начинающуюся с указанной метки. Вторая – глобальную ссылку на документ в сети, однозначно идентифицируемый с помощью URL. По существу, URL – это Интернет-адрес: имя домена, уточненное названием протокола, собственное имя документа, включая путь к нему в пределах данного домена. Пример URL: http: //www.anywhere.ru/anywhat.html. Использование в Интернет-публикациях ссылок позволяет организовать логическое структурирование информации и обеспечивает удобную и единообразную навигацию как в пределах одного документа, так и в целом по множеству документов, если они связаны между собой. Важными конструкциями HTML являются таблицы с возможностями задания многоуровневых заголовков и формы, с помощью которых в язык введены средства обеспечения диалога с пользователями Интернет-документов. Пример: < TABLE> < TR> < TD> Столбец-1, строка-1 < /TD> < TD> Столбец-1, строка-2 < /TD> < /TR> < /TABLE>
< FORM METHOD=”POST” …> < P>
Можно ввести в поле одну строку: < INPYT NAME=”entry”> < /P> < P> Для обработки результатов ввода: < INPUT TYPE=”submit” VALUE=”Принять запрос”> < /P> < /FORM>
На уровне форм HTML имеются возможности ввода информации в просматриваемый документ и ее обработки с помощью специальных программ, выполняемых на сервере или на клиент-терминале. Другой важной HTML - конструкцией являются кадры (рамки или фреймы). С их помощью можно разделить документ на части и представить их в отдельных неперекрывающихся областях экрана. Для семантической разметки Интернет-документов прежде всего пригодны теги типа < TITLE>, < META…> и < A>. Первый важен для фиксации семантики всего HTML-документа, так как текст, заключенный между тегами < TITLE> и < /TITLE>, чаще всего отражает его назначение и содержание. Теги типа < META…> вводят имена атрибутов, а ссылки и якоря фиксируют отношения между частями документа или документами. Теги < A> фиксируют факт наличия отношения между ссылкой и ее якорем. Язык HTML имеет ряд недостаков, к которым в первую очередь относятся нерасширяемость и ограниченные средства спецификации семантической структуры документов. Некоторые недостатки HTML сняты в языке XML. Отличительными свойствами XML являются стандарт на определение синтаксиса и единообразные средства введения в языки разметки новых тегов. Это позволяет конструировать новые языки маркировки Web-документов и обеспечивает возможность различным приложениям и программным агентам понимать и обрабатывать XML-документы. Каждый XML-документ обладает определенной логикой и физической структурой. Физически это композиция элементов, называемых единицами, которые могут быть связаны взаимными ссылками. Логически документ состоит из деклараций, единиц, комментариев, собственно текстов и инструкций обработки, причем каждая конструкция XML маркируется специальными тегами явным образом. Все теги XML – парные, а конструкции могут быть вложены друг в друга, образуя правильно построенное дерево. Так, например, конструкция < item Attribute 1=”Value 1”> < /item> определяет единицу с именем item и списком пар атрибут-значение, который в нашем случае представлен единственным атрибутом с именем Attribute 1, имеющим значение ”Value 1”. Пример XML-документа, описывающего домашнюю страницу исследователя Иванова: <? xml version=”1.0”? > < Homepage> < Name> Домашняя страница Иванова< /Name> < Person> < firstName> Ivan< /firstName > < lastName> Ivanov< /lastName > < marriedTo Homepage=”http: //www.anywhere.ru”> Mariya Ivanova< /marriedTo> < employee Homepage=”http: //www.ccas.ru”> CCAS of Russia< /employee> < publications> < book title=”First Book”/> < book title=”Second Book”/> …………………………….. < /publications> < /Person> < /Homepage>
Этот XML-документ пока не имеет «смысла», так как из него не следует, как интерпретируются единицы типа Person, publications, book и т. п. Для решения этого вопроса используется специальная спецификация определения типа документа DTD (document type definition). По сути дела, это грамматика языка разметки, в рамках которой определяются, какие элементы могут присутствовать в документе, какие атрибуты они имеют и как элементы соотносятся друг с другом. Такие спецификации тоже входят в стандарт XML.
|