Соединенное КоролевствоПрограмма архивирования Интернета Британской библиотеки обеспечивает долговременное сохранение веб-ресурсов по образованию и культуре в домене.uk и предоставляет доступ к ним. Цели программы: создать всеобъемлющий веб-архив как часть цифровой коллекции Британской библиотеки; обеспечить долговременное сохранение архива с возможностями доступа к нему в будущем; подготовить персонал и организовать все процессы и системы, необходимые для легального депонирования веб-ресурсов. С 2004 года Британская библиотека с разрешения создателей архивирует веб-сайты по социальной истории и культурному наследию Британии в соответствии со специально разработанной политикой комплектования[xvii]. Отобранные сайты доступны через веб-архив, который содержит регулярно обновляемые статические представления 5000 веб-сайтов и предоставляет возможности полнотекстового поиска, поиска по названию, по предметным рубрикам и по интернет-адресу (URL). Например, за октябрь 2010 года было заархивировано 30 885 страниц 8 000 веб-сайтов, объем информации составил 7.46TB. Статические представления страниц веб-сайтов собираются с помощью программного обеспечения Web Curator Tool (WCT), которое было разработано Национальной библиотекой Новой Зеландии и Британской библиотекой в рамках Международного консорциума сохранения Интернета. Это открытое программное обеспечение, свободно распространяемое на основе публичной лицензии Apache. Оно было внедрено также и в Национальной Библиотеке Норвегии. WCT предоставляет веб-архивистам средства для управления следующими процессами: · авторизация харвестинга (получение разрешения собирать веб-материалы и предоставлять доступ к ним); · отбор сайтов, определение объемов и составление графика (что будет собрано, каким образом, когда и как часто); · описание (добавление метаданных); · харвестинг (скачивание материалов в назначенное время с помощью кроулера Heritrix); · контроль качества (проверка соответствия результатов харвестинга на соответствие заданию и корректировка мелких ошибок). WCT работает как браузер. Программное обеспечение идет по ссылкам внутри сайта и собирает все доступные файлы, которые находит. WCT может собирать динамические сайты, разработанные с помощью PHP или ASP, но не может собирать контент баз данных, так называемый «глубокий веб», например, библиотечные каталоги. Используется разработанный Интернет-архивом кроулер Heritrix, который настраивается таким образом, чтобы минимизировать его влияние на собираемые сайты. В последние годы Британская Библиотека играет ведущую роль в международных консорциумах по разработке технологий веб-архивирования. Библиотека участвует в работе группы национальных библиотек по совершенствованию Heritrix, в декабре 2009 года была выпущена версия 3.0. Британская Библиотека стала одним из основателей Международного консорциума сохранения Интернета (International Internet Preservation Consortium, IIPC), в котором участвуют национальные библиотеки и другие заинтересованные организации, обмениваясь опытом и продвигая использование общих стандартов и технологий. Кроме того, Британская Библиотека возглавляет Консорциум веб-архивирования Соединенного Королевства (UK Web Archiving Consortium[xviii], UKWAC), куда также входят Объединенный комитет информационных систем (Joint Information Systems Committee), Национальная библиотека Уэльса и Wellcome Trust. Кроме того, для создания специализированных коллекций Британская библиотека сотрудничает с другими учреждениями. В 2011 году ожидается принятие правовых актов о легальном депозите веб-публикаций[xix]. Таким образом, Британская Библиотека получит мандат на сбор и долговременное сохранение бесплатных веб-сайтов страны. Готовясь к этой работе, сотрудники библиотеки изучают проблемы долговременного сохранения сетевой информации большого объема, который оценивается в 11 миллионов веб-сайтов. Сетевая информация будет интегрирована в существующую цифровую среду библиотеки, доступ к ней будет осуществляться в помещениях библиотеки через общие каталоги. Швеція У вересні 1996 р. Національна (Королівська) бібліотека Швеції представила проект Kulturarw3 [29, 30], який покликаний зібрати всю інформацію за змістовними або авторськими ознаками національного веб-простору та забезпечити її довгострокове збереження. На веб-сайті уміщено всі публікації — як друковані, так й електронні, починаючи з 17 ст. Ці інформаційні сайти, які поповнюються двічі на рік, становлять величезний інтерес і є національним надбанням країни. Для сканування Інтернет використовується програма Heritrix, а для надання даних користувачам — Waybackmashine. Швеция была первой страной, которая занималась исследованиями технологии харвестинга для архивирования сетевых информационных ресурсов. Первый харвестинг в 1997 году собрал данные национального домена.se, а в следующие годы собирался важный для Швеции веб-контент из других доменов. Королевская библиотека получила мандат на сбор сетевых документов Швеции в 2002 году и с тех пор собирает данные 2–3 раза в год.
|