СТРУКТУРА ДИПС
В состав ДИПС, как правило, входят четыре основные подсистемы: ввода и регистрации, обработки, хранения и поиска – рис. 7.1.
Текстовые документы, поступающие на вход системы, могут быть представлены как в бумажном, так и в электронном виде (в различных форматах). Поэтому подсистема ввода и регистрации документов решает следующие основные задачи: - создание электронных копий бумажных документов; - подключение каналов электронных документов; - распознавание или преобразование форматов документов; - присвоение документам уникальных идентификаторов и ведение таблицы имен. Все поступающие документы без внесения каких-либо изменений направляются в подсистему хранения в базе документов. Последняя может представлять собой простую совокупность файлов, распределенную по каталогам жесткого диска. С целью повышения эффективности хранения часто применяют средства сжатия и быстрого поиска информации. В этом случае подсистема хранения представляет собой совокупность стандартных или специализированных средств архивации, СУБД и т.д., обеспечивающих доступ к данным по предъявляемому идентификатору. Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа ПОД, в который заносится информация, необходимая для последующего поиска документа. Все ПОД сохраняются в индексе. Логически индекс представляет собой таблицу, строки которой соответствуют документам, а столбцы – информационным признакам, на основе которых строится ПОД. В ячейках таблицы могут храниться либо 1, либо 0 – в зависимости от наличия или отсутствия данного признака в данном документе. Чтобы не хранить все ее значения, часто используют свертку таблицы по строкам и столбцам. Такую форму хранения называют прямой или инверсной соответственно. При поступлении на вход системы запроса он преобразуется в ПП и передается в подсистему поиска, задачей которой является отыскание в индексе поисковых образов документов, удовлетворяющих ПП с точки зрения КСС. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу документов пользователю.
|