В электронные
В отличие от бумажных документов, электронные могут обрабатываться более эффективно (тиражироваться, рассылаться, храниться и т.п.). В настоящее время активно развиваются технологии перевода бумажных документов в электронную форму с целью реализации электронного документооборота. Остановимся подробнее на применяемых технологиях и используемой терминологии. На первом этапе перевода документа в электронную форму производится его сканирование и создаётся электронная копия документа в виде изображения. Изображение, полученное в результате сканирования, также называют образом документа. Сканирование является начальным этапом любой системы автоматизированного ввода документов. В процессе сканирования может выполняться программная обработка изображения, а также производится визуальный контроль качества. Если речь идёт о промышленном вводе документов, то сканеры обычно предоставляют ряд дополнительных функций, например возможность подачи разноформатных документов. Обычно процесс сканирования – это промежуточная стадия получения электронного документа. Очевидно, что с электронным изображением документа гораздо удобнее работать, чем с бумажным (его можно копировать, отправлять по сети и т.д.). Однако в большинстве случаев само по себе изображение (образ документа) даёт мало преимуществ. Для того чтобы можно было редактировать документ, осуществлять поиск по нему или использовать его фрагменты при подготовке новых документов и т.д., необходимо перевести полученный образ в текстовый документ, понятный офисным программам. Поэтому следующая задача заключается в распознавании отсканированных документов. Для этого необходим специальный инструмент, способный перевести изображение в текстовый редактируемый электронный документ. Такие инструменты существуют, их общее название – программы оптического распознавания символов (optical character recognition, OCR). C помощью OCR-программы компьютер сможет «прочесть» на отсканированной странице текст, отделив его от иллюстраций и прочих элементов оформления, найти таблицы и «разобраться» в их содержимом. А затем скомпоновать всё это заново, воссоздав внешний вид страницы. С точки зрения перевода документов в электронный вид (ввода документов в компьютер) их условно делят на формализованные, неформализованные и специальные (рис. 8.5). Рис. 8.5. Классификация документов с точки зрения специфики перевода в электронный вид
Формализованные документы – это документы, в которых заранее определена форма: расположение обязательных полей, в которые заносятся данные. Например, бланки, накладные, анкеты, картотеки и т.д. Неформализованные документы – это документы произвольной формы: договоры, письма и т.д. К специализированным относятся такие документы, как, например, карты и отпечатки пальцев. Перевод каждого из перечисленных видов документов имеет свою специфику. Если вводятся фотографии, то достаточно электронного изображения, если документ содержит текст, его необходимо распознать, если это форматированный текст с рисунками, то нужно не только распознать текст, но и восстановить формат документа, а если это анкета, то, скорее всего, сам документ вообще не нужен, важна только содержащаяся в нём информация. Например, при обработке листов для голосования обычно не требуется изображения самого документа, достаточно информации о том, за кого отдан голос.
|