Студопедия — бумажных документов
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

бумажных документов






Одной из основных задач, связанных с сокращением затрат на обработку данных, является автоматизация массового ввода бумажных первичных документов, загрузки данных в информа­ционную базу. Основное отличие массового ввода документов от простого сканирования состоит в том, что обрабатывается боль­шое количество однотипных документов. В качестве примеров приложений данной технологии в конкретных предметных обла­стях можно привести систему ввода и обработки «Платежных по­ручении» в банке, систему ввода «Налоговых деклараций», сис­тему ввода и проверки бухгалтерских документов в пенсионном фонде.

Для организации обработки большого количества бумажных документов и перевода их в электронную форму необходимо раз­работать систему массового ввода документов (СМВ), которая будет способна работать как с одним, так и с несколькими тыся­чами бумажных документов в день. При проектировании систе­мы ввода бумажных документов выполняется следующая сово­купность операций:

определение состава операций, которая должна выполнять система;

выбор технических средств реализации выполнения этих опе­раций;

выбор и настройка программного обеспечения;

• разработка технологической документации.
Рассмотрим содержание основных операций автоматизиро­ванного ввода бумажных документов. Автоматизированное чте­ние и ввод документов включают в себя операции, которые мож­но объединить в несколько стадий:

подготовка документов к сканированию;

получение изображения документа;

распознавание и ввод данных, содержащихся в документе вИБ.

Подготовка документов к сканированию - очень важная фаза процесса ввода документов, которая обеспечивает получение достоверных отсканированных изображений, сохраняемых в си-стеме, и включает в себя две операции: непосредственную подго­товку документов для сканирования и выполнение описания на­стройки системы на конкретную форму документа.

Подготовка документов для сканирования предполагает выпол­нение следующих шагов:

определение самого документа для сканирования;

выбор конкретных областей документа для сканирования;

определение технологической цепочки движения документа до сканирования;

непосредственная подготовка документов для сканирования:
открытие конвертов, удаление скрепок или других предметов, мешающих сканированию;

 

подготовка пакетов документов для сканирования.
Составление описания каждого документа предполагает вы­полнение трех операций:

составления настройки формы документа;

настройки модели ввода;

• настройки полей формы документа и индексации базы дан­
ных.

В основе выполнения этого состава операций лежит понятие форматированного (структурированного) документа (ФД). Ти­пичными примерами форматируемых документов являются «Пла­тежные поручения», «Прайс-листы», «Декларации о доходах», «Счета» и т.д. Основной структурной единицей форматируемого документа является поле документа. Каждое поле описывается в двух аспектах: визуально, в частности геометрически, и содержа­тельно. С изобразительной точки зрения каждое поле должно быть явно обособлено: пустыми промежутками, разделительны­ми линиями, оригинальным типом шрифта, уровнем фона, цве­том и т.д.

Содержательная часть характеризуется назначением поля, словарным и алфавитным составом, а также некоторыми зако­нами построения текста, например, в поле почтового адреса дол­жны быть сведения о городе, улице, доме и проч.

Геометрические и содержательные характеристики полей мо­гут быть как абсолютно независимыми, так и взаимосвязанны­ми. Например, в приходном ордере рядом с полями «количество» и «цена» находится поле «сумма».

Документы, которые подлежат сканированию, могут быть объединены в группы по нескольким признакам. По способу на­несения информации можно выделить документы, в которых ис-

пользуются метки, печатный или рукописный текст. Так, напри­мер, Избирательные бюллетени используют меточный способ, в то время как Прайс-листы - печатный, а первичные бухгалтерс­кие документы - в основном рукописные.

По геометрической вариантности полей различают докумен­ты, в которых расположение всех полей и записей строго фикси­ровано относительно опорных элементов: рамок, линий, посто­янных напечатанных записей, специальных маркеров. Все специ­ально подготовленные для машинной обработки документы обладают этим качеством. Другим типом являются документы, которые имеют произвольное расположение полей.

'Кроме того, можно разделять документы по наличию яв­ных разделителей полей, которые часто присутствуют в табли­цах, бухгалтерских документах и в платежных поручениях, или их отсутствию.

2. Получение изображения документа включает в себя выпол­нение таких операций, как сканирование; контроль качества от­сканированных изображений и возможное повторное сканиро­вание.

Сканирование - это очень ответственная операция, и, следо­вательно, к выбору конкретной модели сканера необходимо под­ходить достаточно ответственно. При выборе следует учитывать следующие факторы: размеры документов, их состояние, являет­ся ли документ односторонним или двухсторонним, производи­тельность сканеров, необходимое разрешение изображения, на­дежность получаемых изображении и др.

В настоящее время на рынке технических средств предлагает­ся достаточно большое количество различных моделей сканеров, которые можно классифицировать по производительности на следующие виды:

персональные -низкоскоростные (20-40 строк/мин, например
Fujitsu Scan Pather 10, HP ScanJet и др.);

настольные офисные -среднескоростные (40-60 строк/мин или
80-120 изображений в минуту, например ВancTec 2610 ВeLL&Ноwе116338, Fujitsu3099, Коdак Imagelink 500 и др.);

высокопроизводительные потоковые (90-185 страниц/мин или
180-370 изображений в минуту, например ВаnсТес S-series,Photomatrix 5000, Коdак Imagelink 900 и др.).

По качеству сканирования, зависящего от разрешающей спо­собности, их можно разделить на следующие группы: с низкой разрешающей способностью (200-400 точек на
дюйм);

со средней разрешающей способностью (600-800 точек/дюйм);

с высокой разрешающей способностью (1600-2800 точек/дюйм);

специального назначения.

Для ввода ветхих документов применяют сканеры специаль­ного назначения с вакуумным прижимом документов, которые предъявляют весьма низкие требования к документу и обраба­тывают его в щадящем режиме. Такие сканеры позволяют ска­нировать не полностью раскрытые книги и документы плохого качества. Скорость ввода у таких устройств 0,25-3 страницы в минуту.

Контроль качества отсканированных изображений необходим для того, чтобы все нужные документы были отсканированы и легко читаемы (не должно быть пропущенных страниц, некаче­ственных изображений и т.д.). Для повышения эффективности и надежности системы следует иметь возможность выборочной проверки качества отсканированных изображений, а при скани­ровании многостраничных документов - возможность отслежи­вать порядок сканируемых страниц.

Повторное сканирование проводится в случае неудовлетвори­тельного качества изображения или из-за проблем, связанных с неправильным порядком страниц в документе.

3. Распознавший и ввод данных, содержащихся в документе, в информационную базу предполагают выполнение следующих основных операций:

предварительной обработки изображений;

нахождения полей (сегментация документа и чтение текста);

проверки распознанной информации;

• ввода данных в информационную базу.
Предварительная обработка изображения документов исполь­зует следующие специальные функции:

очищение изображения применяется для снятия с изображе­ний отдельных элементов (например, точки, пятна);

снятие фона и выделений (например, с ценных бумаг);

выравнивание изображения для последующей его обработкис целью улучшения качества распознавания, чтобы документ показать в строго вертикальном положении в процедуре рас­
познавания без перекосов;

снятие элементов форм (для того чтобы эффективно обраба­тывать форму, необходимо удалять с изображения элементы формы: линии, разграфки, таблицы и т.д.);

определение идентификатора форм (так как приходится вво­дить в систему самые разнообразные формы, отличные как по содержанию, так и по структуре; для того чтобы система
могла работать со множеством форм, она должна опреде­лять, какая форма поступила на обработку, и загружать со­ ответственно заранее настроенное и подготовленное описа­ние формы);

восстановление букв и символов, если они оказываются пере­сеченными элементами формы, например линией (для после­дующего распознавания символа необходимо удалить линию таким образом, чтобы буква не пострадала).

Кроме того, к предварительной обработке изображения от­носятся следующие функции, повышающие надежность распоз­навания:

вращение изображения на произвольный угол;

масштабирование изображения;

регулирование уровня серого цвета;

компрессия и декомпрессия изображения.

Процессы нахождения полей (сегментация документа) и чте­ния текста могут быть выполнены последовательно и независи­мо, если поля полностью определены своими визуальными ха­рактеристиками. Такая ситуация характерна для машиночитае­мых форм и документов с явными разделителями полей в виде линий или больших промежутков. В документах, не имеющих строго определенного положения полей и явных разделителей между ними, нет принципиально иного способа, как прочитать текст и по его содержанию скорректировать результаты предва­рительной сегментации.

В машиночитаемых формах задача в основном сводится к нахождению опорных элементов и вычислению относительно них положения информативных полей. Документы, не имеющие стро­го заданной геометрии, но тем не менее использующие явно за­данные разделители, обрабатываются достаточно надежно, на­пример таблицы с разделителями в виде горизонтальных и вер­тикальных прямых.

Наиболее сложная ситуация возникает при работе с гибкими формами документов. Термин «гибкая» означает, что известны состав полей, их примерное расположение, некоторые особенно­сти по строению полей, но отсутствует полная и точная ориента­ция по их расположению.

Как правило, задачи обработки разных форм документов, таких, как платежные документы, налоговые декларации и дру­гие, решаются индивидуально путем программирования с исполь­зованием общих приемов.

Распознавание документа, анализ содержания документа и из­влечение данных осуществляются в настоящее время с помощью следующих систем распознавания текстов, отличающихся по сто­имости, качеству и скорости работы:

OSC (Opticfl Character Recognition) - технология оптическо­го распознавания печатных символов, т.е. перевода сканиро­ванного изображения печатных символов в их текстовое пред­
ставление;

ICR (Intelligent Character Recognition) - распознавание раз­
дельных печатных символов, написанных от руки;

OMR(Optical Mark Recognition)) - распознавание отметок (обычно перечеркнутые крест-накрест либо галочками квад­раты или круги);

стилизованные цифры - распознавание рукописных цифр,
написанных от руки по шаблону, как на почтовых конвертах.
Существует несколько подходов к реализации технологий вво­да рукописных символов.

• Распознавание Оn-line осуществляется в тот момент, когда че­ловек пишет специальным пером на сенсорном экране, вос­принимающем дополнительную информацию о траектории движения руки, наклоне пера, силе нажима и т.д. Применяет­ся в основном в персональных электронных записных книж­ках типа 3Com PalmPilot для рукописного ввода числовых и символьных данных.

• Распознавание off-line - распознавание произвольного руко­писного текста, введенного в компьютер через сканер.
Распознавание рукописных символов является подмноже­ством технологии распознавания off-line - Применяется, как пра­вило, для ввода стандартных форм. Очевидно, что распознава­ние рукописного текста значительно сложнее, чем печатного. Если в последнем случае мы имеем дело с ограниченным числом вариаций изображений шрифтов (шаблонов), то в рукописном варианте число шаблонов неизмеримо больше.

Для ОСR-систем в основном используются три технологии:

матричная (Matrix-based);

описательная (основана на описании правил построения сим­волов);;

нейронная (основана на использовании нейронных сетей).
Проверка распознанных данных является следующей опера­цией, реализуемой системой ввода. Системы автоматическогораспознавания обычно вместе с результатом возвращают так на­зываемую «степень уверенности». Для повышения надежности данных после распознавания применяются определенные пользо­
вателем автоматизированные методы проверки данных (напри­мер, можно проверить, имеется ли распознанная информация в базе данных, и если нет, то пометить поле как некорректное).

Бели данные после распознавания помечены как некоррект­ные, то они автоматически направляются на ручное редактиро­вание. Во время редактирования оператор видит реальное изоб­ражение нераспознанного поля и имеет возможность откоррек­тировать его. После ввода оператором новых данных снова применяются правила проверки данных, т.е. на всех этапах вво­да, как автоматического, так и ручного, осуществляется провер­ка данных в соответствии с правилами, определенными пользо­вателем. Большие требования в данном случае предъявляются к методам проверки вводимых данных. Для повышения надежнос­ти данных используются дополнительные механизмы, такие, как применение словарей и таблиц, определяемых пользователем. Как правило, системы включают специальные встроенные средства для определения специальных процедур проверки для каждого поля документа.

Ввод данных, содержащихся в документе, в информационную базу является заключительной операцией. При этом может быть сохранено изображение документа.

В отличие от обычной системы распознавания (ОСR.) систе­ма ввода стандартных форм использует формальное описание исходной формы документа или бланка. Это позволяет автома­тически помещать распознанную информацию в поля базы дан­ных без участия оператора. Строгое соблюдение стандарта внеш­него вида формы существенно повышает точность распознава­ния попей документа.

Основной фактор при оценке эффективности систем распоз­навания заключается в стоимости исправления ошибок при рас­познавании, а не в точности и скорости системы. В некоторых случаях затраты на исправление ошибок при распознавании мо­гут перекрыть все плюсы автоматизации и сделать ручной ввод по изображению более эффективным.

При разработке и использовании такой системы проектиров­щику требуется выполнить также большой объем работ по ин­теграции этой системы ввода в действующую или разрабатывае­мую информационную систему. На производительность системы очень большое влияние оказывают используемая технология вво­да, ее настройка на текущую задачу и вид документов. Здесь нуж­но учитывать состав оборудования, программное обеспечение и совместимость формата распознанной информации с уже суще­ствующими системами.

Существует множество компаний, которые предлагают реше­ния или компоненты систем обработки форм. Решение о внедре­нии системы обработки форм, а также выбор того или иного при­ложения должны производиться с учетом в первую очередь сле­дующих требований:

тип обрабатываемых документов и вид содержащихся в них данных;

точность распознавания;

наличие эффективной системы редактирования; >

настраиваемость системы на требования конкретного заказ­чика и способность изменяться согласно меняющимся внеш­ним условиям без программирования;

наличие поддержки сканеров различных типов, а также раз­ного рода плат обработки изображений документов;

наличие редактора форм, настраивающего систему на новыеформы или изменения старой формы, на которую система была предварительно ориентирована;

наличие редактора схем обработки документов, открытого интерфейса подключения различных модулей распознавания (в зависимости от типа формы можно для повышения каче­ства распознавания подключать тот или иной модуль, кото­рый наиболее подходит для данного типа формы);

наличие редактора схем экспорта в базу данных (данные, ко­торые извлекаются при обработке формы, должны быть пе­реданы в базу данных для хранения или в другие бизнес-при­ложения для обработки).

Рассмотрим в качестве примера систему Соgnitive Forms ком­пании Сognitive Technologies. Сognitive Forms - российская сис­тема промышленного (иногда говорят поточного) ввода стандартных форм документов, которая работает под управлением опе­рационных систем)Windows 95/NT и МасОS. Система принадле­жит к классу ОCR\ICR\OMR и позволяет вводить в базы данных и информационные системы формы с печатным, рукописным заполнением отметками (сheckdox).

Сognitive Forms предназначена для автоматизированного вво­да в информационные системы и базы данных произвольных, одно- и многостраничных форм документов, соответствующих определенным требованиям к оформлению и заполнению и под­готовленных на лазерных, струйных и матричных принтерах или на стандартных бланках с использованием пишущих машинок.

Эта система позволяет осуществлять распределенную поточ­ную обработку (сканирование, распознавание, редактирование и контроль) в сети с производительностью распознавания до 14 000 страниц формата А4 в смену на одном компьютере и осу­ществлением автоматического контроля результатов распозна­вания. Экспорт данных может осуществляться в базы данных, бан­ковские системы типа операционный день и системы создания электронных архивов и автоматизации документооборота.

Внедрение системы позволяет обеспечить ускорение ввода стандартных форм документов в 5-10 раз по сравнению с руч­ным вводом.

Сканированные образы могут быть сохранены в электронном архиве банка для ведения истории делопроизводства организации. Cостоит из трех основных модулей:

Сognitive FormDesigner отвечает за проектирование описания формы документа для программ распознавания и редактиро­вания.

Сognitive FormReader обеспечивает автоматическое распозна­вание потока стандартных форм, поступающих со сканера. В автоматическом режиме осуществляет поточное распознава­ние форм по заданному описанию и контекстную проверку результатов.

Сognitive FormEdition предназначен для операторского контро­ ля распознанных форм и сохранения информации из введен­ных форм в записи базы данных и позволяет оператору визу­ально контролировать и редактировать распознанные поляформ.

Сognitive Forms дает возможность осуществлять распределен­ную в рамках локальной сети, обработку вводимых форм и до­биться эффективного доступа к данным в режиме реального времени. Например, на Реntium II -233 время распознавания систе­мой Сognitive Forms одного бланка составляет около 2 с. Для промышленного ввода применяются высокопроизводительные сканеры: Rodak, Bell+Howell, BancTec, Fujisu и и другие, а также сетевые устройства (Неwlett-Packard). Производительность неко­торых моделей достигает сотен страниц в минуту.

Технология использования системы сводится к выполнению четырех шагов.

Вначале сотрудники Сognitive Technologies или заказчик собственными силами создают описание формы (файл с расши­рением *.frm) или нескольких форм документов в программе Сognitive FormDesigner.

Посредством любого сканера бумажные экземпляры вво­
дятся в компьютер и сохраняются в виде графических изображе­
ний (*.tif).

Для распознавания стандартных форм, удовлетворяющих
требованиям Сognitive Technologies к оформлению, использует­
ся программа Сognitive FormReader.

После распознавания оператор может произвести провер­ку, откорректировать данные и сохранить их в формате необхо­димой базы данных. Для этого в программе FormEdition оператор сравнивает изображение формы и поля базы данных. Он редак­тирует значения полей, глядя на экран компьютера и не тратя времени на работу с бумажным оригиналом. Система направля­ет оператора, не давая ему возможности ошибиться в формате
данных, регистре, типе, диапазоне значений и т.д., что существен­но облегчает ввод большого объема информации в используе­мые базы данных.

Система Сognitive Forms была разработана для применения в банковской сфере для печати и ввода новых форм платежных поручений.

Эффективность применения системы ввода бумажных доку­ментов в ЭИС основана в первую очередь на значительном со­кращении участия человека во вводе данных. Как следствие, мож­но наблюдать уменьшение времени ввода документов и количе­ства ошибок. Для организаций, обрабатывающих большие потоки форм (центральные налоговые и почтовые ведомства, ста­тистические организации, центры авторизации по расчетам за кредитные карты), использование описанных технологий позво­лит решить проблемы эффективности обработки сотен тысяч и даже миллионов форм в сжатые сроки.

Вопросы для самопроверки

Каково содержание основных операций технологического процесса получения первичной информации?

Каковы методы и средства выполнения операции съема пер­вичней информации и ее контроля?

Каковы методы и средства выполнения операций регистра­ции и сбора первичной информации и контроля правильно­сти их выполнения?

Каковы методы, технические и программные средства обес­печения передачи первичной информации в ЭИС?

Какой перечень операций входит в состав технологической сети проектирования процессов получения и передачи пер­вичной информации?

Каков состав процедур ведения ИБ?

Каковы требования, предъявляемые к процедуре загрузки?

Каков состав основных операций, включаемых в процедуру загрузки?

Каково содержание операции «Прием, контроль и регистра­ция первичной информации» и от какого фактора оно зави­сит?

 

Перечислите методы ввода первичной информации в ЭВМ иметоды контроля вводимой информации.

Перечислите особенности подготовки первичных данных, влияющих на содержание операций процедуры загрузки.

Какой состав методов семантического и синтаксического кон­троля первичной информации, используемых при загрузке данных?

Каков состав операций проектирования процедуры загрузки данных в ИБ?

Какие средства частичной автоматизации проектирования процедуры загрузки вы знаете и какие факторы влияют на их выбор?

В чем особенность и каков состав операций, выполняемых при вводе информации с бумажных носителей?

Каков состав операций по проектированию системы ввода информации с бумажных документов?

Что такое форматированный документ и каковы способы его описания?

Что такое «сканирование» и факторы, влияющие на выбор сканерных устройств?

Что такое распознавание текста и каковы методы, применяемые для распознавания текстовой информации?

Перечислите методы контроля, используемые для проверки распознаваемого текста?

Каков состав требований, предъявляемых к системе ввода бумажных документов?

Каковы особенности структуры и технологии использования системы Сognitive Forms?

 

Каково содержание процедуры «актуализации» и каков со­став операций проектирования процедуры актуализации ИБ?

Каков состав операций проектирования процесса обеспече­ния надежности хранения данных в ИБ?

 

 







Дата добавления: 2015-10-19; просмотров: 541. Нарушение авторских прав; Мы поможем в написании вашей работы!



Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...

Факторы, влияющие на степень электролитической диссоциации Степень диссоциации зависит от природы электролита и растворителя, концентрации раствора, температуры, присутствия одноименного иона и других факторов...

Йодометрия. Характеристика метода Метод йодометрии основан на ОВ-реакциях, связанных с превращением I2 в ионы I- и обратно...

Броматометрия и бромометрия Броматометрический метод основан на окислении вос­становителей броматом калия в кислой среде...

Машины и механизмы для нарезки овощей В зависимости от назначения овощерезательные машины подразделяются на две группы: машины для нарезки сырых и вареных овощей...

Классификация и основные элементы конструкций теплового оборудования Многообразие способов тепловой обработки продуктов предопределяет широкую номенклатуру тепловых аппаратов...

Именные части речи, их общие и отличительные признаки Именные части речи в русском языке — это имя существительное, имя прилагательное, имя числительное, местоимение...

Studopedia.info - Студопедия - 2014-2024 год . (0.01 сек.) русская версия | украинская версия