Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Глава II Программное обеспечение





 

Рис. 6

Рис. 7

Ввод страницы. На этом этапе отсканированный или сфотографированный документ попадает в компьютер в виде изображения.

Анализ макета. OCR-приложение определяет, где на странице находятся текст, рисунки, таблицы и т.п., и разбивает ее на блоки. Программа последовательно дробит страницу на все более мелкие блоки: разбивает текст на абзацы, затем на предложения, отдельные слова и символы. В финале анализа макета документ представляет собой набор отдельных символов. Программа запоминает, в каком месте на странице каждый из них находится.

Распознавание символов – самый ответственный этап процесса OCR, ведь программа должна правильно идентифи­цировать все найденные знаки. Используется в тексте буква «В» (и какая – русская или латинская) или это цифра «8»? Если программа допустит ошибку, результат распознавания превратится в абракадабру. Для более точного распознавания текста программы комбинируют различные методы, которые условно делятся на две категории: методы сопоставления с образцом и методы сопоставления признаков (более подробно о них читайте далее).

Реконструкция документа. После завершения процесса распознавания программа начинает воссоздавать страницы, с помощью встроенного словаря объединяя отдельные символы в слова, слова в предложения, предложения в абзацы и т.д. Для ускорения процесса используются результаты анализа макета страницы (этап 2). Кроме того, применяя специальные методы, программы пытаются учитывать грамматические особенности текста, чтобы в итоге получились корректные с точки зрения распознаваемого языка предложения.

Сохранение документа. OCR-приложение сохраняет распознанный документ в определенном пользователем формате (только текст – TXT; макет страницы – файлы Microsoft Word или PDF).

 

Рис. 8







Дата добавления: 2015-10-19; просмотров: 427. Нарушение авторских прав; Мы поможем в написании вашей работы!




Шрифт зодчего Шрифт зодчего состоит из прописных (заглавных), строчных букв и цифр...


Картограммы и картодиаграммы Картограммы и картодиаграммы применяются для изображения географической характеристики изучаемых явлений...


Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...


Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Методы анализа финансово-хозяйственной деятельности предприятия   Содержанием анализа финансово-хозяйственной деятельности предприятия является глубокое и всестороннее изучение экономической информации о функционировании анализируемого субъекта хозяйствования с целью принятия оптимальных управленческих...

Образование соседних чисел Фрагмент: Программная задача: показать образование числа 4 и числа 3 друг из друга...

Шрифт зодчего Шрифт зодчего состоит из прописных (заглавных), строчных букв и цифр...

МЕТОДИКА ИЗУЧЕНИЯ МОРФЕМНОГО СОСТАВА СЛОВА В НАЧАЛЬНЫХ КЛАССАХ В практике речевого общения широко известен следующий факт: как взрослые...

СИНТАКСИЧЕСКАЯ РАБОТА В СИСТЕМЕ РАЗВИТИЯ РЕЧИ УЧАЩИХСЯ В языке различаются уровни — уровень слова (лексический), уровень словосочетания и предложения (синтаксический) и уровень Словосочетание в этом смысле может рассматриваться как переходное звено от лексического уровня к синтаксическому...

Плейотропное действие генов. Примеры. Плейотропное действие генов - это зависимость нескольких признаков от одного гена, то есть множественное действие одного гена...

Studopedia.info - Студопедия - 2014-2025 год . (0.012 сек.) русская версия | украинская версия