Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Что затрудняет распознавание текста





Распознавание текста даже для мощных компьютеров – задача не из простых. Поэтому раньше существовали специальные типы шрифтов для распознавания, символы которых машина понимала лучше.

Неправильная ориентация страницы. Необычно оформленный текст, расположенный на странице, например по диагонали, создает программе распознавания дополнительные трудности и скорее всего будет распознан с ошибками. А текст, расположенный вверх тормашками, OCR-приложение почти наверняка не сможет распознать правильно. Правда, во всех современных приложениях существуют инструменты, позволяющие автоматически повернуть страницу.

Многостраничные документы – серьезное испытание для OCR-приложений, поскольку их методы распознавания эффективно работают только в рамках отдельной страницы. Поэтому программы разбивают многостраничные документы на отдель­ные страницы и поочередно выполняют распознавание каждой из них.

Шрифт. Эффективнее всего OCR-системы справляются с такими легко читаемыми шрифтами, как Times New Roman или Courier. А вот с мелкими или декоративными шрифтами у них с большей долей вероятности возникнут проблемы, равно как и с математическими или химиче­скими символами (в последнем случае необходимо явно указать программе, что ее задача – распознать формулы).

Профессиональные термины и слова на иностранном языке. Большинство OCR-приложений содержит мультиязычные и тематические словари и легко справляется с распознаванием слов из других языков и терминов. Однако узкоспециальные слова и выражения доставляют программам большие трудности – например, словосочетание «дезоксирибонуклеиновая кислота» может отсутствовать в словаре программы и будет помечено ею как нераспознанное, чтобы пользователь мог исправить его написание.

Пятна и грязь на документе могут сбить систему распознавания с толку. Так, две крупинки тонера способны быстро превратить «е» в «ё». Поэтому OCR-приложения имеют специальные фун­кции «очистки» документа.

Текст на рисунках. В некоторых случаях программа должна «читать» и иллюстрации, выделяя на них текстовые блоки, к примеру, чтобы распознавать надписи на диаграммах. Эта задача решается следующим образом: как только на странице обнаруживаются элементы, похожие на текст, выполняется предварительное выборочное распознавание символов. Если результат проверки окажется убедительным, то программа продолжит работать с надписями на рисунках.

Таблицы. Для любого OCR-приложения таблица представляет собой смесь графических элементов (линий) и текста. Для того чтобы любой элемент таблицы удалось распознать, разработчики предусмотрели специальные функции. Корректно распознанные таблицы можно редактировать, к примеру в Excel или Word.

Каким должен быть сканер

Первым делом нужно определиться, с какими бумажными носителями вы чаще будете работать. Если это книги, журналы и рукописи (то есть сброшюрованные материалы), вам потребуется планшетный сканер. Требования OCR-программ к подобному оборудованию достаточно скромны: оптимальным решением будет недорогой (от 1500 руб.) «планшетник», позволяющий работать с

Рис.10

оригиналами формата A4. Он удобен тем, что на его стекло можно класть не только отдельные бумажные листы, но также книги и журналы. Кстати, во многих моделях крышка не просто откидывается, а еще и приподнимается вверх – можно сканировать толстые книги. Планшетные сканеры обычно встраивают в многофункциональные устрой­ства; такие интегрированные скан-модули вполне пригодны для оцифровки текста и старых фотографий.

Если вы чаще будете сканировать отдельные листы, ищите модель, оборудованную устройст­вом для автоматической подачи оригиналов. Оно освободит вас от необходимости менять страницы вручную, а будет затягивать их из приемного лотка автоматически, аналогично тому, как принтер затягивает листы чистой бумаги.







Дата добавления: 2015-10-19; просмотров: 604. Нарушение авторских прав; Мы поможем в написании вашей работы!




Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...


Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...


Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...


Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Билиодигестивные анастомозы Показания для наложения билиодигестивных анастомозов: 1. нарушения проходимости терминального отдела холедоха при доброкачественной патологии (стенозы и стриктуры холедоха) 2. опухоли большого дуоденального сосочка...

Сосудистый шов (ручной Карреля, механический шов). Операции при ранениях крупных сосудов 1912 г., Каррель – впервые предложил методику сосудистого шва. Сосудистый шов применяется для восстановления магистрального кровотока при лечении...

Трамадол (Маброн, Плазадол, Трамал, Трамалин) Групповая принадлежность · Наркотический анальгетик со смешанным механизмом действия, агонист опиоидных рецепторов...

Словарная работа в детском саду Словарная работа в детском саду — это планомерное расширение активного словаря детей за счет незнакомых или трудных слов, которое идет одновременно с ознакомлением с окружающей действительностью, воспитанием правильного отношения к окружающему...

Правила наложения мягкой бинтовой повязки 1. Во время наложения повязки больному (раненому) следует придать удобное положение: он должен удобно сидеть или лежать...

ТЕХНИКА ПОСЕВА, МЕТОДЫ ВЫДЕЛЕНИЯ ЧИСТЫХ КУЛЬТУР И КУЛЬТУРАЛЬНЫЕ СВОЙСТВА МИКРООРГАНИЗМОВ. ОПРЕДЕЛЕНИЕ КОЛИЧЕСТВА БАКТЕРИЙ Цель занятия. Освоить технику посева микроорганизмов на плотные и жидкие питательные среды и методы выделения чис­тых бактериальных культур. Ознакомить студентов с основными культуральными характеристиками микроорганизмов и методами определения...

Studopedia.info - Студопедия - 2014-2025 год . (0.012 сек.) русская версия | украинская версия