Как распознать сканированный текст

Компьютеры уже давно вошли в жизнь большего числа наших граждан. Когда нам нужно получить небольшой объем печатной информации, то обычно мы набираем этот текст вручную, воспользовавшись графическим редактором. Однако иногда нам требуется целая книга или журнал, переписывать которую довольно долго.

В этом случае мы пользуемся сканером. Однако это устройство делает лишь своеобразную фотографию текста, которую нельзя отредактировать. Чтобы изменить полученную информацию, нужно распознать текст в данном документе.

В компьютерной индустрии бесспорным лидером по распознаванию сканированного текста является программа FineReader (Файн Ридер). Однако стоит она довольно дорого, и не каждый сможет найти и установить ее на свой ПК. Между тем, у этой программы есть достойная и бесплатная альтернатива под названием CuneiForm.

В ходе использования было замещено, что данная программа обладает даже более высоким качеством распознавания текста, чем у ее платного конкурента. Правда, здесь нужно следить за разрешением, CuneiForm просто не может работать с большими файлами. Количество языков здесь небольшое, но все основные все же присутствуют.

Установка CuneiForm осуществляется при помощи инсталлятора. Установочный файл запускается, после полной установки в меню «Пуск» появится новая рубрика с именем программы, откуда ее можно открыть и запустить.

Первая кнопка, которую мы должны нажать, становится «Получить изображение». При этом можно открыть уже готовый скан документа. После этого нам нужно провести разметку, чтобы определить блоки страницы. Все блоки делятся на текст (отмечается синим цветом), рисунки и таблицы.

После того, как текст выделится, можно начинать процедуру его распознавания. Для этого следует нажать соответствующую кнопку. В новом окне появится документ, похожий на Word. В данном документе голубым цветом будут отмечены слова, в которых программа не уверена, красным цветов – слова с возможной ошибкой.

Документ можно будет свободно редактировать, копировать и сохранять. Текст можно сохранить в разных форматах, например, как TXT-файл или HTML. Информацию также можно экспортировать в Word путем нажатия стрелки в левом углу.

Возможности программы

  • Экспорт/импорт во многие форматы файлов (TXT, RTF, GIF, BMP и другие).
  • Поддержка локального и сетевого сканирования.
  • Выбор параметров сканирования документа.
  • Определение области распознавания.
  • Предварительный просмотр.
  • Распознавание языков. В программе есть функция по распознаванию языков с латинским алфавитом, кириллическим алфавитом или двуязычных текстов. Кроме того, можно добавлять новые языки.
  • Распознавание шрифтов. Возможность распознавания любых шрифтов (за исключением рукописных).
  • Распознавание таблиц. Возможность распознавания табличных блоков (таблиц) и изображений.
  • Распознавание текста. Программа хорошо распознает тексты на плохих ксерокопиях и распечатках, не изменяя структуру документа.
  • Распознавание символов.
  • Распознавание индексов и сносок.
  • Использование словарей. Для распознавания текстов используются специальные словари, позволяющие распознать слова в правильной форме.
  • Проверка орфографических ошибок.
  • Экспорт результатов сканирования в документы с расширениями *.txt или *.rtf.
  • Поддержка технологии Intel Pentium MMX для увеличения скорости распознавания текста на 30%.
  • Поддержка интеграции с системой Евфрат.

 Примечание! Для распознавания «сложных» документов, содержащих (таблицы, текст, рисунки или изображения плохого качества), лучше использовать ручную фрагментацию, а не мастер распознавания. Чтобы воспользоваться данной возможностью, нужно выполнить следующие действия: «Получить изображение» -> «Разметка» -> Отредактируйте изображения и нажать «Распознавание».

Скачать бесплатную программу CuneiForm  можно ЗДЕСЬ.

Обновленные версии можно посмотреть ЗДЕСЬ.

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий