logo
Курс лекций КИТ

Технологии автоматизированного ввода документа (осr-системы)

Довольно часто в офисной работе возникает ситуация, когда имеется текст документа, напечатанный на бумаге, а  электронная версия этого документа отсутствует. Причем, в текст этого документа надо внести свои исправления, дополнения и т.д. Конечно, эту задачу легко решить, если документ в несколько строк: можно просто сесть за компьютер и напечатать текст с бумаги и дополнить своим. Но если в документе 20-30-50 страниц с текстом, таблицами и графиками, понадобится много времени для ввода текста с бумаги в компьютер. Тут уж не обойтись без сканера и специальных программ для распознавания текста.

OCR (Optical Character Recognition) — общее названия программ для распознавания текста, без них сканер не сможет понять ни одной буквы. Программы OCR делятся на программы «начального уровня» и профессиональные. Программы «начального уровня» при сканировании решают поставленную задачу, как говорится «в лоб»: переводят текст на бумаге в набор символов и далее предлагают пользователю самостоятельно разобраться с тем, что получилось. Для простых текстовых документов большего и не надо. На листе есть набор символов, и он преобразуется в такой же набор, только в текстовом файле. Но если документ, который находится в  сканере имеет сложную структуру — с графическими вставками или таблицами, то такая программа сделает столько ошибок, что неизвестно, что проще — набирать текст вручную или редактировать то, что выдал сканер. В этом случае приходится использовать профессиональную программу OCR, с помощью которой можно распознать не только символы, но и структуру документа: система «понимает», где находится графика, где простой текст, а где таблица. И, соответственно, делит документ на фрагменты, а каждый фрагмент, согласно его свойствам, вставляет в конечный файл. Разумеется, график или чертеж программа не трогает вовсе — «понимает», что здесь нечего распознавать; она пытается восстановить таблицы именно той структуры, какой они были в оригинальном документе — с таким же распределением ячеек по столбцам и строкам. Кроме того, профессиональные программы умеют обрабатывать многоязычные документы. Одной из лучших в мире профессиональных OCR считается программа FineReader — разработка российской фирмы ABBYY. Она выпускается в нескольких вариантах, начиная со средней сложности и до самой высокой (последние варианты применяют при огромных объемах сканирования, например, при переводе бумажных архивов в электронную форму).

Сканер снимает изображение не целиком, а по строчкам. Если назвать длинную сторону сканера вертикалью планшета, а короткую — горизонталью, то по вертикали движется полоска светочувствительных элементов и снимает изображение строку за строкой. Но и строки снимаются не целиком, а по точкам. Чем больше светочувствительных элементов у сканера, тем больше точек он может снять с каждой горизонтальной полосы изображения. Это называется оптическим разрешением сканера. Обычно его считают по количеству точек на дюйм — dpi (dots per inch). Сегодня даже для недорогих сканеров считается нормой уровень разрешения 600 dpi. Этого достаточно для выполнения 95% работ с бумажными носителями. Увеличивать разрешение еще дальше — значит, применять более дорогую оптику, более дорогие светочувствительные элементы, а также многократно затягивать время сканирования. Это может понадобиться разве что для обработки слайдов: для сканирования кадров обычной 35-миллиметровой пленки обычно необходимо разрешение 1200 dpi. Сканирование текста обычно происходит в режиме «Оттенки серого цвета» с разрешением порядка 200—300 dpi — это наиболее благоприятный режим для программ OCR. То есть, при таком режиме сканер не «забивает» программу лишней информацией, с одной стороны, а с другой — у программы достаточно данных, чтобы распознать даже мелкий текст с минимальными ошибками.

PenReader (Paragon Software Group) - многоязыковая система распознавания рукописного ввода для Tablet PC, которая не требует обучения и "на лету" переводит рукописный текст в набранный, имеет гибкую и мощную систему настроек, позволяющую настраивать его под свои нужды. PenReader - одна из немногих в мире систем полноценно работающих с русским языком для Tablet PC.