logo
Lektsia4_i_5_Prikladnoe_programmoe_obespechenie

Автоматизация ввода информации в компьютер

Основным методом перевода бумажных документов в электронную форму является сканирование, в результате которого создается графический образ бумажного документа.

Принцип действия сканирующих устройств или сканеров одинаков. Документ освещается светом от специального источника, а отраженный свет воспринимается светочувствительным элементом. В результате сканирования получается графическое изображение, состоящее из точек, т.е. растровое изображение. Количество точек определяется как размером изображения, так и разрешением сканера.

Существуют специальные стандарты программного интерфейса, обеспечивающего связь между сканерами и операционной системой. Этот интерфейс основан на специальном протоколе TWAIN.

Графический образ, получаемый после сканирования документа, чаще всего необходимо перевести в текст. Для этого используются специальные программные средства, называемые средствами распознавания образов. Многие из программ используют совершенно различные алгоритмы распознавания, но при этом распознавание не зависит ни от шрифтов, ни от алфавита. Из программ, способных распознавать текст на русском языке наиболее известными являются программы Fine Reader и CuneiForm.

Преобразование документа в электронный вид происходит в три основных этапа. Каждый из этих этапов может выполнятся программами как автоматически, так и под контролем пользователя.

  1. Сканирование. Запускается сканирующий модуль, настраиваются параметры сканирования(разрешение, размер, тип сканирования) и происходит собственно сканирование.

  2. Сегментация и распознавание текста. Прежде чем получить готовый текст, необходимо разбить фрагменты документа на блоки(текст, рисунок, таблица и т.д.), для того, чтобы правильно их распознать(превратить в текст).

  3. Проверка орфографии и передача текста в нужное приложение для дальнейшей работы или сохранение в файл.