ИТ в экономике

2.3.1.1. Средства ввода документов в кэа

Документы в архив могут поступать от офисных приложений, преобразовываться в электронную форму с бумажных носителей с помощью сканирования. Бумажные документы могут быть оформлены как отдельные листы или сброшюрованы. Они могут иметь размеры до формата АО. В каждом из этих случаев применяются свои типы сканеров.

В первом случае для перевода документов в электронный вид могут быть использованы высокопроизводительные производственные сканеры. Они могут применяться для ввода страховых полисов, историй болезней, юридических документов. Такой сканер может сканировать более 100 страниц формата А4 в минуту. Устройство не требовательно к качеству бумаги документа, может увеличивать контрастность изображения и сжимать изображение в процессе сканирования. Производителями производственных сканеров являются фирмы Fujitsu, Kodak, InoTec. На рисунке 14 приведена фотография сканера Kodak Document Scanner 500. Сканеры немецкой компании InoTec позволяют сканировать документы разного формата вплоть до A3. Они обладают встроенным принтером штрих-кода для пометки отсканированных документов. Могут быть оснащены блоками двухстороннего сканирования, блоками удаления пыли Старшая модель Scamax 5000 обеспечивает скорость 155 листов/мин, при двухстороннем сканировании. Разрешение сканирования от 200 до 400 точек/дюйм. Возможно микрофильмирование сканируемых документов. Документы для сканирования могут подаваться вручную или автоматически со специального лотка. Количество документов в таком лотке до 450 [45].
Для сканирования сброшюрованных документов применяются бесконтактные книжные сканеры. Они также могут сканировать документы разного формата, вплоть до А2. Сканирующая камера в этом случае располагается над столом, на котором находятся документы, и оператор переворачивает их вручную. Примером такого сканера является Minolta PS7000. Время сканирования одной страницы формата А4 составляет 4,5 сек. Разрешение составляет 400 точек/дюйм. Толщина сканируемой подшивки может достигать 10 см (http://www.elar.ru/device/minolta.html). Встроенное программное обеспечение позволяет корректировать наклон страницы, удалять линию сгиба, маскировать следы пальцев оператора. Так как книжные сканеры работают без контакта с документом, их рекомендуется использовать также для сканирования ветхих документов [46].

Для сканирования документов от формата A3 до формата АО применяются широкоформатные сканеры. При этом длина сканируемого листа не ограничена. Примером такого сканера является Contex Magnum 40" (рис. 15). Позволяет сканировать чертежи, плакаты, карты, архитектурные эскизы ( http://www.stc.ru/hw_sc_contex_magnum.htm ). Время сканирования цветного документа формата АО 14 сек. Максимальное разрешение 600 точек/дюйм. В сканер аппаратно встроены средства улучшения деталей переднего плана и фона, фильтры повышения резкости, выделение деталей изображения по цветовым признакам. В итоге, качество отсканированного изображения часто превосходит оригинал.

Результат сканирования со сканера поступает на Сервер ввода документов (http://www.elar.ru/resh/modtekvv.html). Каждому документу приписывается электронная поисковая карточка с указанием значений атрибутов для последующего поиска (например, время создания, автор и так далее) [47]. Для текстовых документов выполняется процедура распознавания символов. В результате, в архиве хранится не только графический образ документа, но и файл с его содержимым, который можно редактировать текстовым редактором.

Распознавание выполняется с помощью программ, которые относятся к классу систем Оптического распознавания символов (OCR -Optical Character Recognition). Широко распространена программа такого класса Fine Reader 6.0 Professional производства фирмы Bit Software. Этот программный комплекс распознает тексты и таблицы на 177 языках ( в том числе, на языках программирования - Basic, Pascal и других) и переводит их в форматы Word, Excel, Outlook. Распознанные тексты могут также сохраняться в форматах PDF и HTML¹³. Программа распознает также химические формулы, подстрочные символы, цвет текста, распознает формат и стиль написания текста. С помощью продукта можно также заполнять на экране отсканированные пустые бланки документов. Это позволяет делать утилита Form Filler. После заполнения бланка - формы, вы можете распечатать только бланк, только заполненные поля, весь бланк с заполненными полями [48]. Для удобной работы с отсканированными разворотами книг и выделения в них отдельных страниц, система позволяет в режиме диалога разбить полученный графический образ на заданное число страниц и затем обрабатывать каждую из них отдельно. В отсканированных и распознанных документах можно также найти страницы, содержащие заданные фразы. Шестая версия продукта поддерживает работу в локальной сети (http://www.softline.ru/product.asp?catalog%5Fname=SoftLine&category%5F name=&product%5Fid=Software%2D10982).

Как же осуществляется распознавание символов? Оно выполняется на основе фонтанного преобразования (от слова font - шрифт). Любой текст рассматривается как совокупность связанных объектов. Для распознавания текста выдвигается гипотеза о его составных частях и их взаимосвязях. Затем предпринимается попытка собрать текст из объектов с гипотетическими свойствами и проверяется правильность исходной гипотезы. Аналогично, вы, читая текст, делаете предположение о смысле слова даже при наличии плохо пропечатанной буквы. Если гипотетическое слово соответствует смыслу текста, предположение сделано верно. Распознанные символы заменяются машинными кодами, в результате фотография текста преобразуется в файл, редактируемый текстовым редактором. Каждый символ распознается на основе шаблонов. Большое количество шаблонов содержится во встроенной базе данных [49].

Содержание