logo search
ИТ в экономике

2.3.1.1. Средства ввода документов в кэа

Документы в архив могут поступать от офисных приложений, преобразовываться в электронную форму с бумажных носителей с помощью сканирования. Бумажные документы могут быть оформлены как отдельные листы или сброшюрованы. Они могут иметь размеры до формата АО. В каждом из этих случаев применяются свои типы сканеров.

Результат сканирования со сканера поступает на Сервер ввода документов (http://www.elar.ru/resh/modtekvv.html). Каждому документу приписывается электронная поисковая карточка с указанием значений атрибутов для последующего поиска (например, время создания, автор и так далее) [47]. Для текстовых документов выполняется процедура распознавания символов. В результате, в архиве хранится не только графический образ документа, но и файл с его содержимым, который можно редактировать текстовым редактором.

Распознавание выполняется с помощью программ, которые относятся к классу систем Оптического распознавания символов (OCR -Optical Character Recognition). Широко распространена программа такого класса Fine Reader 6.0 Professional производства фирмы Bit Software. Этот программный комплекс распознает тексты и таблицы на 177 языках ( в том числе, на языках программирования - Basic, Pascal и других) и переводит их в форматы Word, Excel, Outlook. Распознанные тексты могут также сохраняться в форматах PDF и HTML13. Программа распознает также химические формулы, подстрочные символы, цвет текста, распознает формат и стиль написания текста. С помощью продукта можно также заполнять на экране отсканированные пустые бланки документов. Это позволяет делать утилита Form Filler. После заполнения бланка - формы, вы можете распечатать только бланк, только заполненные поля, весь бланк с заполненными полями [48]. Для удобной работы с отсканированными разворотами книг и выделения в них отдельных страниц, система позволяет в режиме диалога разбить полученный графический образ на заданное число страниц и затем обрабатывать каждую из них отдельно. В отсканированных и распознанных документах можно также найти страницы, содержащие заданные фразы. Шестая версия продукта поддерживает работу в локальной сети (http://www.softline.ru/product.asp?catalog%5Fname=SoftLine&category%5F name=&product%5Fid=Software%2D10982).

Как же осуществляется распознавание символов? Оно выполняется на основе фонтанного преобразования (от слова font - шрифт). Любой текст рассматривается как совокупность связанных объектов. Для распознавания текста выдвигается гипотеза о его составных частях и их взаимосвязях. Затем предпринимается попытка собрать текст из объектов с гипотетическими свойствами и проверяется правильность исходной гипотезы. Аналогично, вы, читая текст, делаете предположение о смысле слова даже при наличии плохо пропечатанной буквы. Если гипотетическое слово соответствует смыслу текста, предположение сделано верно. Распознанные символы заменяются машинными кодами, в результате фотография текста преобразуется в файл, редактируемый текстовым редактором. Каждый символ распознается на основе шаблонов. Большое количество шаблонов содержится во встроенной базе данных [49].