logo
лекции по дисциплине ПРОЕКТИРОВАНИЕ ИС

5. Проектирование процесса автоматизированного ввода бумажных документов

Одной из основных задач, связанных с сокращением затрат на обработку данных, является автоматизация массового ввода бумажных первичных документов. Основное отличие массового ввода документов от простого сканирования состоит в том, что обрабатывается большое количество однотипных документов.

В качестве примеров приложений данной технологии в конкретных предметных областях можно привести систему ввода и обработки «Платежных поручений» в банке, систему ввода «Налоговых деклараций» и т.д.

При проектировании системы ввода бумажных документов выполняется следующая совокупность операций:

Автоматизированное чтение и ввод документов включают в себя операции, которые можно объединить в несколько стадий:

1. Подготовка документов к сканированию.

2. Получение изображения документа.

3. Распознавание и ввод данных, содержащихся в документе.

1. Подготовка документов к сканированию включает в себя две операции: непосредственную подготовку документов для сканирования и выполнение описания настройки системы на конкретную форму документа.

Подготовка документов для сканирования предполагает выполнение следующих шагов:

Составление описания каждого документа предполагает выполнение трех операций:

В основе выполнения этих операций лежит понятие форматированного (структурированного) документа. К таким документам относятся «Платежные поручения», «Прайс-листы» т.д.

Основной структурной единицей форматируемого документа является поле документа. Каждое поле описывается в двух аспектах: визуально, в частности геометрически, и содержательно. С изобразительной точки зрения каждое поле должно быть явно обособлено: пустыми промежутками, разделительными линиями, оригинальным типом шрифта, уровнем фона, цветом и т.д.

Содержательная часть характеризуется назначением поля, словарным и алфавитным составом, а также некоторыми законами построения текста, например, в поле почтового адреса должны быть сведения о городе, улице, доме и проч.

Документы, которые подлежат сканированию, могут быть объединены в группы по нескольким признакам.

По способу нанесения информации можно выделить документы, в которых используются метки, печатный или рукописный текст. Так, например, Избирательные бюллетени используют меточный способ, в то время как Прайс-листы - печатный, а первичные бухгалтерские документы - в основном рукописные.

По геометрической вариантности полей различают документы, в которых расположение всех полей и записей строго фиксировано относительно опорных элементов: рамок, линий, постоянных напечатанных записей, специальных маркеров. Все специально подготовленные для машинной обработки документы обладают этим качеством. Другим типом являются документы, которые имеют произвольное расположение полей.

Кроме того, можно разделять документы по наличию явных разделителей полей, которые часто присутствуют в таблицах, бухгалтерских документах или их отсутствию.

2. Получение изображения документа включает в себя выполнение таких операций, как сканирование, контроль качества отсканированных изображений и возможное повторное сканирование.

Контроль качества отсканированных изображений необходим для того, чтобы все нужные документы были отсканированы и легко читаемы. Для повышения эффективности и надежности системы следует иметь возможность выборочной проверки качества отсканированных изображений, а при сканировании многостраничных документов - возможность отслеживать порядок сканируемых страниц.

Повторное сканирование проводится в случае неудовлетворительного качества изображения или из-за проблем, связанных с неправильным порядком страниц в документе.

3. Распознавание и ввод данных, содержащихся в документе, в информационную базу предполагают выполнение следующих основных операций:

Распознавание документа, анализ содержания документа и извлечение данных осуществляются в настоящее время с помощью следующих систем распознавания текстов, отличающихся по стоимости, качеству и скорости работы: