Системы оптического распознавания документов
Системы оптического распознавания символов. Системы оптического распознавания символов используются при создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат.
Сначала с помощью сканера необходимо получить изображение страницы текста в графическом формате. Далее для получения документа в текстовом формате необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в последовательность текстовых символов.
Системы оптического распознавания символов сначала определяют структуру размещения текста на странице и разбивают его на отдельные области: колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы разделяются на изображения отдельных символов.
Для отсканированных документов типографского качества (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений) распознавание символов проводится путем их сравнения с растровыми шаблонами.
Растровое изображение каждого символа последовательно накладывается на растровые шаблоны символов, хранящиеся в памяти системы оптического распознавания. Результатом распознавания является символ, шаблон которого it наибольшей степени совпадает с изображением (рис. 3.16).
|
Рис. 3.16. Распознаваемый символ "Б" накладывается на растровые шаблоны символов (А, Б, В и т. д.) |
При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется векторный метод распознавания символов. В распознаваемом изображении символа выделяются геометрические примитивы (отрезки, окружности и др.) и сравниваются с векторными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех геометрических примитивов и их расположение больше всего соответствует распознаваемому символу (рис. 3.17).
|
Рис. 3.17. Распознаваемый символ "Б" накладывается на векторные шаблоны символов (А, Б, В и т. д.) |
Системы оптического распознавания символов являются "самообучающимися" (для каждого конкретного документа они создают соответствующий набор шаблонов символов), и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.
С появлением первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.
Системы оптического распознавания форм. При заполнении документов большим количеством людей (например, при сдаче выпускником школы единого государственного экзамена (ЕГЭ)) используются бланки с пустыми полями. Данные вводятся в поля печатными буквами от руки. Затем эти данные распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных.
Сложность состоит в том, что необходимо распознавать символы, написанные от руки, которые довольно сильно различаются у разных людей. Кроме того, такие системы должны уметь определять, к какому полю относится распознаваемый текст.
Контрольные вопросы
1. В чем состоят различия в технологии распознавания текста при использовании растрового и векторного методов?
- Информация и информационные процессы Человек и информация Информация и знания
- Восприятие и представление информации
- Языки естественные и формальные
- Информационные процессы
- Количество информации Количество информации как мера уменьшения неопределенности знания. (Содержательный подход к определению количества информации)
- Алфавитный подход к определению количества информации
- Компьютер как универсальное устройство обработки информации Назначение и устройство компьютера Что общего между компьютером и человеком
- Компьютерная память
- Как устроен персональный компьютер (пк)
- Основные характеристики персонального компьютера
- Программное обеспечение компьютера
- О системном по и системах программирования
- О файлах и файловых структурах
- Пользовательский интерфейс
- Кодирование и обработка текстовой информации Кодирование текстовой информации
- Создание документов в текстовых редакторах
- Ввод и редактирование документа
- Сохранение и печать документов
- Форматирование документа Форматирование символов
- Форматирование абзацев
- Нумерованные и маркированные списки
- Стили форматирования
- Оглавление документа
- Гипертекст
- Компьютерные словари и системы машинного перевода текстов
- Системы оптического распознавания документов
- Практические работы компьютерного практикума, рекомендуемые для выполнения в процессе изучения главы Компьютерный практикум
- Обработка графической информации Кодирование и обработка графической и мультимедийной информации Пространственная дискретизация
- Контрольные вопросы
- Задания для самостоятельного выполнения
- Растровые изображения на экране монитора
- Контрольные вопросы
- Растровая и векторная графика Растровая графика
- Контрольные вопросы
- Задания для самостоятельного выполнения
- Векторная графика
- Контрольные вопросы
- Интерфейс и основные возможности графических редакторов Рисование графических примитивов в растровых и векторных графических редакторах
- Контрольные вопросы
- Задания для самостоятельного выполнения
- Инструменты рисования растровых графических редакторов
- Контрольные вопросы
- Задания для самостоятельного выполнения
- Работа с объектами в векторных графических редакторах
- Контрольные вопросы
- Задания для самостоятельного выполнения
- Редактирование изображений и рисунков
- Контрольные вопросы
- Задания для самостоятельного выполнения
- Электронные таблицы Основные параметры электронных таблиц
- Контрольные вопросы
- Задания для самостоятельного выполнения
- Основные типы и форматы данных
- Контрольные вопросы
- Задания для самостоятельного выполнения
- Относительные, абсолютные и смешанные ссылки
- Контрольные вопросы
- Задания для самостоятельного выполнения
- Встроенные функции
- Задания для самостоятельного выполнения
- Построение диаграмм и графиков Основные параметры диаграмм
- Контрольные вопросы
- Построение диаграмм с использованием Мастера диаграмм
- Контрольные вопросы
- Задания для самостоятельного выполнения