Технологии автоматизированного ввода документа (осr-системы)
Довольно часто в офисной работе возникает ситуация, когда имеется текст документа, напечатанный на бумаге, а электронная версия этого документа отсутствует. Причем, в текст этого документа надо внести свои исправления, дополнения и т.д. Конечно, эту задачу легко решить, если документ в несколько строк: можно просто сесть за компьютер и напечатать текст с бумаги и дополнить своим. Но если в документе 20-30-50 страниц с текстом, таблицами и графиками, понадобится много времени для ввода текста с бумаги в компьютер. Тут уж не обойтись без сканера и специальных программ для распознавания текста.
OCR (Optical Character Recognition) — общее названия программ для распознавания текста, без них сканер не сможет понять ни одной буквы. Программы OCR делятся на программы «начального уровня» и профессиональные. Программы «начального уровня» при сканировании решают поставленную задачу, как говорится «в лоб»: переводят текст на бумаге в набор символов и далее предлагают пользователю самостоятельно разобраться с тем, что получилось. Для простых текстовых документов большего и не надо. На листе есть набор символов, и он преобразуется в такой же набор, только в текстовом файле. Но если документ, который находится в сканере имеет сложную структуру — с графическими вставками или таблицами, то такая программа сделает столько ошибок, что неизвестно, что проще — набирать текст вручную или редактировать то, что выдал сканер. В этом случае приходится использовать профессиональную программу OCR, с помощью которой можно распознать не только символы, но и структуру документа: система «понимает», где находится графика, где простой текст, а где таблица. И, соответственно, делит документ на фрагменты, а каждый фрагмент, согласно его свойствам, вставляет в конечный файл. Разумеется, график или чертеж программа не трогает вовсе — «понимает», что здесь нечего распознавать; она пытается восстановить таблицы именно той структуры, какой они были в оригинальном документе — с таким же распределением ячеек по столбцам и строкам. Кроме того, профессиональные программы умеют обрабатывать многоязычные документы. Одной из лучших в мире профессиональных OCR считается программа FineReader — разработка российской фирмы ABBYY. Она выпускается в нескольких вариантах, начиная со средней сложности и до самой высокой (последние варианты применяют при огромных объемах сканирования, например, при переводе бумажных архивов в электронную форму).
Сканер снимает изображение не целиком, а по строчкам. Если назвать длинную сторону сканера вертикалью планшета, а короткую — горизонталью, то по вертикали движется полоска светочувствительных элементов и снимает изображение строку за строкой. Но и строки снимаются не целиком, а по точкам. Чем больше светочувствительных элементов у сканера, тем больше точек он может снять с каждой горизонтальной полосы изображения. Это называется оптическим разрешением сканера. Обычно его считают по количеству точек на дюйм — dpi (dots per inch). Сегодня даже для недорогих сканеров считается нормой уровень разрешения 600 dpi. Этого достаточно для выполнения 95% работ с бумажными носителями. Увеличивать разрешение еще дальше — значит, применять более дорогую оптику, более дорогие светочувствительные элементы, а также многократно затягивать время сканирования. Это может понадобиться разве что для обработки слайдов: для сканирования кадров обычной 35-миллиметровой пленки обычно необходимо разрешение 1200 dpi. Сканирование текста обычно происходит в режиме «Оттенки серого цвета» с разрешением порядка 200—300 dpi — это наиболее благоприятный режим для программ OCR. То есть, при таком режиме сканер не «забивает» программу лишней информацией, с одной стороны, а с другой — у программы достаточно данных, чтобы распознать даже мелкий текст с минимальными ошибками.
PenReader (Paragon Software Group) - многоязыковая система распознавания рукописного ввода для Tablet PC, которая не требует обучения и "на лету" переводит рукописный текст в набранный, имеет гибкую и мощную систему настроек, позволяющую настраивать его под свои нужды. PenReader - одна из немногих в мире систем полноценно работающих с русским языком для Tablet PC.
- Содержание
- Введение
- Лекция 1. Введение в курс. Классификация компьютерных информационных технологий
- Предмет дисциплины. Понятие «компьютерные информационные технологии»
- Технологическая схема обработки информации
- Базовые и специальные информационные технологии
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция 2. Информационные ресурсы автоматизированных систем обработки экономической информации
- Понятие «информационные ресурсы». Классификация
- Политика Республики Беларусь в области формирования информационных ресурсов
- Информационные услуги, режимы их предоставления
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция 3. Техническое обеспечение компьютерных информационных технологий
- Классификация эвм
- Процессоры
- Устройства автоматизации ввода данных
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция 4. Сетевые информационные технологии. Компьютерные сети: основные понятия и принципы построения
- Компьютерные сети: понятие, классификация
- Топология компьютерной сети
- Модель коммутационной сети
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция 5. Локальные вычислительные сети
- 1. Оборудование лвс
- 2. Методы доступа к сети
- 3. Стандарты локальных сетей
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция 6. Сетевые информационные технологии. Сетевые модели
- Эталонная модель osi
- Конвергенция компьютерных и телекоммуникационных сетей
- Корпоративные сети
- Преимущества, которые дает использование сетей
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция 7. Глобальные компьютерные сети
- 1. Глобальная сеть Интернет, протоколы tcp/ip
- 2. Адресация компьютеров в сети
- 3. Услуги Интернет
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция 8. Сетевые ит. Интернет и бизнес
- Задачи бизнеса в Интернете
- Классификация электронного бизнеса
- 3. Правовые аспекты электронного бизнеса
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция 9. Сетевые информационные технологии. Электронные платежные системы
- Виды платежных систем
- Услуги платежных систем в Беларуси
- Формирование сетевой экономики
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция 10. Технологии обеспечения безопасности информационных систем
- 1. Понятие безопасности информационных систем
- 2. Угрозы информационно безопасности
- 3. Методы и средства защиты информации
- Физические и юридические лица имеют право
- Особенности обеспечения безопасности в компьютерных сетях
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция 11. Программное обеспечение компьютерных информационных технологий. Системное по
- Модели разработки и распространения по
- Виды лицензий на использование по
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция 12. Программное обеспечение компьютерных информационных технологий. Прикладное по
- Технологии обработки информации. Офисные пакеты
- Технологии автоматизированного ввода документа (осr-системы)
- Технологии автоматизации перевода текстов
- Технологии организации рабочего места
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция 13. Технологии искусственного интеллекта
- Понятие искусственного интеллекта
- 2. Области применения ии
- Понятие экспертной системы
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция 14. Пакеты для математической обработки данных. Maple. Основы работы
- Компоненты экрана, справочная система Maple
- Вычисления в Maple
- Числа и константы
- Стандартные функции
- Преобразование математических выражений
- Решение уравнений
- Численное решение уравнений
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция 15. Пакеты для математической обработки данных.Maple. Матрицы и графики
- Работа с массивами
- Графики и анимация
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция 16. Технологии и инструментальные средства программирования. Основы алгоритмизации
- 1. Понятие алгоритма
- 2. Типы алгоритмических процессов
- Повторять:
- 3. Способы записи алгоритмов
- Контрольные вопросы
- Литература
- Основные понятия
- Лекция №17. Технологии и инструментальные средства программирования. Языки программирования
- Технологии разработки программных комплексов
- Классификация языков программирования
- Инструментальные средства программирования
- Контрольные вопросы
- Литература
- Основные понятия