2.2 Системи оптичного розпізнавання символів
Багато систем обробки зображень мають програмне забезпечення оптичного розпізнавання символів (OCR).
Застосування OCR дозволяє вирішити проблему перекладу паперових документів в електронну форму у виді текстового файлу. Системи OCR дозволяють одержувати електронну копію документа з друкованого аркуша або копію документа, що прийшов по факсу. Існують експериментальні системи, що дозволяють подібним чином обробляти також і рукописні матеріали (Intelligent Character Recognition).
У стислому вигляді функціонування системи OCR можна уявити в такий спосіб. За допомогою скануючого пристрою зчитується зображення документа. У результаті розпізнавання тексту зображення документа відображається у файл, відформатований як текстовий. Таким чином, паперовий документ, минаючи трудомістке ручне введення, автоматично перетвориться в електронну форму (див. схема 2).
Виділяють два класи систем OCR -- ті, яких навчають, та інтелектуальні. Принцип дії систем першого класу заснований на “поточечному” порівнянні відцифрованого символу зі зразком із довідника. При збігу зразка і символу останній вважається розпізнаним і додається в результуючий файл. При такому способі розпізнавання розміри зразка і шрифту документа повинні збігатися, тобто в системі необхідно мати маски для кожного розміру кожного типу шрифту, тому подібна система більш ефективна у випадку однотипного і якісного тексту. В другому випадку “маска” символу замінюється на його “образ”, що може бути використаний для будь-яких розмірів шрифтів. Для підвищення точності розпізнавання інтелектуальні системи можуть виконувати ряд перевірок результуючого тексту. Наприклад, здійснювати частотний аналіз тексту і порівнювати частоту появи даного символу в тексті з його частотою в мові оригіналу або виявляти неправильне сполучення символів, виходячи з правил орфографії.
У реальних системах OCR сполучаються різні розпізнавальні механізми, що дає можливість обробляти будь-які шрифти і будь-які тексти.
На сьогоднішній день відомо кілька досить якісних програмних продуктів по розпізнаванню тексту, у тому числі дві системи вітчизняних фірм, орієнтовані в першу чергу на розпізнавання російськомовних текстів (Fine Reader та CuneiForm). Середня швидкість роботи системи OCR на устаткуванні середньої потужності складає приблизно одну машинописну сторінку за хвилину. Якість розпізнавання - одна-дві помилки на 1000 знаків у тексті середньої якості.
Можна рекомендувати наступні критерії вибору системи OCR:
- сумісність з існуючим програмним та апаратним забезпеченням;
- швидкість сканування і розпізнавання переважного в даній установи типу - тексту, наприклад: факс - українська мова, ксерокопія різної якості, машинопис різної якості та ін.;
- якість розпізнавання текстів різних типів, наприклад, кількість помилок на 1000 знаків;
- здатність розпізнавати рідкісні шрифти;
- здатність навчання новим символам;
- наявність модуля перевірки орфографії;
- зручність користувальницького інтерфейсу.
Проте, основними характеристиками читаючих автоматів є достовірність розпізнання та виробничі потужності.
- Етапи розвитку концепції електронного офісу:
- Основні функції електронного офісу:
- 2. Текстові редактори (або сучасні текстові процесори) є першим компонентом електронного офісу, оскільки проблема обробки тексту і його перетворення є одним із основних завдань діловодства.
- 3. Впровадження електронних офісів стало реальністю завдяки досягненням в галузях виробництва комп’ютерної техніки та високоефективних засобів організаційної техніки.
- 3. Ключем до вирішення проблеми підвищення рівня ефективності діяльності персоналу будь-якого офісу вважається впровадження електронного (автоматизованого) офісу. Мова йде про комплексне використання:
- 2.2 Системи оптичного розпізнавання символів
- 2.3 Системи керування документами
- 2.4 Програмне забезпечення для робочих груп (Groupware)
- 2.5 Системи автоматизації ділових процедур
- 3.1 Сутність та розвиток технології гіпертекст
- 3.2 Характеристика сучасних гіпертекстових систем та технологій
- Висновок: