Kniga_Osnovy_informatiki_i_informatsionnyh_tehn

10.5. Системы оптического распознавания текстов

Системы оптического распознавания текстов (Optical Character Recognition System) предназначены для распознавания текстов, содержащихся в графических файлах различных форматов (BMP, GIF, TIF, PCX и т.д.), а также текстов, считываемых с помощью сканера.

Наиболее известными и часто используемыми программами оптического распознавания текста являются программы FineReader (ABBYY Software House (BIT Software, Inc)) и CuneiForm (Cognitive Enterprises LLC и Cognitive Technologies Ltd).

Системы распознавания текста различаются наличием и уровнем предоставляемых дополнительных услуг, скоростью и качеством распознавания текста, а также возможностью организации взаимодействия и интеграции с другими программами (в частности, с текстовыми редакторами).

Системы оптического распознавания символов (Optical Character Recognition, OCR) служат для автоматизации ввода печатной информации в компьютер посредством сканера.

С помощью сканера возможно получить изображение входного документа. Но это будет лишь изображение – его можно просмотреть и, возможно, отпечатать, но воспользоваться содержащимся в нём текстом или внести в него какие-либо изменения нельзя. Редактирование такого документа возможно только с помощью графических редакторов, которые не обладают удобными средствами для работы с текстом.

Для преобразования изображения в текстовый документ созданы специальные программы (OCR). С их помощью компьютер как бы учится «читать» документ. Полученный документ можно с лёгкостью редактировать, форматировать и использовать, как и любой текстовый документ, подготовленный с помощью текстового редактора.

Содержание