logo
Полный текст учебника

Системы распознавания предложений и связной речи

Средства мультимедиа этой группы делятся на системы раздельной диктовки и системы распознавания связной речи.

Системы раздельной диктовки проще в разработке и технической реализации, но они требуют от пользователя не совсем естественного произнесения фраз — с короткой паузой перед каждым следующим словом. К таким системам относятся, например, ViaVoice корпорации IBM, DragonDictate фирмы DragonSystem. Последняя система позволяет, наряду с прочим, непосредственно надиктовывать текст в программы Word, WordPerfect, InternetExplorer, NetscapeNavigator и т. д. Активный словарь системы насчитывает десятки тысяч слов и может пополняться пользователем, скажем, по его профессиональной тематике. В системе дополнительно анализируются спектральные (частотные) характеристики каждой буквы, выделяются и хранятся ее отдельные фонемы (элементы спектра). На основе этого анализа создаются фонетические модели букв и формируемых из них слов. Точность распознавания достигает 90%, а после проверки по словарю еще значительно повышается.

Наиболее сложные проблемы возникают при распознавании связной речи. При произнесении связной речи больше сказывается эмоциональная составляющая вводимой информации, и при слитном произношении слов несколько изменяется их звучание — все это, безусловно, затрудняет распознавание.

Наиболее совершенными системами распознавания слитных текстов можно считать системы распознавания речи: DragonNaturallySpeaking компании DragonSystems, ViaVoice корпорации IBM и Wildfire фирмы WildfireCommunications, VoiceXpress фирмы Lernout&HauspieSpeechProducts. Названные системы позволяют обычно после длительной «тренировки» программы надиктовывать «своим» ПК тексты и отдельные команды, иногда даже разным операторам. Так, система ViaVoice позволяет многие виды работ на компьютере выполнять в речевом режиме. Можно надиктовывать текст (письма, отчеты, статьи) непосредственно в Windows-приложения, открывать и закрывать компьютерные файлы, ориентироваться в пределах рабочего стола. Такие речевые команды, как filesave, fileprint, scrollup, scrolldown безошибочно выполняются компьютером. Скорость ввода текста достигает 140 слов в минуту, что намного больше средней скорости ввода информации с клавиатуры.