logo
ИТ в экономике / учебник / Козырев_Информационные технологии в экономике и управлении_2000

Программы синтеза речи

Технология синтеза речи заключается в преобразовании компьютерного текста в синтетическую речь с помощью аппаратного синтезатора.

В первых системах речевого синтеза пользователю предлагалось выбрать предназначенные для озвучивания высказывания в специальном меню. Далее, компьютер сравнивал их с высказываниями, предварительно внесенными в базу данных и, в случае совпадения, озвучивал текст. Этот подход применяется на практике в гостиницах, в телефонных «будильниках» и в автомобильных навигационных системах.

Более совершенные программные пакеты, рассчитанные на офисное применение, появились позднее. В настоящее время существуют продукты различной направленности. Так, французской фирмой Elan Informatique создана программа ProVerbe, позволяющая получать информацию о содержании удаленной электронной почтовой корреспонденции по телефону. Английская фирма First Byte разработала систему Monologue, служащую для корректировки текста с помощью его вычитки. Программа Infovox, созданная шведскими специалистами, синтезирует речь на 12 языках. В целом, на рынке существует широкий выбор программ-синтезаторов речи, укомплектованных, как правило, собственным текстовым процессором. Синтез речи проводится, в основном, на американском английском языке. Нередко предусмотрена возможность выбора голоса: нормальный мужской, нормальный женский, басовитый мужской и т.д. Цены на программы синтеза речи находятся в пределах 150-1500 USD.

Большинство производителей голосовых систем работают над упрощением речевого ввода. Им также необходимо обеспечить технологии работы с естественным языком, когда компьютер будет понимать текст или звучащую речь в рамках контекста и различать омонимы. Если компьютер все-таки не погашает контекст предложения, он может переспросить пользователя, уточнить специфическое применение слова. Речевые интерфейсы станут гармоничным дополнением клавиатуры или мыши.

Возрастающий интерес к голосовым технологиям показала выставка SpeechTek, в которой участвовали такие компании, как IBM Speech Systems, Philips, Unisys Corporation, Lemout & Hauspie, Lucent Technologies, Dragon Systems и др. На выставке были продемонстрированы разработки в области преобразования текстовой информации в голосовую, автоматического распознавания речи, сжатая речевой информации, идентификации говорящего, машинного перевода, применения этих технологий в образовании, здравоохранении, управлении, банковской деятельности и на производстве.