logo
Полный текст учебника

Системы, ориентированные на распознавание отдельных слов, команд и вопросов

Такие системы часто называют системами речевого управления, поскольку их основная задача — обеспечить выполнение компьютером действий, задаваемых голосом. Наибольшее распространение такие системы получили в автоматических телефонных службах. В них можно ввести голосом номер телефона вызываемого абонента или его имя; можно задать простой вопрос автоматической справочной службе и т. д. Наиболее разработаны системы распознавания чисел, которые можно отнести к средствам распознавания первого поколения. В развитых системах такого рода человек сначала сообщает свой числовой пароль, затем свой числовой идентификатор, и только после этого может назвать число, кодирующее сущность запроса.

К средствам второго поколения относятся системы распознавания имен. Основаны эти средства на использовании ключевых слов (имен), хранимых, естественно, в базе данных системы. Множество хранимых слов и ограничивает возможные имена (при вызове телефонного абонента, например) и распознаваемые команды и вопросы. Система VoiceCommands компании KurzWeilAppliedIntelligence позволяет распознавать около 10 000 слов английского языка, которые после идентификации преобразуются в соответствующие ASCII-последовательности и либо исполняются машиной (если это команды), либо заносятся в файл. Система компании CharlesSchwab & Co.,специализирующейся на предоставлении брокерских услуг участникам фондового рынка, при обработке более 10 000 названий и десятков видов ценных бумаг обеспечивает при распознавании 95%-ю точность (что, конечно, недостаточно, но количество клиентов этой справочной службы не убывает).

Существенно сложнее строятся системы третьего поколения, в которых диалог с пользователем реализуется с помощью голосовых меню. Такие системы основаны на идее обучения: в течение некоторого времени система обучается на большом количестве типовых речевых диалогов (включающих, кстати, и слова-паразиты). В ходе этого обучения создается рабочий словарь и база данных отношений между отдельными словами (база знаний). Примером системы третьего поколения может служить NaturalDialogueSystem фирмы Philips, используемая швейцарской железнодорожной компанией SwissRailways для справочной системы, обслуживающей не только железнодорожные, но и автобусные маршруты, и паромные переправы.