logo
ИТ в экономике / учебник / Козырев_Информационные технологии в экономике и управлении_2000

Программные продукты распознавания речи

Средства речевого управления первыми появились на рынке. Их основная идея состоит в распознавании компьютером человеческих слов и выполнении определенных действий. На ранних стадиях развития речевого управления компьютеры научились распознавать слова, обозначающие цифры. Научные исследования в этом направлении продолжались, и сегодня компьютеры способны распознавать числа на 20 языках при условии, что пользователь называет цифры последовательно. Автоматические справочные системы на базе технологии распознавания цифр применяются телефонными компаниями Европы и Северной Америки.

Распознавание имен развито пока не в такой степени. Компания Nortel применяет технологию Open Speech для собственных нужд на базе внутренней АТС: пользователь снимает трубку, набирает определенную цифру и произносит нужное имя, а компьютер, повторив имя и получив подтверждение, соединяет пользователя с абонентом. Система Open Speech имеет недостатки: медлительность, трудности поиска абонента при произнесении имени в уменьшительном виде и др. Более сложная система распознавания, основанная на преобразовании речи в последовательность цифровых данных, разработана фирмой Nuance Communications. Цифровые данные используются для извлечения информации из базы данных, а механизм синтеза речи генерирует речевой ответ. Такую систему применяет американская компания Charles Schwab & Co., специализирующаяся на брокерских услугах участникам фондового рынка. По некоторым данным, система ежедневно принимает 50 тыс. звонков и обеспечивает 95% точности при обработке 10 тыс. названий (компании, ценные бумаги и т.д.).

Фирма Philips работает над системой распознавания речи третьего поколения. Система первого поколения была основана на распознавании цифр и предусматривала четкую структуру запроса: пароль, идентификатор, число, обозначающее сущность обращения. В такой системе информация вводилась в речевой форме или с помощью кнопок телефона с тональным набором. Продукты второго поколения базировались на определении ключевых слов. Система третьего поколения – Natural Dialogue System – основана на идее постепенного обучения на большом количестве диалогов, в ходе которых создаются рабочий словарь и база данных отношений между словами. Система данного типа используется швейцарской железнодорожной компанией Swiss Railways и охватывает 3,5 тыс. пунктов. В системе компьютер обрабатывает типичные обращения клиента и связывает пункт отправления с пунктом назначения. Германская авиакомпания Lufthansa, также применяющая данную систему, предлагает возможным клиентам автоматическое расписание своих рейсов, а радиостанция Radio Luxemburg – прогноз погоды по туристическим маршрутам мира.

Программные пакеты средств диктовки, которые основаны на распознавании человеческой речи и записи ее в память компьютера в виде текстовой информации, применяются на практике всего несколько лет. Различают пакеты раздельной и слитной диктовки. Первые, к которым относится, например, пакет Voice Type корпорации IBM, достаточно просты в разработке и не предъявляют жестких требовании к вычислительной мощности, но создают некоторые трудности для пользователя, который должен делать неестественные паузы перед произнесением каждого нового слова. Пакеты слитной диктовки более сложны, требуют повышенного быстродействия процессора и больших объемов памяти. С помощью пакета Via Voice корпорации IBM пользователь может в речевом режиме выполнить операции по вводу текстовой информации на трех языках (английском, немецком и французском) в Windows – приложениях со скоростью до 140 слов в минуту. Для эффективной работы с пакетом Via Voice необходима непродолжительная настройка в виде курса обучения системы (около 100 предложений). Стоимость пакета – 200 USD.

Фирма Dragon Systems разработала пакет слитной диктовки Dragon Dictate. Система, которая содержит активный словарь как минимум на 30 тыс. слов, позволяет управлять компьютером с помощью речевых команд и надиктовывать текст в программы Microsoft Word, Word Perfect, Netscape Navigator, Internet Explorer и др. Пользователь может дополнить базовый активный словарь произвольной записью необходимых ему слов или подключить дополнительные словари по определенной тематике или области профессиональных знаний (медицинский, юридический и т.д.). Распознавание слов в системе Dragon Dictate построено на фонетической модели каждой буквы алфавита, произносимой пользователем. Фонетическая модель буквы создавалась на основе спектрального анализа записи произнесения букв тысячами англоязычных американцев и последующего деления спектральных характеристик на отдельные элементы (фонемы). Однако, фонетическая модель позволяет добиться 85-90 % уровня распознавания, поэтому побуквенный ввод сочетается с проверкой по словарям. Если и после этого буквы не складываются в произнесенное слово, запускается алгоритм корректировки: буквы в неизвестном слове удаляются, добавляются или заменяются, причем каждая из операций оценивается определенным количеством штрафных баллов, а затем происходит выбор слова по наименьшей сумме штрафных баллов.

Программные продукты идентификации по образцу речи преследуют цель распознавания конкретной личности говорящего и тесно связаны с биометрическими технологиями идентификации людей по их уникальным физическим признакам (отпечатки пальцев, рисунок радужной оболочки глаз). Речь каждого человека имеет свои особенности и может быть описана определенными значениями физических показателей. Данное свойство уникальности речи применяется в системах ограничения доступа и системах безопасности, в том числе информационной.

При взаимодействии с системой идентификации пользователь проходит регистрацию, при которой запоминаются особенности его голоса и формируется, так называемая, речевая модель, затем тестирование, сравнивающее полученную речевую модель с моделью обобщенного «самозванца», составленной на базе речи множества людей. Если уникальная модель речи и модель речи «самозванца» отличаются, то пользователь получает допуск.

В наиболее простых программных продуктах для идентификации используется одно ключевое слово, повторяемое несколько раз в процессе регистрации (по существу – это пароль). Однако, здесь высока вероятность обмана системы с помощью предварительной записи и воспроизведения голоса.

Схема регистрации может состоять в повторении 10 и более слов, предложенных системой. В процессе тестирования человеку предлагается произнести некоторые из этих слов. Для каждого сеанса регистрации используются различные слова, что обеспечивает высокую степень защиты от обмана системы посредством записи голоса.

И, наконец, существует фоновая схема регистрации: пользователь зачитывает текст или последовательность фраз, а система «незаметно» записывает некоторые элементы, создает речевую модель и проводит тестирование. Фоновая схема обеспечивает наивысшую степень защиты.

Программные продукты с проверкой голоса предлагают на рынке 20 фирм-производителей. Для идентификации по голосу через коммутируемую телефонную сеть удобны программы фирмы Keyware Technologies. Кроме того, фирма создала пакет S2 Security Server для двойного опознавания по голосу и лицу.