Ответы на билеты

4.5 Фирма црт (Центр речевых технологий, Ст. Петербург)

разработала технологию распознавания слитной русской речи.

Сначала было реализовано дикторозависимое распознавание изолированных команд как

целостных образов, для небольших словарей. Процедура распознавания в этом случае требует хранения нескольких эталонов для каждой команды. Потом были разработаны алгоритмы построения акустических моделей аллофонов и на основе этого – пофонемное распознавание команд и поиск ключевых слов, независимых от диктора и словаря. Для распознания же слитной речи необходимы огромные речевые базы, особые специалисты и значительные вычислительные мощности.

Система распознавания слитной речи представляет собой взаимодействие акустических моделей, лексикона, языковой модели и декодера. Если акустические модели выполняют оценку вероятностей распространения отдельных аллофонов, то языковые модели оценивают вероятность следования слов друг за другом. Лексикон содержит все возможные варианты произнесения слов, которые будут распознаваться в процессе работы системы. Декодер определяет лучшую гипотезу в сети распознавания.

Люди произносят звуки и понимают друг друга. С точки же зрения машины люди произносят одно и то же слово совершенно по разному. Поэтому при создании системы дикторонезависимого пофонемного распознавания используется статистический подход. Для реализации такого подхода нужны большие базы (с образцами речи разных людей) для накопления параметров вероятностных моделей. Если база данных содержит достаточное количество образцов, оказывается возможно создать модель речевого процесса, отражающую вариативность естественной речи.

Акустические модели, это статистические модели, основанные либо на аппарате марковских моделей, либо на аппарате нейронных сетей. Обучение моделей происходит на размеченных речевых базах. В ЦРТ обучали акустические модели на основе материалов 250 дикторов (половина – мужчины, половина – женщины). Все дикторы проживают на территории европейской части России. Таким образом, на «произвольность» речи сразу накладывается ограничение, ведь русская речь от региона к региону звучит по разному. Объем базы – 30 тысяч часов речи. Текст для дикторов подбирался так, что бы в нем присутствовали все аллофоны русского языка во всех окружениях. Часть записей лингвисты вручную разбивали на сегменты (фоны), для чего есть специальные программы (речь после записи отображается в графическом виде, и на картинке специалист ставит метки на границах сегментов). После этого, строились начальные акустические модели, а затем на компьютере обрабатывалась основная часть базы, при этом сегментация выполнялась уже автоматически. В процессе обработки параметры акустических моделей переопределялись. Обучение моделей на шести вычислительных машинах заняло около двух суток.

Ограничения.

Выше отмечались «территориальные» ограничения на базу данных (средняя полоса России).
Кроме того, языковая модель, построенная на текстах новостной базы, не может быть применена, например для распознавания

спортивных трансляций. Это еще одно ограничение – «тематическое».

Огромная трудоемкость создания систем с точки зрения необходимых технических и человеческих ресурсов. Ограничение «технологическое».
Трудоемкость в подготовке к работе. Даже имея готовую систему, необходимо настроить ее, по сути заново сформировать словарь и акустическую базу данных под требования конкретного пользователя. Ограничение «пользовательское».

На основе рассмотренной методики, в ЦРТ разработаны следующие продукты:

система распознавания слитной речи, как основа для создания карманных переводчиков для олимпиады в Сочи. Специалисты с большим сомнением относятся к этой идее, с учетом сложностей и ограничений рассмотренных выше. В тоже время некоторое «подмножество» с усеченными возможностями, под индивидуальных пользователей наверное будет создано.
Система IVR для автоматического перенаправления входящих звонков, когда вместо нажатия на клавиши телефона в тоновом режиме, пользователь отдает голосовые команды.
Система голосовой верификации «Голосовой замок». Она предназначена для универсального контроля доступа. Используется вместо ключа. Подделать такой «ключ» очень маловероятно, даже используя звуковую запись с последующим воспроизведением, поскольку

требуется, по сути абсолютная акустическая система. Но есть и обратная сторона - например, в случае простуды и хрипов Вашего голоса система Вас не пропустит. Наверное, все же, для идентификации имеет смысл использовать более стабильные биометрические параметры (отпечатки пальцев, сетчатка глаза).

4.6. Существуют специализированные отечественные разработки: «ИКАР», «УРВ РМ», «ЛЕКСИНАР», используемые в области криминалистики. Из перечисленных, в настоящее время используется и развивается «ИКАР». В качестве примера рассмотрим его подробнее.

Содержание