logo
Ответы на билеты

4.5 Фирма црт (Центр речевых технологий, Ст. Петербург)

разработала технологию распознавания слитной русской речи.

Сначала было реализовано дикторозависимое распознавание изолированных команд как

целостных образов, для небольших словарей. Процедура распознавания в этом случае требует хранения нескольких эталонов для каждой команды. Потом были разработаны алгоритмы построения акустических моделей аллофонов и на основе этого – пофонемное распознавание команд и поиск ключевых слов, независимых от диктора и словаря. Для распознания же слитной речи необходимы огромные речевые базы, особые специалисты и значительные вычислительные мощности.

Система распознавания слитной речи представляет собой взаимодействие акустических моделей, лексикона, языковой модели и декодера. Если акустические модели выполняют оценку вероятностей распространения отдельных аллофонов, то языковые модели оценивают вероятность следования слов друг за другом. Лексикон содержит все возможные варианты произнесения слов, которые будут распознаваться в процессе работы системы. Декодер определяет лучшую гипотезу в сети распознавания.

Люди произносят звуки и понимают друг друга. С точки же зрения машины люди произносят одно и то же слово совершенно по разному. Поэтому при создании системы дикторонезависимого пофонемного распознавания используется статистический подход. Для реализации такого подхода нужны большие базы (с образцами речи разных людей) для накопления параметров вероятностных моделей. Если база данных содержит достаточное количество образцов, оказывается возможно создать модель речевого процесса, отражающую вариативность естественной речи.

Акустические модели, это статистические модели, основанные либо на аппарате марковских моделей, либо на аппарате нейронных сетей. Обучение моделей происходит на размеченных речевых базах. В ЦРТ обучали акустические модели на основе материалов 250 дикторов (половина – мужчины, половина – женщины). Все дикторы проживают на территории европейской части России. Таким образом, на «произвольность» речи сразу накладывается ограничение, ведь русская речь от региона к региону звучит по разному. Объем базы – 30 тысяч часов речи. Текст для дикторов подбирался так, что бы в нем присутствовали все аллофоны русского языка во всех окружениях. Часть записей лингвисты вручную разбивали на сегменты (фоны), для чего есть специальные программы (речь после записи отображается в графическом виде, и на картинке специалист ставит метки на границах сегментов). После этого, строились начальные акустические модели, а затем на компьютере обрабатывалась основная часть базы, при этом сегментация выполнялась уже автоматически. В процессе обработки параметры акустических моделей переопределялись. Обучение моделей на шести вычислительных машинах заняло около двух суток.

Ограничения.

спортивных трансляций. Это еще одно ограничение – «тематическое».

На основе рассмотренной методики, в ЦРТ разработаны следующие продукты:

требуется, по сути абсолютная акустическая система. Но есть и обратная сторона - например, в случае простуды и хрипов Вашего голоса система Вас не пропустит. Наверное, все же, для идентификации имеет смысл использовать более стабильные биометрические параметры (отпечатки пальцев, сетчатка глаза).

4.6. Существуют специализированные отечественные разработки: «ИКАР», «УРВ РМ», «ЛЕКСИНАР», используемые в области криминалистики. Из перечисленных, в настоящее время используется и развивается «ИКАР». В качестве примера рассмотрим его подробнее.