logo
Шпоры автоматизация и моделирование в ИД Сулим

37. Речевой вид информации, методы и у-ва

Системы распознавания звуков речи весьма перспективны, т. к. позволяют кардинальным образом решить проблему ввода информации в ЭВМ с целью ее дальнейшей обработки, а также обеспечения возможности управления голосом различными машинами и роботами. Решение этой задачи сводится сначала к распознаванию звуков речи (фонем), а затем к объединению этих звуков в слова. Любое устное сообщение может быть представлено последовательностью фонем и пауз между ними. Точное выделение фонем и их число позволяют описывать устную речь без искажений. В русской устной речи выделяют порядка 40–45 фонем, которым соответствуют определенные коды, хранящие в памяти ЭВМ.

Современные у-ва речевого ввода делятся на у-ва распознавания речи и у-ва идентификации говорящего. Система речи включает в себя человека, алгоритм распознавания и у-ва, его реализующие. Основная стратегия решения задачи распознавания речи базируется на заблаговременном формировании словаря речевых сегментов, которые играют роль эталонов. Процедура распознавания при этом сводится к сравнению сигнала на входе у-ва с эталонами и определение для каждого эталона меры сходства. Обычно в таких системах в качестве речевого сегмента выбирается слово, т. к. для него сравнительно просто определить начало и конец, т. е. границы. В этом случае объем словаря соответствует количеству распознаваемых слов. Аппаратно-программные средства, в рамках которых реализуется программы распознавания речи, получили название «речевые анализаторы». Эти у-ва осуществляют преобразование речевых сигналов с микрофона (информационный поток сигнала порядка 100 тыс. бит/с.) в последовательность цифровых кодов символов с существенно меньшим информационным потоком (10–10 тыс. бит/с) и обязательным сохранением передачи смыслового компонента речи. Имеющее место сжатие информационного потока осуществляется за счет введения операции распознавания смысловых элементов речи (фразы, слова). Анализаторы подразделяются на две группы: анализаторы ограниченного словаря и универсальные. Анализаторы ограниченного словаря ориентированы на распознавание заданного конкретной задачей числа речевых команд (обычно порядка 100)

Распознавание осуществляется путем нелинейного сопоставления во времени эталонов команд с произносимой командой и выбора наиболее схожего из них. Формирование словаря команд в таких анализаторах происходит в процессе обучения на голос диктора. Универсальные анализаторы ориентированы на текущее распознавание полного набора текущих элементов речи, из которых может быть осуществлено и в конечном счете распознано любое слово или слитно произнесенное сообщение.

Анализатор ограниченного словаря

Универсальный анализатор



Существующие речевые процессоры налагают достаточно жесткие условия на пользователя, прежде всего слова должны произноситься в виде речевой команды — слова-фразы с обязательной паузой. Во-вторых, настройка анализатора на словарь и голос диктора путем как минимум однократного чтения всего словаря речевых команд. В-третьих, в помещении не допустим высокий уровень шума. При этом у-ва обеспечивают надежность распознавания речевых команд порядка 99%, которая может быть достигнута благодаря использованию метода динамического программирования.