Модификация фонограмм
Модификация основных параметров речевого сигнала широко используются в современных речевых технологиях (рис.Б.3.1) как сама по себе, так и в качестве вспомогательной операции.
Рис.Б.3.1. Модификация фонограмм области применения
Операция изменения темпа позволяет так обработать речевой сигнал, чтобы скорость произнесения изменялась в заданное количество раз, но при этом тембр (частота основного тона) голоса оставалась без изменений. Можно привести следующие примеры использования изменения темпа речи:
повышение комфортности восприятия речевой информации (настройка подходящей скорости воспроизведения при прослушивании аудиокниг, аудиоэкскурсий и т.п.),
ведение оперативной стенографии (ручной перевод фонограммы в текстовую форму),
быстрое прослушивание фонограмм, контролируемая перемотка фонограмм,
обеспечение необходимой скорости синтеза в синтезаторах речи.
На сегодняшний день, несмотря на наличие целого ряда методов и способов изменения временной структуры речевых сигналов, еще не удалось достигнуть возможности изменения и надежного распознавания речи в темпе, приближенному к граничному темпу восприятия информации на слух, который приблизительно в 4 раза превышает темп речеобразования. Причиной этого является отсутствие глубоких теоретических и экспериментальных исследований процессов изменения темпа речи человеком.
Таким образом, исследование и создание методов, алгоритмов и способов временной трансформации речевых сигналов с целью обеспечения возможности эффективного ускорения или замедления темпа речевой информации в широком диапазоне сегодня представляет собой актуальную задачу и имеет теоретический и практический интерес.
Начальный этап обработки фонограммы при реализации алгоритма модификации темпа речи состоит из следующих шагов:
аналого-цифровое преобразование речевого сигнала,
определение участков фонограммы с речевой активностью говорящего с помощью алгоритма VAD,
автоматический анализ и классификация речевых отрезков: определяются типы временных сегментов и основные характеристики, присущие каждому типу.
Вектор параметров, полученный технологическими методами, описывает каждый сегмент обрабатываемой фонограммы и используется непосредственно для реализации функционального метода, в частности алгоритма изменения темпа речи.
Последовательность операций при модификации темпа речевого сигнала представлена в виде блок-схемы на рис.Б.3.2.
Использование многоуровневой сегментации РС (рис.Б.3.2., бл. 1..3) при реализации алгоритма МВС показано на рис.Б.3.2.
Важно отметить, что исследование методов модификации фонограмм показало, что для разных типов речевых сегментов следует применять различные алгоритмы сжатия (растяжения).
Рис.Б.3.2. Основные этапы работы алгоритма изменения темпа произнесения
Рис.Б.3.3. Использование МВС для алгоритма изменения темпа произнесения РС
- Министерство образования и науки российской федерации
- Оглавление
- Список рисунков
- Введение
- Основы работы со средой математического моделирования МаtLab
- История создания и развития системы MatLab
- Интерфейс пользователя
- Типы данных в системе MatLab
- Переменные в системе MatLab
- Арифметические и логические операции в системе MatLab
- Массивы и матрицы в системе MatLab
- Использование знака «:» и множественной индексации в системе MatLab
- Операции над матрицами в системе MatLab
- Встроенные функции в системе MatLab
- Графические возможности системы MatLab
- Изменение свойств линий и оформление графиков
- Графики функций двух переменных
- Вывод нескольких графиков на одни оси
- Вывод нескольких графиков в одном графическом окне
- Работа со звуковыми файлами в системе MatLab
- Считывание данных из wav-файлов
- Запись данных в wav-файл
- Воспроизведение звуковых сигналов
- Запись звуковых сигналов
- Лабораторная работа №1. Исследование внутренней структуры речевого сигнала
- Методические указания к лабораторной работе
- Исследование структуры и временных характеристик речевых сигналов
- Ручная сегментация исследуемой фонограммы
- Определение фонетического состава сегментов исследуемого слова
- Лабораторная работа №2. Исследование спектральных свойств речевого сигнала
- Методические указания к лабораторной работе
- Комментарии по оформлению отчета к лабораторной работе
- Программа анализа спектров фонограмм «Спектр» (версия 4)
- Назначение программы
- Функциональные возможности программы
- Лабораторная работа №3. Исследование корреляционных свойств речевого сигнала
- Методические указания к лабораторной работе
- Комментарии к оформлению отчета по лабораторной работе
- Программа анализа корреляционных функций «Коррелограмма»
- Назначение программы
- Предварительный этап работы с фонограммой
- Порядок работы в программе «Коррелограмма»
- Дополнительные возможности по работе с программой
- Лабораторная работа №4. Исследование vad-алгоритма
- Методические указания к лабораторной работе
- Комментарии по оформлению отчета к лабораторной работе
- Исследование алгоритма vad в программе «Коррелограмма»
- Лабораторная работа №5. Исследование методов оценки основного тона речи
- Методические указания к лабораторной работе
- Лабораторная работа №6. Моделирование алгоритмов обработки речи
- Методические указания к лабораторной работе
- Список индивидуальных заданий
- Вопросы для самоподготовки
- Лабораторная работа №1
- Лабораторная работа №2
- Лабораторная работа №3
- Лабораторная работа №4
- Лабораторная работа №5
- Лабораторная работа №6 (Индивидуальные задания)
- Список литературы
- Приложение аСписок литературы и web-ресурсы по «Речевым технологиям» и среде математического моделирования «MatLab»
- Список литературы по «Речевым технологиям»
- Отечественная литература
- Общетеоретические вопросы
- Прикладная фонетика
- Синтез речи
- Психоакустика и физиология речи
- Цифровая связь (телефония)
- Зарубежная литература
- Web – ресурсы
- Список литературы по среде математического моделирования «MatLab»
- Приложение б Современные направления научно-исследовательских работ кафедры «Бортовых радиоэлектронных систем в области разработки систем обработки речи
- Основные области применения разрабатываемых алгоритмов
- Многоуровневая временная сегментация речевых сигналов
- Модификация фонограмм