logo
Руководство к лаб

Многоуровневая временная сегментация речевых сигналов

Задача алгоритмической сегментации речевых сигналов возникла одновременно с появлением и развитием разнообразных алгоритмов обработки речи, таких как распознавание слуховых образов, сжатие фонограмм и др. Примеры использование алгоритмов многоуровневой сегментации показаны в Табл.Б.2.1. Ее основным назначением является выделение типовых (типических) участков в структуре фонограммы на основании признаков, заложенных в алгоритм сегментации. При реализации алгоритма сегментации РС во временной области используется понятие разметки фонограммы, подразумевающее определение временных меток, границ исследуемых и выделяемых участков фонограммы на выходе алгоритма.

Методы сегментации фонограмм для разных приложений могут сильно различаться по структурной и вычислительной сложности. Среди них можно выделить два основных типа: грубая и точная (прецизионная) сегментация. Для задач дикторозависимого распознавания набора речевых команд достаточно осуществить грубую сегментацию с использованием VAD-алгоритмов. После определения участков временной активности диктора и параметризации параметризации команд производится последующее их сравнение с эталонной записью. Точная сегментация на основе выбранной таксономии речи является необходимой для таких речевых систем как:

Таблица Б.2.1

Области приложения

Характеризация использования

Дополнения, примеры

Распознавание слитной речи

Использование данных МВС о структуре РС позволяет принимать на более высоком иерархическом уровне системы решение(я) о фонетической структуре сигнала.

Каждой фонеме (группе фонем) соответствует последовательная комбинация сегментов

Алгоритмы сжатия (Вокодеры)

Использование сегментированной фонограммы (после МВС) позволяет для каждой группы кластеров, использовать свои специализированные (частные) методы и алгоритмы сжатия.

Стационарный монокомпонентный В-сегмент можно представить, как последовательность n (типового для данного сегмента) ОТ-кластера.

Модификация фонограмм, изменение темпа речи, частоты ОТ

Использование сегментированного (размеченного) РС после обработки МВС позволяет модифицировать, участки речи, отвечающие за восприятие темпа и частоты ОТ.

Вз-сегменты (и Ш-сегменты, П-сегменты), не влияют на восприятие высоты голоса говорящего и его темпа, что нельзя сказать о В-сегментах, которые в основном несут в себе информацию и темпе, и о частоте ОТ.

В основу алгоритмов сегментации заложен процесс выделения тех или иных физических параметров фонограммы (частота ОТ, оценка спектра, временные характеристики и др.). Выбор вектора параметров при сегментации РС является ключевой задачей при реализации алгоритмов сегментации. Решение последней возложено исключительно на разработчиков системы обработки речи. К настоящему времени не существует единого ответа на вопрос - «Как сегментировать (размечать) фонограмму?». Первоначально исследователи пытались выделить в РС интервалы в соответствии с лингвистическими категориями - буква (фонема), слог, морфема, слово и т.д. Однако данный подход оказался не достаточно конструктивным (в какой-то мере тупиковым) и не позволял реализовать сегментацию РС с требуемым качеством. Современные методы сегментации опираются на теорию кластерного анализа и используют такие таксоны как сегменты, аллофоны, дифоны и т.д. Однако в этом случае возникает проблема соотношения сегментных единиц с лингвистическими единицами для интерпретации их экспертом. Нужно отметить, что исследования в области сегментации РС, показали необходимость привлечения знаний филологов, лингвистов, т.к. использование контекстной информации речи позволяет значительно повысить качество разметки. Например, в английском языке начало предложения не может содержать двух твердых согласных. Обработка фонограммы после временной сегментации позволяет для каждого класса сегментов использовать свои частные алгоритмы, работающие на основании той математической модели, которой сегмент наиболее адекватно описывается в соответствии со своим классификационным типом. Это повышает качество выполнения основного функционального алгоритма.

Одним из перспективных подходов к сегментации является использование многоуровневой сегментации, реализующей системный подход к обработке фонограммы. Рассмотрим подробнее основные положения, на которые этот подход опирается. На основании слуховой классификации звуков, являющейся компромиссным вариантом между лингвистической классификацией и кластерным анализом, предлагается использовать речевую модель, состоящую из трех типов кластеров: вокализованные, шумовые, взрывные. Такая таксономия на первом (грубом) этапе позволяет полностью представить РС. Сегменты, обладающие признаками нескольких классов, классифицируются в соответствии с доминирующими характеристиками. Необходимо отметить, что данный способ классификации является непротиворечивым, т.к. допускается возможное совпадения кластеров с лингвистическими единицами (фонемами), а также и образование собственных кластерные групп - аллофонов и др. Интервалы в фонограмме, которые характеризуются отсутствием речевой активности, относятся к дополнительному классу – пауз. Каждый класс сегментов фонограммы обладает своими особыми параметрами и характеристиками (свойствами).

Рис.Б.2.1. Пример разделения фонограммына временные сегменты: слово «Забияка»

Рассмотрим их подробнее на примере нескольких слов, осциллограммы которых приведены на рис.Б.2.2...5. На рисунках приняты следующие обозначения временных сегментов:

Охарактеризуем основные особенности сегментов данных классов.

1) Сегменты, относящиеся к классу пауз, представляют собой интервалы фонограммы, на которых голосовой аппарат человека не функционирует (интервалы между словами), либо перестраивается для произнесения следующего звука (интервалы внутри слова, «смычки»). Эти отрезки характеризуются низким уровнем энергии относительно других сегментов слова, распределенной во всем анализируемом спектре частот, либо, в случае наличия фоновой помехи, энергия сосредоточена в достаточно узком частотном диапазоне (интервале).

Рис.Б.2.2. Пример разделения фонограммы на временные сегменты: слово «Шесть»

2) Звуки «Ш», «С», «ТЬ» (см. рис.Б.2.2, сегменты Ш1, Ш2, Ш3) относятся к классу шумовых (или шумных) сегментов, к типовым характеристикам которых относятся: длительность, «амплитуда» (дисперсия, СКО), ширина спектра мощности (или длительность выборочной корреляционной функции), модулирующая функция.

Рис.Б.2.3. Ш1-кластер звука «Ш»

На примере рис.Б.2.3 (шумовой кластер звука «Ш») видно, что одной из особенностей данного типа кластеров является плавное изменение модулирующей функции. Перечисленные параметры позволяют достаточно точно выделить, а также точно и полностью описать любой шумовой сегмент.

Рис.Б.2.4. Вз-кластер звука «К»

3) Взрывные сегменты характеризуются тремя основными параметрами: длительностью, мгновенной энергией (амплитудой) выброса, шириной выборочной корреляционной функции выброса, характеризующей временную структуру выброса. К данному классу кластеров относятся в основном смычные звуки, аффрикаты, которые в словах редко встречаются обособленно, а, как правило, образуют созвучия (аллофоны), воспринимаемые алгоритмом сегментации уже в качестве В‑сегментов. Для взрывных сегментов довольно характерным является наличие пауз перед ними, в которые диктор осуществляет пополнение легких «запасом» воздуха (рис.Б.2.4), данное свойство может служить вспомогательным признаком при сегментации речевого сигнала.

4) Наиболее многообразной и значимой является группа сегментов, относящихся к В-кластерам. Данный класс звуков (образов) РС является исключительно важным, т.к. несет не только эмоционально-смысловую нагрузку, но и характеризует артикуляционные особенности (характеристики) говорящего, поэтому для В-кластерной группы необходимым является использование индивидуальной таксономии (классификации), реализация которой позволяет перейти к следующему второму уровню сегментации, т.е. к точной сегментации. Звуки относящиеся к В-сегментам по своей природе являются квазипериодическими, так как отражают работу «генераторной» функции голосового аппарата, поэтому одним из основным параметром этой В-кластерной группы является период основного тона (ОТ, TОТ).

На рис.Б.2.5. представлены возможные варианты структур данного класса сегментов, среди них можно выделить три отличительные группы, по каждой из которых можно проводить свою «локальную» классификацию сегментов:

  1. Сегментация на основе анализа модулирующей функции В-сегмента является наименее наглядной для диктора, но она удобна для дальнейшего анализа и грубого описания (параметризации) сегмента. Она может быть использована также в просодической (в общем случае – эмоциональной) кластерной классификации.

  2. Наиболее эффективная сегментация может быть получена при использовании «естественного» таксона – структуры периода ОТ, который несет (артикуляционную) информацию не только о «генераторной» функции, но и о функции «возбуждения». Сегментация, реализуемая на основе текущего анализа структур последовательности периодов ОТ, является динамической, так как классифицируются (характеризуются) кластеры ОТ в зависимости от изменения их характеристик во времени: стационарные (см. рис.Б.2.6, а и б), трендующие (см. рис.Б.2.6, в) и скачкообразные переходные изменения (рис.Б.2.6, г). Последние являются некоторой идеализацией, так как на границе цугов Тот-кластеров, принадлежащих разным подкластерам, как правило, видны «кратковременные» (но не мгновенные) переходные процессы, «занимающие» 1…3 Тот-кластера.

  3. Возможна также и «компонентная» сегментация, которая отражает присутствие трех возможных компонент (см. рис.Б.2.7), а также их комбинаций в структуре ОТ-кластера, соответствующего периоду ОТ. Согласно этой классификации ОТ-кластер может быть монокомпонентным (см. рис.Б.2.6,а), бикомпонентным (см. рис.Б.2.6,б), и (достаточно редко) трехкомпонентным. Монокомпонентные сегменты характеризуются наличием НЧ-компоненты работы голосового тракта («генераторной» функции). Состав же бикомпонентного ОТ-кластера может быть различным и состоять либо из НЧ и формантной компонент (см. рис.Б.2.6, б), либо из НЧ и шумовой компонент («генераторная» функция + функция «возбуждения», см. рис.Б.2.8.). Для структуры трехкомпонентного кластера характерным является наличие всех трех возможных компонент.

Рассмотрим ряд вопросов практической реализации алгоритмов МВС (временной разметки) фонограммы. Блок-схема этапов сегментации и состав основных алгоритмов, реализующих сегментацию РС, показана на рис.Б.2.9. На рис.Б.2.10. более подробно раскрываются шаги, соответствующие 1-му этапу сегментации. Рассмотрим подробнее методы и алгоритмы, используемые на каждом уровне сегментации.

Первый этап сегментации РС включает следующий ряд алгоритмических операций:

  1. Определение речевой активности говорящего – VAD-алгоритм,

  2. После определения активных участков фонограмм (рис.Б.2.9, блок 3) обработка РС заключается в разметке фонограммы в соответствии с классификацией речевых сегментов (см. рис.Б.2.9, блоки 4…6). Данная процедура может осуществляться как специализированными частными алгоритмами, ориентированными на обнаружение речевых сегментов конкретных типов, так и одним «универсальным» алгоритмом, позволяющим выделять признаки каждой кластерной группы, а, следовательно, осуществлять грубую сегментацию. Одним из достаточно простых, но эффективных способов определения В-, П-, Вз-сегментов, является использование корреляционной обработки. Распознавание сегментов РС соответствующих классов производится путем сравнения параметров выборочных корреляционных функций (ВКФ) с параметрами КФ, типичными для каждого класса сегментов (см. рис.Б.2.11). В качестве таких параметров КФ могут быть использованы:

  1. В соответствии с блок-схемой на рис.Б.2.9 после «грубой» сегментации (бл.3-6) необходимым является дополнительная оценка параметров каждой кластерной группы. Особенно важным на этом этапе является определение периода (частоты) ОТ для В-сегментов. В случае, если для дальнейшей «функциональной» обработки необходимым является «компактное» представление (описание) выделенных кластеров, возможно осуществление аппроксимации данных временных сегментов.

Анализ модулирующей функции каждой кластерной группы (рис.Б.2.9, бл.12) может быть дополнительным признаком, подтверждающим сегментацию на 1-этапе. Изменения параметров ОТ-кластеров В-сегментов несут информацию об эмоциональном состоянии говорящего, как говорилось ранее.

  1. Второй этап сегментации РС заключается в анализе В-сегментов на интервалах близких или равных периоду ОТ и параметрической классификации последних. Кластер ОТ может характеризоваться наличием трех компонент: «фундаментальной» НЧ-компоненты (всегда присутствующей в В-сегментах) и двух дополнительных - шумовой и формантной компоненты, которые могут быть на интервале ОТ как вместе, так и по отдельности. Параметры, оцениваемые для этих компонент в каждом ОТ-кластере, показаны на рис.Б.2.12. Детальный анализ ОТ-кластеров и отнесение их к соответствующим классификационным типам, позволяет объединять смежные ОТ-кластеры в последовательности, близкие по характеристикам. Такие группы являются самостоятельными единицами – кортежами ОТ-кластеров, и позволяют компактно описывать РС, включая и поведение вектора параметров ОТ-кластеров во времени (рис.Б.2.13). Например, кортеж ОТ-кластеров может быть трендующим, стационарным или на нем может присутствовать «разладка» характеристик ОТ-кластеров. Как правило, в состав кортежа входит несколько – от 2-х…3-х до 20…30 ОТ-кластеров.

На рис.Б.2.13 показано описание структуры фонограммы с использованием кортежей ОТ-кластеров, кластеров (сегментов) взрывных и шумных звуков.

Для пояснения работы алгоритма сегментации следует привести пример возможного качественного вывода (рис.Б.2.9, а, бл.16) по таксономической сегментации для звука «З» в слове «Забияка» (рис.Б.2.14): «ОТ-кластеры (1)-(5) являются монокомпонентными, они образуют кортеж с трендующими характеристиками, принадлежащий активному речевому В-сегменту (на интервале речевой активности), количественный вывод заключается в параметрическом векторном описании приведенного на рис.Б.2.14 временного сегмента в соответствии с блоками 7-9 рис.Б.2.12.

Комплексная многоуровневая сегментация (рис.Б.2.15) позволяет детально описать временную структуру РС, а последующая параметризация временных кластеров на каждом уровне сегментации, предоставляет разработчику систем обработки РС базисный набор параметризованных кластеров, обеспечивающих широкие возможности по дальнейшим алгоритмическим преобразованиям речевого сигнала.

Рис.Б.2.5. Классификация структур В-сегментов

а)

б)

в)

г)

Рис.Б.2.6. Варианты структур В-сегментов а) стационарный однокомпонентный сегмент звука «Б» слова «Забияка», б) стационарный бикомпонентный сегмент звука «И» слова «Забияка», в)трендующий кластер звука «Я» слова «Забияка», г) переходный («скачкообразный») сегмент звука «А и Б» слова «Забияка»

Рис.Б.2.7. Состав возможных компонент в структуре периода ОТ

Рис.Б.2.8. Бикомпонентный кластер звука «З» слова «Забияка» (НЧ + шумовая компоненты)

Рис.Б.2.9. Общая блок-схема обработки фонограммы: этапы алгоритмов сегментации

Рис.Б.2.10. Детализация 1-го этапа сегментации

Рис.Б.2.11. Применение корреляционной обработки для различения кластеров РС: (а) – реализация слова «арбуз», (б) – коррелограмма слова «арбуз», (в1)…(в4) – выборочные кратковременные корреляционные функции РС для разных моментов времени, (в1) – ВКФ для 30-го интервала оценивания (Тот= 120), (в2) – ВКФ для 37-го интервала оценивания (Тот= 145), (в3) – ВКФ для 57-го интервала оценивания (Тот= 125), (в4) – ВКФ для 75-го интервала оценивания (Ш-сегмент), Длина интервала оценивания КФLоц_КФ= 160 отсчетов

Рис.Б.2.12. Детализация состава алгоритмов обработки вокализованных сегментов (ОТ-кластеров)

Рис.Б.2.13. Представление фонограммы в виде кортежа кластеров разных типов

Рис.Б.2.14. Звук «З» в слове «Забияка»

Рис.Б.2.15. Детализация состава алгоритмов обработки фонограммы при сегментации