logo
Лекции по ЦО АВС

3.7.1 Импульсно-кодовая модуляция (pcm — Pulse-Code Modulation)

Прямое аналого-цифровое преобразование является низкоэффек- тивным (т. е. имеющим малую скорость кодирования при заданном качестве) высококачественным методом кодирования. Кодеки, построенные на базе данного метода, работают на скоростях не ниже 32 кбит/с. При этом полоса входного аналогового сигнала ограничена диапазоном 0,3-3,4 кГц. Для повышения качества преобразования полоса может быть расширена до 6 кГц, что соответствует скорости передачи 88 кбит/с при частоте дискретизации 12 кГц (при дальнейшем расширении полосы качество представления речи не повышается).

Еще в 60-х годах был принят алгоритм оцифровки голоса под названием импульсно-кодовой модуляции (Pulse-Code Modulation — PCM, международный стандарт G.711). Оцифровка голосового сигнала включает измерение уровня аналогового сигнала через равные промежутки времени. В соответствии со стандартом G.711 принимается, что для узнаваемости голоса необходимо обеспечить передачу его частотных составляющих в диапазоне от 200 до 3400 Гц. Известно, что для правильной передачи всех частотных составляющих необходимо измерять уровень сигнала с частотой 8 кГц. В стандарте также принимается, что оцифровка аналогового сигнала производится с восьмиразрядным разрешением. При этом обычно используется один из двух способов установления соответствия между амплитудой звукового сигнала и цифровым значением - либо A-кодирование (оно принято в Европе и Азии), либо мю-кодирование (принятое в США, Канаде и некоторых других странах) . И то и другое — просто таблицы соответствия между измеряемым значением напряжения и числом, при помощи которого оно кодируется. Для передачи одного голосового канала в цифровом виде требуется пропускная способность 64 кбит/с (8 кГц х 8 разрядов). Попутно заметим, что именно эта величина и используется в качестве единицы измерения пропускной способности каналов современных цифровых сетей.

3.7.2 m-Law и A-Law кодирование

Когда звуковая карта получает звуковые данные, она преобразует каждое значение дискретизации в соответствующее значение напряжения, которое затем усиливается и подается на динамик или наушники. При изменении значения оцифрованного звука меняется напряжение, а динамик преобразует изменение напряжения в изменение звукового давления, которое в виде звуковой волны распространяется в воздухе и достигает вашего уха.

Какая же связь между значением оцифрованного звука и генерируемым звуковой картой напряжением? Наиболее очевидный подход заключается в использовании линейной связи (linear relation), при которой, например, увеличение значения цифрового представления звука вдвое будет приводить к увеличению напряжения также в два раза. Однако этот подход не эффективен. Человеческое ухо воспринимает звук нелинейно: разница между малыми цифровыми представлениями звукового сигнала может быть слишком велика для слабых звуков, в то время как разница между большими представлениями будет слишком мала, чтобы ухо ее различило.

Принимая во внимание указанную природу человеческого слуха вводят логарифмическую шкалу. Соотношения m-Law и A-Law соответствуют этой шкале. Соотношение m-Law используется, прежде всего, в Северной Америке и в Японии. Для преобразования значения линейной дискретизации m в дискретизацию Ym используется следующее уравнение:

где mp — максимальное входное значение оцифрованного звука, а m — константа, обычно 100 или 255.

A-Law используется в Европе. Оно также используется для преобразования значения линейной дискретизации в дискретизацию YA . А — это константа 87.6:

Соотношения m-Law и A-Law позволяют восьмиразрядные измерения представлять в том же диапазоне, что и линейные 12-разрядные. Таким образом, можно получить более чем 30% сжатия.

Yandex.RTB R-A-252273-3
Yandex.RTB R-A-252273-4