logo
Учебник Математики и информатики

Запись и обработка звука

Попробуем разобраться, как звуковые колебания можно представить в цифровом виде.

Как видно из амплитудно-временного графика звукового сигнала (волновой фор-мы), в любой момент звучания амплитуда сигнала имеет конкретное значение, которое может быть измерено и выражено некоторым числом. Таким образом, если мы точно измерим амплитуду сигнала в каждый момент времени и выразим ее в числовом виде, полученный ряд чисел будет точной записью исходного звукового сигнала. Эта последовательность чисел может быть преоб-разована в двоичную форму и записана на любой носитель, в том числе в память компьютера.

Однако здесь мы сталкиваемся с большой проблемой, поскольку звуковой сигнал, вообще говоря, непрервен, то есть количество точек на его графике бесконечно. Следовательно, для получения действительно точной цифровой записи звукового сигнала измерять его амплитуду нужно через бесконечно малые промежутки вре-мени (и, следовательно, бесконечное количество раз, а полученный числовой мас-сив будет бесконечно велик). Более того, на “линейке” шкалы измерения ампли-туды должно быть бесконечное количество градаций, то есть весь динамический диапазон должен выражаться числами от -  до +  (или “хотя бы” от 0 до +  ). Естественно, в действительности мы можем провести измерения лишь конечное число раз, используя конечное количество амплитудных градаций (этот параметр называют амплитудным разрешением). Возникает вопрос: через какие промежут-ки времени и с каким амплитудным разрешением следует проводить измерения, чтобы звук на выходе не сильно отличался от исходного сигнала (рис. 7.5)?

Рис.7.5. Дискретизация сигнала 440 Гц с частотой 5000 Гц

Согласно известной теореме Котельникова (иногда её называют теоремой Найквиста), для отображения сигнала некоторой частоты f необходима дискретизация (сканирование и измерение амплитуд сигнала) с частотой не менее 2f. Поскольку человеческий слух может воспринимать звуковые колебания с частотой до 18 кГц, по-лучается, что частота дискретизации любого звукового сигнала должна быть не менее 36 кГц. На практике обычно используются частоты дискретизации от 11 025 до 48 000 Гц (например, на звуковых компакт-дисках она составляет 44 100 Гц), а в последнее время стала использоваться частота 96 кГц (она определена как стан-дартная для DVD-дисков).

Что касается амплитудного разрешения, то можно заметить, что точность воспро-изведения повышается с увеличением количества градаций амплитудной шкалы. В звуковых компакт-дисках используется 65 536 амплитудных града-ций. Как известно, для представления чисел в диапазоне от 0 до 65 535 необходи-мо 16 бит информации, поэтому часто бывает удобнее говорить о 16-битном раз-решении (а в просторечии - о 16-битном звуке). Ранее часто использовались 8-битное разрешение (256 градаций) и 12-битное (4096 градаций), звучащие с боль-шими искажениями. На современном этапе звук обрабатывается, как правило, при 24-битном или 32-битном разрешении (16 777 216 или 4 294 967 296 амплитуд-ных градаций).

Для того чтобы преобразовать звук в цифровую форму, используются специаль-ные устройства - аналого-цифровые преобразователи (АЦП). От качества АЦП зависит качество полученного цифрового сигнала, и если преобразование произ-ведено плохо, то впоследствии придется затратить массу сил и времени на то, чтобы исправить положение. Поэтому рекомендую пользоваться только качественными АЦП.

Несмотря на все преимущества цифрового сигнала, его нельзя услышать напря-мую. Для того чтобы его услышать, перед подачей на усилитель и колонки сигнал необходимо преобразовать в аналоговый, для чего используются цифро-аналого-вые преобразователи (ЦАП). ЦАП должен быть также высокого качества, посколь-ку все достоинства цифрового сигнала и его гибкой компьютерной обработки мо-гут превратиться в ничто, если звук будет воспроизведен через некачественный ЦАП. АЦП и ЦАП установлены на любой звуковой карте.

Теперь поговорим немного о том таким же образом происходит запись звука в компьютер. Компьютер представляет собой сложный цифровой аппарат. Вся информация в нем содержится в цифровом виде. Таким образом, и все процессы происходящие в компьютере - это обработка цифровых сигналов. По этой причине звуковую информацию, с которой мы бы хотели работать в дальнейшем, необходимо оцифровать. Итак, что же такое оцифровка и какие устройства и какие устройства обеспечивают этот процесс.

Оцифровка является одной из основных функций звуковых карт. Изъясняясь научным языком, она включает в себя два процесса - процесс дискретизации по времени (осуществление выборки, сэмплирование) и процесс квантования по уровням.

Процесс дискретизации - это процесс получения значений величин преобразуемого сигнала в определенные промежутки времени. Квантование - процесс замены реальных значений сигнала приближенными с определённой точностью. Попробуем разобраться. Итак, мы выяснили, что для записи сигнала в компьютер его необходимо преобразовать в цифровые значения. Для этого поступают следующим образом. Выбирается ка-кой-то временной шаг (интервал), с которым берутся значения уровня сиг-нала. Этот шаг называется шагом дискретизации. Естественно, чем шаг меньше, тем большее количество значений сигнала мы можем взять в оп-ределенный промежуток времени, и, соответственно, тем с большей точ-ностью будет “взят” сигнал. Процесс дискретизации во времени представ-лен на рисунке 7.6.

Уровень

-

9

8

7

6

5

4

3

2

1

0

∆t Время

Рис 7.6. Процесс оцифровки сигнала

Казалось бы, что для записи значений сигнала мы сделали все необходимое. Теперь осталось лишь записать численные значения сигнала в файл. Однако, здесь мы сталкиваемся с проблемой: ведь значения сигнала не могут быть записаны с бесконечной точностью. Поэтому значения сигнала квантуют по уровню. Это значит, что полученные в процессе дискретизации значения сиг-нала делятся на уровни квантования (quantization levels) и каждое значение ок-ругляется до ближайшего уровня. Таким способом получают конечные значе-ния амплитуд сигнала. Отметим снова, что и в данном случае чем больше уровней квантования, тем более точно будут записаны численные значения уровня сигнала.

-Чем меньше шаг дискрети-зации (другими словами, чем выше частота выборки) и чем больше уровней квантования, тем с большей точностью происходит оцифровка сигнала и тем более приближенно к оригиналу он будет звучать при воспроизведении (т.е. при цифро-аналоговом преобразовании). Чтобы избе-жать искажений при оцифровке, нужно следить за тем, чтобы динамический диапазон сигнала соответствовал динамическому диапазону АЦП, или, други-ми словами, чтобы значения сигнала не выходили за рамки максимального и минимального уровней квантования.

Вспомним, что человеческое ухо способно слышать звук на частотах при-близительно от 30 Гц до 20 КГц. Выше располагается спектр неслышимых для человека частот. В связи с этим важно отметить, что максимальная частота дис-кретизации (выборки) определяет максимальную частоту оцифровываемого сигнала. Точнее говоря, максимальная частота сигнала будет примерно равна половине максимальной частоты дискретизации. Такая зависимость, как уже говорилось выше доказана в теореме Котельникова-Найквиста. В ней говорится о том, что для достижения баланса между качеством и полосой пропускания системы, необходимо, чтобы частота выборки вдвое превышала частоту звукового сигнала. Вернее, чтобы произвести успешную дискретизацию чисто синусоидального сигнала, часто-та дискретизации действительно должна быть ровно в два раза больше частоты синусоиды, в то время как оцифровку реального звукового сигнала нужно про-изводить на частоте немного большей, чем удвоенная частота самого сигнала, то есть с запасом.. Приведем конкретный пример. Если, скажем, вы оцифровали звук с частотой дискретизации 20 КГц, то это будет означать, что фактически оцифрованный звук содержит частоты до 10 КГц, т.е. низкие и средние частоты.

Следует обратить внимание на то, что в процессе оцифровки к полезному сигналу прибавляются различные шумы. Один из таких шумов - джиттер (jitter). Джиттер появляется в результате того, что осуществление выборки сигнала происходит не через абсолютно равные промежутки времени, а с какими-то отклонениями. То есть если, скажем, дискретизация проводится с частотой 44.1 КГц, то отсчеты берутся не точно каждые 1/44100 секунды. А так как входной сигнал постоянно меняется, то такая ошибка приводит к “захвату” не совсем верного уровня сигнала. В результате во время проигрывания оцифрованного сигнала чувствуется некоторое дрожание. Появление джиттера является результатом неабсолютной стабильности АЦП. Для борьбы с этим явлением применяют высокостабильные тактовые генераторы.

Как же происходит оцифровка с точки зрения пользователя? Оказывается, всё намного проще, чем могло показаться на первый взгляд. Для оцифровки какого-либо сигнала его необходимо подать на вход звуковой карты (то есть фактически соединить вход звуковой карты с выходом того устройства, с которого будет подан сигнал), запустить специальную программу, выбрать параметры записи, нажать кнопку записи и сохранить результат (грубо говоря, набор байтов) в файле. Процесс оцифровки происходит в режиме реального времени. Например, вы хотите оцифровать с аудиокассеты какую-то песню продолжительностью 2 минуты, то для этого необходимо подключить магнитофон ко входу звуковой карты, запустить упо-мянутую выше программу, перевести ее в режим записи (оцифровки) и вклю чить магнитофон на воспроизведение. По окончании песни нужно остановить процесс оцифровки и записать результат в файл. Вот и все!

Итак, что же следует запомнить из вышесказанного? По сути, совсем не-много - оцифрованная аудиоинформация всегда характеризуется тремя пара-метрами:

• частотой дискретизации или sampling rate где (например, 8, 11, 44, 48 КГц и т.д.);

• уровнем квантования (разрядностью) или quantization level (8, 16, 18, 20, 24 или 32 бита);

• количеством каналов (1 - моно, 2 - стерео и т.д.).

Очевидно, что проигрывать оцифрованный звук нужно с теми же парамет-рами, с которыми его оцифровывали. Можно, конечно, поэкспериментировать и, например, звук, оцифрованный с частотой дискретизации 22 КГц, проиграть на частоте 44 КГц. Тогда вы получите точно такой же результат, что и при уско-ренном воспроизведении аудиозаписи на магнитной ленте.