Импульсно-кодовая модуляция.
Импульсно-кодовая модуляция (Pulse Code Modulation, PCM) заключается в том, что звуковая информация хранится в виде значений амплитуды, взятых в определенные моменты времени (т.е. измерения проводятся «импульсами»).
При записи звука в компьютер амплитуда измеряется через равные интервалы времени с некоторой достаточно большой частотой.
При воспроизведении звука компьютер использует сохраненные значения для того, чтобы восстановить непрерывную форму выходного сигнала.
Процесс получения цифровой формы звука называют оцифровкой.
Устройство, выполняющее оцифровку звука, называется аналого-цифровым преобразователем (АЦП).
Устройство, выполняющее обратное преобразование, из цифровой формы в аналоговую, называется цифро-аналоговым преобразователем (ЦАП).
В современных ПК основная обработка звука выполняется звуковыми картами.
Помимо АЦП и ЦАП звуковые карты содержат сигнальный процессор – специализированный микрокомпьютер для обработки оцифрованного звука, выполняющий значительную часть рутинных расчетов при обработке звуков (смешение звуков, наложение спецэффектов, расчет формы выходного сигнала и т.п.; центральный процессор не тратит время на выполнение этих работ).
Моменты измерения амплитуды называются отсчетами. Частоту, с которой производят измерения сигнала, называют частотой дискретизации.
Квантование звука заключается в следующем. Сначала мгновенные значения звукового давления (амплитуда звуковых колебаний) измеряются с ограниченной точностью, затем, как и в случае с квантованием цветов, диапазон значений амплитуды разбивается на подуровни. По измеренному значению определяется подуровень, в который попадает значение, и в компьютере сохраняется только его номер.
Количество бит, используемых для записи номеров подуровней, называется глубиной кодирования звука.
Если сравнить способы представления графической и звуковой информации, то импульсное кодирование звука соответствует растровому представлению изображений:
- структура звука (в графике – изображения) не анализируется;
- время (в графике – пространство) разбивается на небольшие области;
- в пределах этих областей параметры звука (изображения) считаются постоянными.
При сохранении импульсного представления звука достаточно единожды сохранить параметры оцифровки (глубину кодирования, частоту дискретизации и длительность звукового фрагмента), а затем сохранять только номера подуровней единым потоком.
Увеличивая частоту дискретизации и глубину кодирования, можно более точно сохранить и впоследствии восстановить форму звукового сигнала. При этом улучшается субъективное качество оцифрованного звука, однако увеличивается объем сохраняемых данных.
При цифровой записи звука в различных случаях используют разные значения частоты дискретизации и глубины кодирования.
Например, в цифровых автоответчиках используют частоту дискретизации 8-11 кГц и 8 бит для записи амплитуды, а стандарт записи звука на компакт –дисках соответствует частоте дискретизации 44,1 кГц и 16 бит для записи амплитуды на каждый аудио - канал (стерео – 2 канала, моно – один канал).
1. Оценим объем стереоаудиофайла в формате PCM с глубиной кодирования 16 бит и частотой дискретизации 44,1 кГц, который хранит звуковой фрагмент длительностью звучания 1 секунда.
Объем такого звукового фрагмента равен:
V = глубина кодирования * частота дискретизации (Гц) * количество каналов * время звучания (в сек.) = 16 бит * 44100 Гц * 2 * 1 с = 1 411 200 бит = 176 400 байт ≈ 172, 3 Кбайт.
2. Для хранения 5-минутной аудиозаписи CD-качества (частота дискретизации – 48 кГц, глубина звука – 16 бит, режим – стерео) необходимый объем памяти составит:
48.000 Гц16 бит2 канала300 с = 460.800.000 бит = 57.600.000 байт = 56.250 Кбайт ≈ 55 Мбайт.
Вопрос, до какой степени можно уменьшить параметры оцифровки, чтобы при восстановлении звук оставался достаточно близок к исходному?
В 1928 году американский инженер и ученый Гарри Найквист высказал утверждение, что частота дискретизации должна быть в два или более раза выше максимальной частоты измеряемого сигнала.
В 1933 году советский ученый В.А. Котельников и независимо от него американский ученый Клод Шеннон сформулировали и доказали теорему о том, при каких условиях и как по дискретным значениям можно восстановить форму непрерывного сигнала. Эта теорема в России называется теоремой Котельникова, на Западе теоремой Найквиста-Шеннона; есть у нее и «нейтральной» название – теорема об отсчетах.
Приемы и методы работы со звуковой информацией пришли в вычислительную технику наиболее поздно. К тому же, в отличие от числовых, текстовых и графических данных, у звукозаписей не было столь же длительной и проверенной истории кодирования. В итоге методы кодирования звуковой информации двоичным кодом далеки от стандартизации. Множество отдельных компаний разработали свои корпоративные стандарты, но если говорить обобщенно, то можно выделить два основных направления.
Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармонических сигналов разных частот, каждый из которых представляет собой правильную синусоиду, а, следовательно, может быть описан числовыми параметрами, то есть кодом. В природе звуковые сигналы имеют непрерывный спектр, то есть являются аналоговыми. Их разложение в гармонические ряды и представление в виде дискретных цифровых сигналов выполняют специальные устройства – аналогово-цифровые преобразователи (АЦП). Обратное преобразование для воспроизведения звука, закодированного числовым кодом, выполняют цифро-аналоговые преобразователи (ЦАП). При таких преобразованиях неизбежны потери информации, связанные с методом кодирования, поэтому качество звукозаписи обычно получается не вполне удовлетворительным и соответствует качеству звучания простейших электромузыкальных инструментов с окрасом, характерным для электронной музыки. В то же время, данный метод кодирования обеспечивает весьма компактный код, и потому он нашел применение еще в те годы, когда ресурсы средств вычислительной техники были явно недостаточны.
Метод таблично-волнового (Wave-Table) синтеза лучше соответствует современному уровню развития техники. Если говорить упрощенно, то можно сказать, что где-то в заранее подготовленных таблицах хранятся образцы звуков для множества различных музыкальных инструментов (хотя не только для них). В технике такие образцы называют сэмплами. Числовые коды выражают тип инструмента, номер его модели, высоту тона, продолжительность и интенсивность звука, динамику его изменения, некоторые параметры среды, в которой происходит звучание, а также прочие параметры, характеризующие особенности звука. Поскольку в качестве образцов используются «реальные» звуки, то качество звука, полученного в результате синтеза, получается очень высоким и приближается к качеству звучания реальных музыкальных инструментов.
(Как и в случае с графическими данными (глубина цвета или интенсивность цвета), глубина звука (уровень громкости) представляется определенным количеством бит (8, 16). Кроме того, ещё одной характеристикой при кодировании звука является частота дискретизации непрерывного аналогового сигнала (8; 11,025; 12; 16; 20; 22,05; 24; 32; 44,1; 48 кГц). Человек может воспринимать звуковые колебания в частотном диапазоне примерно 20 Гц – 20 кГц. Поэтому для качественного воспроизведения звука достаточной является частота дискретизации 48 кГц).