3.10.10 Какие альтернативные mpeg-1 Layer III (mp3) алгоритмы компрессии существуют?
Действительно, на MP3 свет клином не сошелся. Параллельно MP3 появляются и развиваются не менее, а иногда, и более прогрессивные алгоритмы компрессии звука. Перечислять все алгоритмы нет надобности. Следует отметить только, что существуют алгоритмы по своим возможностям и качеству во многом превосходящие MP3:
MPEG-2 AAC. Об этом алгоритме было рассказано выше.
Из всех разновидностей MPEG-2 AAC особо выделяется, пожалуй, Liquifier AAC (файлы, созданные с помощью этого алгоритма обычно имеют расширение .LQT). Этот алгоритм обеспечивает как наивысшее качество звучания среди всех подобных алгоритмов, так и некоторые дополнительные возможности, например, хранение внутри LQT-файлов графических изображений обложек CD и эмблем, а также текстовую информацию. Следует сказать, что Liquifier AAC является коммерческим продуктом в отличие от своего, пожалуй, не намного уступающего по качеству собрата Astrid/Quartex AAC.
Mayah AAC - молодой кодек (на момент создания документа). По поводу него можно сказать, что будущего он не имеет. По некоторым оценкам, качество Mayah AAC в сравнении с другими енкодерами AAC ужасно. Кроме того, стало известно, что сама программа стоит много денег и распространяется лишь среди звукозаписывающих студий. Вероятнее всего, кодек не попадет в руки к обычным пользователям.
Несколько слов необходимо сказать и о другом прогрессивном алгоритме TwinVQ (Transform-domain Weighted Interleave Vector Quanization), разработанном фирмой Nippon Telegraph and Telephone Corp. (NTT) в Human Interface Laboratories и лицензированном фирмой Yamaha (продукты от Yamaha, основанные на TwinVQ, распространяются под торговой маркой SoundVQ). Этот метод позволяет сжимать цифровые потоки с коэффициентом компрессия до 1:20. При этом качество звучания потока TwinVQ при 96 Кбит/с практически идентично качеству звучания потока MPEG-1 Layer III (при 128 Кбит/с) и MPEG-2 AAC (при 96 Кбит/с). Алгоритм TwinVQ позволяет кодировать данные во всем диапазоне слышимых частот (до 22 КГц) и, также как и MPEG, производить декодирование и воспроизведение потока одновременно с его получением (stream playback). Кстати, говоря об алгоритме TwinVQ следует сказать также, что трудоемкость этого алгоритма намного выше трудоемкости, например, алгоритма MPEG-1 Layer III, так что программы-компрессоры, основанные на алгоритме TwinVQ работают в 5-10 раз медленнее, чем Layer III-компрессоры. Следует сказать также, что наработки TwinVQ используются в стандарте MPEG-4. По различным оценкам, TwinVQ в нижнем диапазоне частот превосходит по качеству MPEG-1 Layer III, уступая ему на верхних частотах. TwinVQ поддерживает кодирование с переменным битрейтом (VBR), а также имеет поддержку т.н. несимметричного битрейта, когда разные каналы кодируются с отличными битрейтами.
Алгоритм (кодек) Windows Media Audio (WMA) от Microsoft (есть еще WMV - Windows Media Video - его мы здесь не обсуждаем). Алгоритм WMA, также как и все рассмотренные ранее, позволяет потоковое воспроизведение (stream playback). Качество WMA (если говорить о WMA 7.0 и 8.0) при скорости потока 64 Кбит/c практически не уступает качеству MPEG-1 Layer III 96-128 Кбит/с, а при 96 Кбит/с может превосходить MPEG-2 AAC 128 Кбит/с ("может"- не значит "всегда", то бишь, речь идет о субъективно воспринимаемом качестве звучания). Для хранения потока в формате WMA используется универсальный потоковый файловый формат .ASF (Advanced Audio Streaming), пришедший на замену .WAV. Вообще говоря, .ASF - это универсальный формат для хранения аудио и видео информации, сжатой с помощью самых разнообразных кодеков. .ASF имеет также и свою несколько сокращенную разновидность .WMA. Файлы .WMA предназначены исключительно для хранения аудио данных. Говоря о WMA как о кодеке, следует сказать, что в последнее время он становится все более популярным, так как Microsoft встроила его в Windows'2000 и Windows'2001, превратив его таким образом в стандарт. Следует отметить также, что сохранить поток WMA в .WAV-структуру невозможно (возможно, по чисто политическим причинам). На сегодняшний день существует несколько версий WMA: v1, v2, v7 и v8. V7 отличается от младших собратьев поддержкой битрейтов до 192 Kbps (в отличие от 164 Kbps в V1 и V2), несколько худшим качеством кодирования и иной структурой данных. Версия 8 отличается от всех предыдущих явно переработанной психоакустической моделью кодека, за счет чего качество кодирования сильно возросло. Так, при 64 Kbps WMA v8.0 на не сильно требовательных к качеству композициях (поп-музыка, например) почти не отличим от MP3 при 128 Kbps, хотя, опять же, все зависит от конкретной композиции и аппаратуры, на которой осуществляется прослушивание. Изначально, обсуждаемый кодек разрабатывался фирмой Voxware и имел название Voxware Audio Codec. Впоследствии компания забросила его доработку остановившись на v4.0, но кодек не остался гнить и был полностью куплен фирмой Microsoft. Программисты сильно доработали этот кодек, а фирма Microsoft переименовала кодек в Windows Media Audio, не забыв позаботиться о том, чтобы он был бесплатным.
Алгоритм PAC (Perspective Audio Coding) от Bell Labs & Lucent Technologies. По различным данным обеспечивает аналогичное (или выше) MPEG-1 Layer III 128 Кбит/с качество звучания при 64 Кбит/с. Поддерживаются также 96 и 128 Кбит/с. Алгоритм позволяет потоковое воспроизведение (stream playback). Имеет встроенный механизм защиты. Обладает высокой скоростью компрессии.
Еще один кодек: Ogg Vorbis, вышел в свет в июне 2000. Этот формат является частью проекта Ogg Squish по созданию полностью открытой системы мультимедиа. Иными словами, и сам проект, и Ogg Vorbis в частности являются открытыми и свободными для распространения, а также разработки на его основе нового программного обеспечения. В FAQ от разработчика (группа Xiphophorus) написано, что Ogg Vorbis является алгоритмом, принципиально схожим с известными MPEG-1 Layer II, MPEG-2 AAC, VQF и проч., однако использует оригинальный математический алгоритм и собственную психоакустическую модель, что освобождает его от необходимости выплачивать какие-то лицензионные сборы и производить иные выплаты сторонним фирмам-изготовителям аудио форматов. Алгоритм Ogg Vorbis рассчитан на сжатие данных на всех возможных битрейтах без ограничений, то есть от 8 Kbps до 512 Kbps, а также на кодирование с переменным битрейтом (VBR). Алгоритм предусматривает хранение внутри файлов подробных комментариев об исполнителе и названии композиции, а также графической информации. В алгоритме предусматривается также возможность кодирования нескольких каналов аудио (более двух, теоретически до 255), возможность редактирования содержимого файлов, а также так называемый "масштабируемый битрейт" возможность изменения битрейта потока без необходимости декодирования. Поддерживается потоковое воспроизведение (streaming). Для хранения данных используется собственный универсальный формат bitstream Ogg Squish, рассчитанный на хранение любой информации мультимедиа системы Ogg Squish (идея реализация универсального формата bitstream Ogg Squish аналогична идее ASF от Microsoft).
Кодек MP3 Pro анонсирован в июле 2001 года компанией Coding Technologies вместе с Tomson Mulimedia и институтом Fraunhofer. Формат MP3Pro является продолжением, или, точнее, развитием старого MP3. MP3Pro является совместимым с MP3 назад (полностью) и вперед (частично). То есть файлы, закодированные с помощью MP3Pro, можно воспроизводить в обычных проигрывателях, однако качество звучания при этом заметно хуже, чем при воспроизведении в специальном проигрывателе. Это связано с тем, что файлы MP3Pro имеют два потока аудио, в то время как обычные проигрыватели распознают в них только один поток, то есть обычный MPEG-1 Layer 3. В MP3Pro использована новая технология - SBR (Spectral Band Replication). Эта технология предназначена для передачи верхнего частотного диапазона. Идея технологии и предпосылки таковы. Дело в том, что технологии использования психоакустических моделей имеют один общий недостаток: все они работают качественно до битрейта 128 Kbps. На более низких битрейтах начинаются различные проблемы: либо для передачи аудио необходимо обрезать частотный диапазон, либо кодирование приводит к появлению различных артефактов. Этот ключевой момент показывает, что использования психоакустической модели мало при работе с битрейтами ниже 128 Kbps. Новая технология SBR дополняет использование психоакустических моделей. Идея следующая: передается (кодируется) чуть более узкий диапазон частот чем обычно (то есть с обрезанными "верхами"), а верхние частоты воссоздаются (восстанавливаются) уже самим декодером на основе информации о более низких частотных составляющих. Таким образом, технология SBR применяется фактически не столько на стадии сжатия, сколько на стадии декодирования. Загадочный второй "параллельный" поток данных, о котором говорилось выше, как раз и есть та минимальная необходимая информация, которая используется при воспроизведении для восстановления верхних частот. Мне пока достоверно не известно, какую точно информацию несет этот поток, однако проведенные исследования показывают, что эта информация - есть усредненная мощность сигнала в верхнем (обрезанном) диапазоне частот. Точнее не одна усредненная мощность для всего диапазона вырезанных частот, а информация о средней мощности в нескольких полосах частот верхнего диапазона. Качество звучания MP3Pro можно назвать субъективно очень хорошим даже на битрейте 64 Кбит/с, другими словами, субъективно несложные композиции при таком битрейте воспринимаются не хуже чем MP3 128 Кбит/с. Однако необходимо учитывать тот факт, что такое звучание достигается искусственным путем, и что слышимый сигнал представляет собой уже не столько оригинал, сколько синтезированную копию оригинала, что заставляет задуматься меломанов, обладателей высококачественной аудио аппаратуры, а также просто ценителей качественного оригинального звучания.
- 2.4.3 Ацп с плавающей точкой……………………………………………
- 1 Цифровые фильтры
- 1.1 Явление Гиббса
- 1.1.1 Сущность явления Гиббса
- 1.1.2 Параметры эффекта
- 1.1.3 Последствия для практики
- 1.2 Весовые функции
- 1.2.1 Нейтрализация явления Гиббса в частотной области
- 1.2.2 Основные весовые функции
- 1.3 Типы фильтров
- 1.4 Разностное уравнение
- Нерекурсивные фильтры
- 1.5.1 Методика расчетов нцф
- 1.5.2 Идеальные частотные фильтры
- 1.5.3 Конечные приближения идеальных фильтров
- 1.5.3.1 Применение весовых функций
- 1.5.3.2 Весовая функция Кайзера
- 1.5.4 Дифференцирующие цифровые фильтры
- 1.5.5 Гладкие частотные фильтры
- 1.6 Рекурсивные фильтры
- 6.3 Интегрирующий рекурсивный фильтр.
- 1.6.1 Принципы рекурсивной фильтрации
- 1.6.2 Режекторные и селекторные фильтры
- 1.6.2.1 Комплексная z-плоскость.
- 1.6.2.2 Режекторные фильтры
- 1.6.2.3 Селекторный фильтр
- 1.6.3 Билинейное z-преобразование
- 1.6.4 Типы рекурсивных частотных фильтров
- 1.7 Импульсная характеристика фильтров
- Передаточные функции фильтров
- 1.9 Частотные характеристики фильтров
- 1.10 Частотный анализ цифровых фильтров
- 1.10.1 Сглаживающие фильтры и фильтры аппроксимации
- 1.10.1.1 Фильтры мнк 1-го порядка (мнк-1)
- 1.10.1.2 Фильтры мнк 2-го порядка (мнк-2)
- 1.10.1.3 Фильтры мнк 4-го порядка
- 1.10.2 Разностные операторы
- 1.10.2.1 Разностный оператор
- 1.10.2.2 Восстановление данных
- 1.10.2.3 Аппроксимация производных
- 1.10.3 Интегрирование данных
- 1.10.4 Расчёт фильтров по частотной характеристике
- 1.11 Фильтрация случайных сигналов
- 1.12 Структурные схемы цифровых фильтров
- Обращенные формы.
- 1.13 Фильтры Чебышева
- 1.14 Фильтры Баттерворта
- Свойства фильтров Баттерворта нижних частот:
- 1.15 Фильтры Бесселя
- 2 Аналого-цифровое преобразование
- 2.1 Цифровая обработка звуковых сигналов
- 2.2 Основы аналого-цифрового преобразования
- 2.2.1 Основные понятия и определения
- 2.3 Структура и алгоритм работы цап
- Контрольные вопросы
- 2.4 Структура и алгоритм работы ацп
- 2.4.1 Параллельные ацп
- 2.4.2 Ацп с поразрядным уравновешиванием
- 2.4.3 Ацп с плавающей точкой
- Контрольные вопросы
- Глава 3. Звук.
- 3.1 Аудиосигнал
- 3.1.1 Звуковые волны
- 3.1.2 Звук как электрический сигнал
- 3.1.3 Фаза
- 3.1.4 Сложение синусоидальных волн
- 3.2 Звуковая система
- 3.2.1 Назначение звуковой системы
- 3.2.2 Модель звуковой системы
- 3.2.3 Входные датчики
- 3.2.4 Выходные датчики
- 3.2.5 Простейшая звуковая система
- 3.3 Амплитудно-частотная характеристика
- 3.3.1 Способы записи ачх в спецификации звуковых устройств
- 3.3.2 Октавные соотношения и измерения
- 3.3.3 Ачх реальных устройств воспроизведения звука
- 3.3.4 Диапазон частот голоса и инструментов
- 3.3.5 Влияние акустических факторов
- 3.4 Единицы измерения, параметры звуковых сигналов
- 3.4.1 Децибел
- 3.4.2 Относительная мощность электрических сигналов дБm
- 3.4.3 Децибелы и уровень звука
- 3.4.5 Громкость, уровень сигнала и коэффициент усиления
- 3.4.6 Громкость
- 3.5 Динамический диапазон
- 3.5.1 Запас динамического диапазона
- 3.5.2 Выбор динамического диапазона для реальной звуковой системы
- 3.6 Цифровой звук
- 3.6.1 Частота дискретизации
- 3.6.2 Разрядность
- 3.6.3 Дизеринг
- 3.6.4 Нойс шейпинг
- 3.6.5 Джиттер
- 3.7 Методы и стандарты передачи речи по трактам связи, применяемые в современном оборудовании (7 кГц)
- 3.7.1 Импульсно-кодовая модуляция (pcm — Pulse-Code Modulation)
- 3.7.3 Помехоустойчивость методов икм
- 3.7.4 Методы эффективного кодирования речи
- 3.7.5 Кодирование речи в стандарте cdma
- 3.7.6 Речевые кодеки для ip-телефонии
- 3.7.7 Оценка качества кодирования речи
- 3.8 Общие сведения по мр3
- 3.8.1 Феномен мрз
- 3.8.2 Что такое формат мрз?
- 3.8.3 Качество записи мрз
- 3.8.4 Формат мрз и музыкальные компакт-диски
- 3.8.5 Работа со звукозаписями формата мрз
- 3.9 Основные понятия цифровой звукозаписи
- 3.9.1 Натуральное цифровое представление данных
- 3.9.2 Кодирование рсм
- 3.9.3 Стандартный формат оцифровки звука
- 3.9.4 Параметры дискретизации
- 3.9.5 Качество компакт-диска
- 3.9.6 Объем звукозаписей
- 3.9.7 Формат wav
- 3.10 Формат mp3
- 3.10.1 Сжатие звуковых данных
- 3.10.2 Сжатие с потерей информации
- 3.10.3 Ориентация на человека
- 3.10.4 Кратко об истории и характеристиках стандартов mpeg.
- 3.10.5 Что такое cbr и vbr?
- 3.10.6 Каковы отличия режимов cbr, vbr и abr?
- 3.10.7 Методы оценки сложности сигнала
- 3.10.8 Какие методы кодирования стерео информации используются в алгоритмах mpeg (и других)?
- 3.10.9 Какие параметры предпочтительны при кодировании mp3?
- 3.10.10 Какие альтернативные mpeg-1 Layer III (mp3) алгоритмы компрессии существуют?
- 3.11 OggVorbis
- 3.13 Flac
- 4 Сжатие видео
- 4.1 Общие положения алгоритмов сжатия изображений
- 4.1.1 Классы изображений
- 4.1.2 Классы приложений
- 4.1.3 Требования приложений к алгоритмам компрессии
- 4.1.4 Критерии сравнения алгоритмов
- 4.2 Алгоритмы сжатия
- Gif (CompuServe Graphics Interchange Format)
- 4.3 Вейвлет-преобразования
- 4.3.1 Вейвлеты, вейвлет-преобразования, виды и свойства Вейвлет анализ и прямое вейвлет-преобразование
- Непрерывное прямое и обратное вейвлет-преобразования
- Ортогональные вейвлеты
- Дискретное вейвлет-преобразование непрерывных сигналов
- Кратномасштабный анализ
- Пакетные вейвлеты.
- 4.3.2 Примеры применения вейвлетов Очистка сигнала от шума
- Очистка сигнала от шумов на основе вейвлет-преобразований.
- 4.4 Формат сжатия изображений jpeg
- 2) Дискретизация
- 3) Сдвиг Уровня
- 4) 8X8 Дискретное Косинусоидальное Преобразование (dct)
- 5) Зигзагообразная перестановка 64 dct коэффициентов
- 6) Квантование
- 7) RunLength кодирование нулей (rlc)
- 8) Конечный шаг - кодирование Хаффмана
- 4.5 Jpeg2000
- 4.5.1 Общая характеристика стандарта и основные принципы сжатия
- 4.5.2 Информационные потери в jpeg2000 на разных этапах обработки
- 4.5.3 Практическая реализация
- 4.5.4 Специализированные конверторы и просмотрщики
- 4.5.5 Основные задачи для развития и усовершенствования стандарта jpeg2000
- 4.6 Видеостандарт mpeg
- 4.6.1 Общее описание
- 4.6.2 Предварительная обработка
- 4.6.3 Преобразование макроблоков I-изображений
- 4.6.4 Преобразование макроблоков р-изображений
- 4.6.5 Преобразование макроблоков в-изображений
- 4.6.6 Разделы макроблоков
- 4.7 Mpeg-1
- Параметры mpeg-1
- 4.8 Mpeg-2
- 4.8.1 Стандарт кодирования mpeg-2
- 4.8.2 Компрессия видеоданных
- 4.8.3 Кодируемые кадры
- 4.8.4 Компенсация движения
- 4.8.5 Дискретно-косинусное преобразование
- 4.8.6 Профессиональный профиль стандарта mpeg-2
- 4.9.11 Плюсы и минусы mpeg-4
- 4.10 Стандарт hdtv