logo search
Материалы по интерфейсам периферий / Для Скрипко / Для пособия ПУ (Восстановлен) (2)

Тема 1.5. Представление мультимедийных данных

Как и любые другие виды данных, графические данные хранятся, обрабатываются и передаются в закодированном двоичном коде, т.е. в виде большого числа бит – нулей и единиц.

Существуют два принципиально разных подхода к представлению (оцифровке) графических данных:

Для оцифровки графических изображений при растровом представлении вся область данных разбивается на множество точечных элементов – пикселей, каждый из которых имеет свой цвет. Совокупность пикселей называется растром, а изображения, которые формируются на основе растра, называются растровыми.

Число пикселей по горизонтали и вертикали изображения определяет разрешение изображения. Стандартными являются значения 640×480, 800×600, 1024×768, 1280×1024 и др. Каждый пиксель нумеруется, начиная с нуля, слева направо и сверху вниз. Пример представления треугольной области растровым способом показан на рис. 1.5.1.

Рисунок 1.5.1.

Очевидно, что чем больше разрешение, тем точнее будут формироваться графические контуры, при этом естественно возрастает количество пикселей. Увеличение разрешения по горизонтали и вертикали в два раза приводит к увеличению числа пикселей в четыре раза.

При растровом способе представления графических данных под каждый пиксель отводится определенное число бит, называемое битовой глубиной и используемой для кодировки цвета пикселя. Каждому цвету соответствует определенный двоичный код (т.е. код из нулей и единиц).

Например, если битовая глубина равна 1, то под каждый пиксель отводится 1 бит. В этом случае 0 соответствует черному цвету, 1 – белому, а изображение может быть только черно-белым. Если битовая глубина равна 4, то каждый пиксель может быть закодирован цветовой гаммой из 16 цветов (24). При битовой глубине 8 каждый пиксель кодируется одним байтом, при этом количество цветов – 256. Вполне естественно, что с увеличением глубины цвета увеличивается объем памяти, необходимой для хранения графических данных.

Основным недостатком растровой графики является большой объем памяти, требуемый для хранения изображения. Это объясняется тем, что запоминается цвет каждого пикселя, общее число которых определяется заданным разрешением, определяющим качество представления графических данных.

При векторном представлении графических данных задается и впоследствии сохраняется математическое описание каждого графического примитива – геометрического объекта (отрезка, окружности, прямоугольника и т.п.), из которых формируется изображение. Например, для воспроизведения окружности достаточно запомнить положение ее центра, радиус, толщину и цвет линии. Благодаря этому, для хранения векторных графических данных требуется значительно меньше памяти.

Основным недостатком векторной графики является невозможность работы с высококачественными художественными изображениями, фотографиями и фильмами, поэтому основной сферой применения векторной графики является представление в электронном виде чертежей, схем, диаграмм и т.п.

Представление звуковых данных

Слуховой аппарат человека способен различать частотные составляющие звука в среднем в пределах от 20 Гц до ~20 КГц, причем верхняя граница может колебаться в зависимости от возраста и других факторов Звуковая волна, воспринимаемая человеком, представляет собой сложную функцию зависимости амплитуды волны от времени. Сложность этой функции не позволяет задать ее точно математическим выражением или каким-то другим способом для запоминания и обработки в ТСИ. Поэтому звуковая волна представляется путем запоминания значений ее амплитуды в дискретные моменты времени.

Аналоговый (непрерывный) звук представляется в аналоговой аппаратуре непрерывным электрическим сигналом. ТСИ и, в частности, компьютер, оперирует с данными в цифровом виде, т.е. звук в компьютере представляется в цифровом виде.

Цифровой звук – это способ представления электрического сигнала посредством дискретных численных значений его амплитуды.

Оцифровка сигнала включает в себя два процесса – процесс дискретизации (осуществление выборки) и процесс квантования.

Процесс дискретизации (рис. 1.5.2) – это процесс получения значений величин преобразуемого сигнала в определенные промежутки времени.

Квантование (рис. 1.5.3) – процесс замены реальных значений сигнала приближенными с определенной точностью.

Рисунок 1.5.2.

Рисунок 1.5.3.

Таким образом, оцифровка звука – это фиксация амплитуды сигнала через определенные промежутки времени и регистрация полученных значений амплитуды в виде округленных цифровых значений (так как значения амплитуды являются величиной непрерывной, нет возможности конечным числом записать точное значение амплитуды сигнала, именно поэтому прибегают к округлению).

Записанные значения амплитуды сигнала называются отсчетами. Очевидно, что чем чаще брать отсчеты амплитуды (т.е. чем выше частота дискретизации) и чем меньше округлять полученные значения амплитуды (т.е. чем больше уровней квантования), тем более точным будет представление звукового сигнала. При этом существенно возрастет объем хранимой информации. В связи с этим существует проблема выбора между качеством представления сигнала и занимаемым им объемом в оцифрованном виде.

При решении этой проблемы следует руководствоваться известной теоремой Котельникова, согласно которой частота дискретизации устанавливает верхнюю границу частот оцифрованного сигнала, а именно, максимальная частота спектральных составляющих равна половине частоты дискретизации сигнала. Например, чтобы получить полную информацию о звуке в частотной полосе до 22050 Гц, частота дискретизации должна быть не менее 44.1 КГц.

Именно поэтому с учетом возможностей слухового аппарата человека стандартные параметры записи аудио компакт-дисков следующие: частота дискретизации – 44.1 КГц, уровень квантования – 16 бит. Это соответствует 65536 (216) уровням квантования амплитуды при взятии ее значений 44100 раз в секунду.

Для преобразования дискретного (цифрового) сигнала в аналоговый вид, пригодный для обработки аналоговыми устройствами (усилителями и фильтрами) и последующего воспроизведения через акустические системы, служит цифроаналоговый преобразователь (ЦАП). Процесс преобразования представляет собой обратный процесс дискретизации: зная информацию о величине отсчетов (амплитуды сигнала) и используя определенное количество отсчетов в единицу времени, путем интерполирования происходит восстановление исходного сигнала (рис. 1.5.4).

Рисунок 1.5.4.

Представление видеоданных

В наиболее общем и простом случае видеоданные могут быть представлены в цифровом виде как последовательность сменяющих друг друга с определенной скоростью графических образов, соответствующих содержанию видеоряда. Например, стандарт SIF представляет видеосигнал 30 кадрами в секунду с разрешением каждого кадра 352×240 пикселей, а урезанный формат PAL/SECAM – 25 кадров в секунду с разрешением 352×288 пикселей (полноценный стандарт PAL/SECAM имеет параметры в 4 раза больше).

Типичный размер кадра для DVD-фильма в видеостандарте PAL/SECAM составляет 720×576 пикселей при 25 кадрах в секунду и 640×480 пикселей при 30 кадрах в секунду в стандарте NTSC.

Очевидно, что представление видеоданных связано с проблемой аналогичной той, которая возникает при представлении звуковых данных – большим объемом хранимой информации.

Для разрешения этой проблемы при оцифровке видео используются алгоритмы сжатия (кодирования) видеоданных. При кодировании исходного видеоизображения кодек (программа сжатия) выявляет и сохраняет ключевые кадры, на которых происходит смена сюжета. А вместо сохранения промежуточных кадров прогнозирует и сохраняет лишь информацию об изменениях в текущем кадре по отношению к предыдущему.

Наиболее известными алгоритмами сжатия является семейство алгоритмов MPEG (MPEG 1, MPEG 2, MPEG 4).