logo
Курс лекций 230100

3.Представление звуковой информации.

Представление символьной информации в ЭВМ.

Символьная (алфавитно-цифровая) информация хранится и обрабатывается в ЭВМ в форме цифрового кода, то есть каждому символу ставится в соответствие отдельное бинарное слово-код. При выборе метода кодирования руководствуются объемом и способом обработки символьной информации. Так как многие типы информации содержат в значительном объеме цифровую информацию, то применяются две системы кодирования: символьной информации и десятичных чисел.

Необходимый набор символов, предусмотренный в конкретной ЭВМ, обычно включает в себя:

  1. буквально-цифровые знаки алфавита (алфавитов);

  2. специальные знаки (пробел, скобки, знаки препинания и др.);

  3. знаки операций.

Кроме того, в состав набора входят управляющие символы, соответствующие определенным функциям.

Среди наборов символов наибольшее распространение получили знаки кода ASCII (ASCII American Standard Code for Information Interchange) – стандартный американский код обмена информацией и кода EBCDIC (Extended Binary Code Decimal Interchage Code)- расширенный двоично-десятичный код обмена информацией. Набор EBCDIC используется главным образом на «больших» машинах, тогда как набор ASCII, созданный в 1963 г. и введённый в действие институтом стандартизации США (ANSIAmerican National Standart Institute), находит наиболее широкое применение в мини - и микроЭВМ, в том числе в персональных компьютерах.

ASCII – это семиразрядный код, обеспечивающий 128 различных битовых комбинаций. Стандартный знакогенератор современного персонального компьютера IBM PC имеет 8-битовую кодировку символов, состоящую из двух таблиц кодирования: базовой и расширенной. Базовая таблица построена по стандарту ASCII и одинакова для всех IBM-совместимых компьютеров. Расширенная относится к символам с номерами от 128 до 255 и может отличаться на компьютерах разного типа (рис.5.1).

Первые 32 кода базовой таблицы, начиная с нулевого, отданы производителям аппаратных средств (в первую очередь производителям компьютеров и печатающих устройств). В этой области размещаются так называемые управляющие коды, которым не соответствуют никакие символы языков, и соответственно эти коды не выводятся ни на экран, ни на устройства печати, но они могут управлять тем, как производится вывод прочих данных.

Начиная с 32 кода по код 127 размещены коды символов английского алфавита, знаков препинания, цифр, арифметических действий и некоторых вспомогательных символов.

В расширенной таблице стандартной кодировки фирмы IBM три смежные колонки (коды 176…223) занимают символы псевдографики, колонки с кодами от 128 до 175 и от 224 до 239 используются для размещения некоторых символов национальных алфавитов различных европейских языков, а последняя колонка (коды 240…255) для размещения специальных знаков.

С учетом этого расположения символов разрабатывается подавляющее большинство программ зарубежного производства.

032

048

064

080

096

112

128

144

160

176

192

208

224

240

00

0

Р

`

р

00

00

ζ

É

á

│││

α

00

01

!

1

А

Q

a

q

01

01

ü

æ

İ

▌▌▌

β

01

02

«

2

B

R

b

r

02

02

ė

Α

ó

Γ

02

03

#

З

С

S

c

s

03

03

â

ô

ú

03

04

$

4

D

T

d

t

04

04

ä

ö

ñ

04

05

%

5

E

U

e

u

05

05

á

ó

Ñ

σ

05

06

&

6

F

V

f

v

06

06

å

û

μ

÷

06

07

`

7

G

W

g

w

07

07

с

ù

°

Ґ

07

08

(

8

H

X

h

x

08

08

ê

ÿ

¿

۝

ْ

08

09

)

9

I

Y

i

y

09

09

ë

Ö

θ

09

10

`

:

J

Z

j

z

10

10

è

Ü

¬

10

11

+

;

K

[

k

{

11

11

ï

څ

1/2

11

12

,

<

L

\

l

|

12

12

î

1/4

n

12

13

-

=

M

]

m

}

13

13

ì

х

13

14

.

>

N

ˆ

n

14

14

Ä

«

Є

14

15

/

?

О

о

15

15

Å

»

П

15

а) б)

Рис.5.1.

Стандартная кодировка фирмы IBM:

а) для кодов 1…127; б) для кодов 128…255

Для представления букв русского алфавита в рамках ASCII первоначально был разработан ГОСТ-овский вариант кодировки – КОИ-7 (код обмена информацией 7- битный). Расположение символов во второй половине таблицы этой кодировки резко отличается от принятого фирмой

IBM, что затрудняет использование зарубежного программного обеспечения на отечественных ЭВМ. В связи с этим он практически не применяется, а на отечественных ПК введена так называемая ГОСТ - альтернативная кодировка, главное достоинство которой – расположение символов псевдографики на тех же местах, что и в кодировке IBM (рис.5.2).

128

144

160

176

192

208

224

240

00

А

Р

а

р

00

01

Б

С

б

▌▌

с

±

01

02

В

Т

в

██

т

02

03

Г

У

г

у

03

04

Д

Ф

д

ф

04

05

Е

Х

е

х

05

06

Ж

Ц

ж

ц

÷

06

07

З

Ч

з

ч

07

08

И

Ш

и

ш

۫

08

09

Й

Щ

й

щ

09

10

К

Ъ

к



ъ

10

11

Л

Ы

л

ы

11

12

М

Ь

м

ь

n

12

13

Н

Э

н

э

k

13

14

О

Ю

о

ю

14

15

П

Я

п

я

15

Рис.5.2

ГОСТ - альтернативная кодировка

В настоящее время находят широкое применение и другие виды кодировки.

Так, в связи с массовым распространением операционных систем и других продуктов компании Microsoft в нашей стране нашла применение кодировка символов русского языка, известная как кодировка Windows – 1251 (рис.5.3).

128 Ђ

144 ђ

160

176 °

192 А

208 Р

224 а

240 р

129 Ѓ

145 ‘

161 Ў

177 ╧

193 Б

209 С

225 б

241 с

130 ,

146 ’

162 ў

178І

194 В

210 Т

226 в

242 т

131 ѓ

147 “

163 J

179 i

195 Г

211 У

227 г

243 у

132 ,,

148 ”

164 ¤

180 ґ

196 Д

212 Ф

228 г

244 ф

133 …

149 •

165 ґ

181 μ

197 Е

213 Х

229 е

245 х

134 †

150 –

166 ¦

182 ¶

198 Ж

214 Ц

230 ж

246 ц

135 ‡

151 —

167 §

183 ·

199 З

215 Ч

231 з

247 ч

136 €

152 ~

168 Ё

184 ё

200 И

216 Ш

232 и

248 ш

137 ‰

153 тм

169 ©

185 №

201 Й

217 Щ

233 й

249 щ

138 Љ

154 љ

170

186 є

202 К

218 Ъ

234 к

250 ъ

139 ‹

155 ›

171 «

187 »

203 Л

219 Ы

235 л

251 ы

140 Њ

156 њ

172 —

188 j

204 М

220 Ь

236 м

252 ь

141 Ќ

157 ќ

173 –

189 S

205 Н

221 Э

237 н

253 э

142 Ћ

158 ћ

174 ®

190 s

206 О

222 Ю

238 о

254 ю

143 Џ

159 џ

175 Ї

191 ї

207 П

223 Я

239 п

255 я

Рис.5.3.

Кодировка Windows – 1251

Эта кодировка используется на большинстве персональных компьютеров, работающих на платформе Windows.

Другая распространенная кодировка носит название КОИ-8 (код обмена информацией восьмизначный) (рис.5.4) её происхождение относится ко временам действия Совета Экономической Взаимопомощи государств Восточной Европы. Сегодня кодировка КОИ-8 имеет широкое распространение в компьютерных сетях на территории России и в некоторых службах российского сектора Интернета. В частности, в России она де-факто является стандартной в сообщениях электронной почты и телеконференций.

128

144▌▌▌

160—

176 ├

192 ю

208 п

224 Ю

240 П

129 |

145 █

161 Ё

177 ├

193 а

209 я

225 А

241 Я

130 ┌

146 █

162 ┌

178 ┤

194 б

210 р

226 Б

242 Р

131 ┐

147 ⌠

163 ё

179 Ё

195 ц

211 с

227 Ц

243 С

132 └

148 ▄

164 ┌

180 ┤

196 д

212 т

228 Д

244 Т

133 ┘

149 .

165 ┌

181 ┤

197 е

213 у

229 Е

245 У

134 ├

150 √

166 ┐

182 ┬

198 ф

214 ж

230 Ф

246 Ж

135 ┤

151 ≈

167 ┐

183 ┬

199 г

215 в

231 Г

247 В

136 ┬

152 ≤

168 ┐

184 ┬

200 х

216 ь

232 Х

248 Ь

137 ┴

153 ≥

169 └

185 ┴

201 и

217 ы

233 И

249 Ы

138 +

154

170 └

186 ┴

202 й

218 з

234 Й

250 З

139 ─

155 ⌡

171 ┘

187 ┴

203 к

219 ш

235 К

251 Ш

140 ─

156 ∙

172 ┘

188 ┼

204 л

220 э

236 Л

252 Э

141 ▀

157 ²

173 ┘

189 ┼

205 м

221 щ

237 М

253 Щ

142 ▌

158 .

174 ┘

190 +

206 н

222 ч

238 Н

254 Ч

143 ▌

159 ÷

175 ├

191 ё

207 о

223 ъ

239 О

255 Ъ

Рис.5.4.

Кодировка КОИ-8

В последнее время всё большее распространение получает универсальная система кодирования текстовых данных – UNICODE.

В данной системе символы кодируются не восьмиразрядными двоичными числами, а 16-разрядными числами. Шестнадцать разрядов позволяют обеспечить уникальные коды для 65536 различных символов – этого достаточно для размещения в одной таблице всех широко употребляемых языков.

В отличие от символьной для десятичной цифровой информации при байтовой организации в целях экономии памяти и удобства обработки используют специальные форматы кодирования десятичных чисел – зонный и упакованный. При этом десятичные числа рассматриваются как десятичные со знаком, имеющие переменную длину.

В упакованном формате для каждой десятичной цифры отводится по 4 двоичных разряда (полбайта), при этом знак числа кодируется в крайнем правом полубайте числа (1100 – знак «+» и 1101 – знак «-«).

Структура поля упакованного формата:

цф

цф

цф

цф

цф

знак

байт

байт

байт

Упакованный формат применяется обычно в ЭВМ при выполнении операций сложения и вычитания двоично-десятичных чисел.

В зонном (распакованном) формате для каждой десятичной цифры отводится по целому байту, при этом старшие полубайты (зона) каждого байта (кроме самого младшего) в ПК заполняются кодом 0011, а в младших (левых) полубайтах обычным образом кодируются десятичные цифры. Старший полубайт (зона) самого младшего (правого) байта используется для кодирования знака числа.

Структура поля распакованного формата:

зона

цф

зона

цф

зона

цф

зона

цф

байт

байт

байт

байт

Распакованный формат применяется в ЭВМ при вводе-выводе информации в ЭВМ, а так же при выполнении операций умножения и деления двоично-десятичных чисел.

Пример: Число -28310= -0010 1000 00112-10 в ЭВМ будет:

В упакованном формате 0010 1000 0011 1101

В распакованном формате 0011 0010 0011 1000 1101 0011

Представление графической информации.

Современные компьютерные системы способны обрабатывать не только простейшие текстовые и цифровые данные. Они позволяют работать также с изображениями и с аудио- и видеоинформацией. В отличие от методов представления символьной и числовой информации, для представления изображений, аудио- и видеоинформации пока не существует общепризнанных стандартов.

Наиболее распространенные из существующих методов представления изображений можно разделить на две большие категории: растровые методы и векторные методы. При растровом методе изображение представляется как совокупность точек, называемых пикселями (pixel – сокращение от hicture element – элемент изображения). Поскольку линейные координаты и индивидуальные свойства каждой точки (яркость) можно выразить с помощью целых чисел, то можно сказать, что растровое кодирование позволяет использовать двоичный код для представления графических данных. Общепринятым на сегодняшний день считается представление черно-белых иллюстраций в виде комбинации точек с 256 градациями серого цвета, и, таким образом, для кодирования яркости любой точки обычно достаточно восьмиразрядного двоичного числа.

Для кодирования цветных графических изображений применяется принцип декомпозиции произвольного цвета на основные составляющие. В качестве таких составляющих используют три основных цвета: красный (Red, R), зеленый (Green, G ) и синий (Blue.B). На практике считается, что любой цвет, видимый человеческим глазом, можно получить путем механического смешения этих трех основных цветов. Такая система кодирования называется системой RGB (по первым буквам названий основных цветов).

Если для кодирования яркости каждой из основных составляющих использовать по 256 значений (восемь двоичных разрядов), как это принято для полутоновых черно-белых изображений, то на кодирование цвета одной точки надо затратить 24 разряда (рис.3.19)

24 бит

Красный

Зеленый

Синий

8 бит

8 бит

8 бит

Рис.5.5

Кодирование цветного изображения

При этом система кодирования обеспечивает однозначное определение 16,5 миллионов различных цветов, что близко к чувствительности человеческого глаза. Режим представления цветной графики с использованием 24 двоичных разрядов называют полноцветным (True Color).

Графические файлы, в которых применяется цветовая система RGB, представляют каждый пиксель в виде цветового триплера – трех числовых величин (R, G, B), соответствующих интенсивностям красного, зеленого и синего цветов (рис.3.20).

Рис.5.6

Цветовая схема RGB

Для 24-битового цвета триплетом (0, 0, 0) обычно представляется черный цвет, а триплетом (255, 255, 255) – белый. Если все три величины RGB имеют одинаковые значения, например (63, 63, 63), (127, 127, 127) или (191, 191, 191), то результирующим будет один из оттенков серого цвета.

Кроме RGB, другими популярными системами кодирования цветных изображений являются CMY и HSB.

CMY (Cyan-Madenta-Yellow – голубой-пурпурный-желтый) – цветовая система, применяемая для получения цветных изображений на белой поверхности. Эта система используется в большинстве устройств вывода, таких как лазерные и струйные принтеры, когда для получения твердых копий краски наносятся на белую бумагу. При освещении каждый из трех основных цветов поглощает дополняющий его цвет: голубой цвет поглощает красный, пурпурный – зеленый, а желтый – синий. Например, если увеличить количество желтой краски, то интенсивность синего цвета в изображении уменьшится. Новые цвета в системе CMY получают вычитанием цветовых составляющих из белого цвета. Они имеют длину волны отраженного света, не поглощенного основными цветами CMY. Например, в результате поглощения голубого и пурпурного цветов образуется желтый, т.е. можно сказать, что желтый цвет является результатом «вычитания» из отраженного цвета голубой и пурпурной составляющих. Если все составляющие CMY

будут вычтены (или поглощены), то результирующим цветом станет черный. На практике же получить идеальный черный цвет без дорогостоящих красителей в системе CMY весьма сложно.

Существует более практичный вариант CMY – система CMYK, в которой символ К означает черный цвет. Введение в эту цветовую систему черного цвета в качестве независимой основной цветовой переменной позволяет использовать недорогие красители. Систему CMYK часто называют четырехцветной, а результат ее применения – четырехцветной печатью. Во многих моделях точка, окрашенная в составной цвет, группируется из четырех точек, каждая из которых окрашена в один из основных цветов CMYK. Данные в системе CMYK представляются либо цветовым триплетом RGB, либо четырьмя величинами. Если данные представлены цветовым триплетом, то отдельные цветовые величины противоположны величинам RGB. Так, для 24-битового пиксельного значения триплет (255, 255, 255) соответствует черному цвету, а триплет (0, 0, 0) – белому. Однако в большинстве случаев для представления цветов в системе CMYK используется последовательность четырех величин.

Как правило, четыре цветовые составляющие CMYK задаются в процентах в диапазоне от 0 до 100.

Модель HSV (Hue, Saturation, Value – оттенок, насыщенность, величина) – одна из многих цветовых систем, в которых при представлении новых цветов не смешивают основные цвета, а изменяют их свойства. Оттенок – это «цвет» в общеупотребительном смысле этого слова, например красный, оранжевый, синий и т.д. Насыщенность (так же называемая цветностью) определяется количеством белого в оттенке. В полностью насыщенном (100%) оттенке не содержится белого, такой оттенок считается чистым. Частично насыщенный оттенок светлее по цвету. Красный оттенок с 50%-ной насыщенностью соответствует розовому. Величина (также называемая яркостью) определяет интенсивность свечения цвета. Оттенок с высокой интенсивностью является очень ярким, а с низкой – темным.

Модель HSV напоминает принцип, используемый художниками для получения нужных цветов – смешивание белой, черной и серой с чистыми красками для получения различных тонов и оттенков (tint, shаde, lone). Оттенок tint является чистым, полностью насыщенным цветом, смешанным с белым, а оттенок shаde – полностью насыщенным цветом, смешанным с черным. Тон (lone) – это полностью насыщенный цвет, к которому добавлены черный и белый цвета (серый). Если рассматривать систему HSV с точки зрения смеси этих цветов, то насыщенность будет представлять собой

количество белого, величина – количество черного, а оттенок – тот цвет, к которому добавляются белый и черный.

Режим, когда для кодирования цвета каждой точки используется 32 двоичных разряда, также называется полноцветным (True Color). Если уменьшить количество двоичных разрядов, используемых для кодирования цвета каждой точки, то можно сократить объем данных, но при этом

диапазон кодируемых цветов заметно сокращается. Кодирование цветной графики 16-разрядными двоичными числами называют режимом High Color.

При кодировании информации о цвете с помощью восьми бит данных можно передать только 256 цветовых оттенков. Такой метод кодирования цвета называют индексным. Смысл названия состоит в том, что, поскольку 256 значений недостаточно, чтобы передать весь диапазон цветов, доступный человеческому глазу, код каждой точки растра выражает не цвет сам по себе, а только его номер (индекс) в справочной таблице, называемой палитрой. Эта палитра прикладывается к графическим данным.

Одним из недостатков растровых методов является трудность пропорционального изменения размеров изображения до произвольно выбранного значения. В сущности, единственный способ увеличить изображение - это увеличить сами пиксели. Однако это приводит к появлению зернистости – пикселизации.

Векторные методы позволяют избежать проблем масштабирования, характерных для растровых методов. В этом случае изображение представляется в виде совокупности линий и кривых. Вместо того чтобы заставлять устройство воспроизводить заданную конфигурацию пикселей, составляющих изображение, ему передается подробное описание того, как расположены образующие изображение линии и кривые. На основе этих данных устройство, в конечном счете, и создает готовое изображение. С помощью подобной технологии описываются различные шрифты, поддерживаемые современными принтерами и мониторами. Они позволяют изменять размер символов в широких пределах и по этой причине получили название масштабируемых шрифтов. Например, технология True Type, разработанная компаниями Microsoft и Apple Computer, описывает способ отображения символов в тексте. Для подобных целей предназначена и технология Post Script (разработка компании Adobe System), позволяющая описывать способ отображения символов, а так же других, боле общих графических данных.

Векторные методы так же широко применяются в автоматизированных системах проектирования, которые отображают на экране мониторов чертежи сложных трехмерных объектов и предоставляют средства манипулирования ими.

Однако векторная технология не позволяет достичь фотографического качества изображений объектов как при использовании растровых методов.

Представление звуковой информации.

Развитие аппаратной базы современных компьютеров параллельно с развитием программного обеспечения позволяет сегодня записывать и воспроизводить на компьютерах музыку и человеческую речь. Существуют два способа звукозаписи:

Для того чтобы можно было воспользоваться первым указанным способом, в компьютере должна быть звуковая карта (плата).

Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой (сила, интенсивность звука) и частотой (высота тона звука). Частота волны (количество «волн» в секунду) измеряется в герцах (Гц). Чем больше амплитуда сигнала, тем громче звук, чем больше частота сигнала, тем выше тон. Человек воспринимает звуковые волны с частотой из диапазона от 20 Гц до 20 000 Гц.

Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в цифровую последовательность, состоящую из нулей и единиц. Данную функцию выполняет специальный блок, входящий в состав звуковой карты и называемый аналого-цифровым преобразователем (АЦП).

Рис 5.7

Реальные звуковые волны

АЦП производит дискретизацию звукового сигнала по времени путем измерения уровня интенсивности звука несколько тысяч раз в секунду (через равные промежутки времени). Частота, с которой производят измерения звукового сигнала, называется частотой дискретизации. Например, при записи музыкальных компакт-дисков используют частоту дискредитации 44 кГц, а при записи речи вполне достаточно частоты дискредитации 8 кГц.

В результате дискретизации амплитуды звукового сигнала непрерывная зависимость амплитуды от времени А (t) заменяется на дискретную последовательность стандартных (заранее определенных) уровней громкости. Графически это выглядит как замена гладкой кривой на последовательность «ступенек».

Рис 5.8.Дискретизация амплитуды звукового сигнала

Таким образом, в ходе оцифровки звука мы получаем поток целых чисел, представляющих собой номера стандартных амплитуд сигналов. Получившиеся значения записываются в виде 0 и 1 в память компьютера (в файлы с расширением WAV).

Аналоговый электрический сигнал (запись на грампластинке, магнитной ленте) теоретически представляет собой точную копию исходной звуковой волны, а цифровой код – лишь более или менее точное приближение. Тем не менее, цифровая запись имеет множество преимуществ. Так, например, цифровые копии всегда идентичны цифровым оригиналам, а это значит, что записи можно контролировать много раз без ухудшения качества.

При воспроизведении записанного в компьютерный файл звука имеет место обратное преобразование; из дискретной цифровой формы – в непрерывную аналоговую. Это преобразование осуществляет устройство,

находящееся на звуковой плате и называемое цифро-аналоговый преобразователь (ЦАП).

Хранение звука в виде цифровой записи занимает достаточно много места в памяти компьютера. В качестве примера оценим объем файла, в котором хранится стерео-аудио звучание длительностью 1 секунда. При этом при оцифровке звука использовалось 65 536 стандартных уровней звука (для хранения номера уровня требуется 16 бит), а частота дискредитации равна 48 кГц. Следовательно, для хранения в компьютере 1 секунды требуется:

16 бит *48 000*2 = 1 536 000 бит = 192 000 байт = 187,5 Кб.

Умножение на коэффициент 2 связано с тем, что хранится стереозвук.

MIDI-запись была разработана в начале 80-х годов ХХ века (MIDI – Musical Instrument Digital Interfaseинтерфейс цифровых музыкальных инструментов). MIDI- информация представляет собой команды, а не звуковую волну. Эти команды – инструкции синтезатору. В качестве команды музыкальному синтезатору может передаваться указание нажать или отпустить определенную клавишу, изменить высоту или тембр звучания, изменить силу давления на клавиатуру, включить или выключить полифонический режим и т.п. MIDI-команды делают запись музыкальной информации более компактной, чем цифровая запись. Однако для записи MIDI-команд вам потребуется устройство, имитирующее клавишный синтезатор, которое воспринимает MIDI-команды и при их получении может генерировать соответствующие звуки.

Из всех видов информации, представляемых и обрабатываемых в компьютерах, звуковая информация хуже всего поддается упаковке. Это связано с тем, что звуковые сигналы обладают малой избыточностью (в частности, в закодированных звуковых фрагментах редко появляются повторяющиеся последовательности байтов).

Объем звуковых файлов можно сжать в два раза с помощью метода компандирования ( от англ. Compound – состав, составление). Этот метод основан на том, что фактически мы «слышим» логарифм громкости, а не саму громкость. Поэтому при компандировании значение амплитуды звука заменяется на логарифм этого значения. Абсолютная величина амплитуды при 8-битовом кодировании звука не превосходит 2 в седьмой степени, значит логарифм по основанию.