Лекции по информатике для заочников

6.Единицы информации

ЭВМ может обрабатывать информацию, представленную только в числовой форме. Любая другая информация (текстовая, графическая) преобразуется в числовую. Так, например, при вводе текста, каждый символ кодируется определенным числом (существуют специальные таблицы кодировки, наиболее известные и распространенные коды ASCII), а при выводе наоборот, каждому числу соответствует изображение определенного символа.

Поскольку ЭВМ работают в двоичной системе счисления, то все числа представляются с помощью двух цифр - 0 и 1. Поэтому, несмотря на особенности каждого вида информации, общим для них является использование при кодировании двоичной системы счисления. Недостаток двоичного кодирования – длинные коды. Но в технике легче иметь дело с большим числом простых однотипных элементов, чем с небольшим числом сложных.

Такой двоичный разряд, принимающий значение 0 или 1, называется битом. Бит – это наименьшая единица информации в ЭВМ.

Восемь двоичных разрядов позволяют закодировать 2⁸=256 символов, этого достаточно, чтобы закодировать любую букву, цифру или служебный символ. Нажатие клавиши на клавиатуре приводит к тому, что сигнал посылается в компьютер в виде двоичного числа, которое хранится в кодовой таблице. Кодовая таблица символов – это внутреннее представление символов в компьютере. Во всем мире в качестве стандарта принята таблица ASCII (American Standart Code for Information Interchange) – Американский стандартный код для обмена информацией.

Первые 128 символов (от 0 до 127) – это цифры, прописные и строчные буквы латинского алфавита, управляющие символы. Вторая половина кодовой таблицы (от 128 до 255) предназначена для национальных символов (в том числе кириллицы), математических символов и так называемых псевдографических символов, которые используются для рисования рамок.

Например, для символа 0 двоичный код – 00110000

А (лат.) – 01000001

А (рус.) – 10000000.

В разных странах, на разных моделях компьютеров могут использоваться и разные варианты второй половины кодовой таблицы.

Нужно иметь в виду три особенности алфавита в кодовой таблице и их следствия:

прописные и строчные буквы представлены разными кодами, т.е. “А” и “а” – разные объекты;
при упорядочивании слов по алфавиту сравниваются между собой десятичные коды букв. Например, код латинских букв “меньше” чем русских.
Латинские и русские буквы имеют разные коды, хотя некоторые визуально неразличимы.

Итак, компьютер способен распознавать только значения бита. Однако он редко работает с конкретными битами в отдельности, а совокупность из 8 битов, воспринимаемая компьютером как единое целое, называется байтом.

Вся работа компьютера – это управление потоками байтов, которые вводятся в компьютер с клавиатуры, считываются с дисков или передаются по линии связи, преобразовываются по командам программ, записываются на постоянное хранение на магнитный диск или выводятся на экран дисплея или бумагу в виде символов: букв, цифр, значков.

Для хранения двоичного кода одного символа выделен 1 байт памяти, равный восьми битам. Следующими более крупными единицами информации являются:

1 Кб (килобайт) = 1024 б (байт)

1 Мб (мегабайт) = 1024 Кб

1 Гб (гигабайт) = 1024 Мб.

1 Тб (терабайт) = 1024 Гб

Одна средняя страница текста занимает около 2 Кб памяти.

Количественное измерение информации

Двоичные символы могут кодироваться любым способом: буквами А, Б; словами ДА, НЕТ, двумя устойчивыми состояниями системы и т.д. Однако ради простоты записи были взяты цифры 1 и 0. Обработка информации в ЭВМ основана на обмене электрическими сигналами между различными устройствами машины. В компьютере, хранящем, либо обрабатывающем информацию, рассматриваемые символы 0 и 1 могут также обозначаться по-разному: один из них - наличием в рассматриваемом элементе электрического тока, либо магнитного поля, второй - отсутствием электрического тока, либо магнитного поля.

Таким образом, в ЭВМ реализуются два устойчивых состояния. Эти два устойчивых состояния информационной системы определяют единицу измерения информации, называемую БИТОМ. Количество информации, кодируемое двоичной цифрой - 0 или 1, называется битом. Благодаря введению понятия единицы информации появилась возможность определения размера любой информации числом битов.

Процесс получения двоичной информации об объектах исследования называют кодированием информации. Кодирование информации перечислением всех возможных событий очень трудоемко. Поэтому на практике кодирование осуществляется более простым способом. Он основан на том, что один разряд последовательности двоичных цифр имеет уже вдвое больше различных значений - 00, 01, 10, 11, чем одноразрядные 0 и 1. Трехразрядная последовательность имеет также вдвое больше значений - 000, 001, 010, 011, 100, 101, 110, 111, чем двухразрядная и т.д. Добавление одного разряда увеличивает число значений вдвое, это позволяет составить следующую таблицу информационной емкости чисел:

Таблица 1. Информационная емкость чисел

1	2	3	4	5	6	7	8
2	4	8	16	32	64	128	256
9	10	11	12	13	14	15	16
512	1024	2048	4096	8192	16384	32768	65536

Пользуясь вышеприведенной таблицей легко закодировать любое множество событий. Например, нам нужно закодировать 32 буквы русского алфавита, для этой цели достаточно взять пять разрядов, потому что пятиразрядная последовательность имеет 32 различных значения.

Для измерения больших объемов информации пользоваться битами неудобно. Поэтому применяются кратные биту единицы измерения информации:

Кодирование различных типов информации

С помощью набора битов, можно представить любое число и любой знак. В информационных документах широко используются не только русские, но и латинские буквы, цифры, математические знаки и другие специальные знаки, всего их количество составляет примерно 200-250 символов. Поэтому для кодировки всех указанных символов используется восьмиразрядная последовательность цифр 0 и 1. Таким образом, текстовая информация кодируется с помощью кодовой таблицы.

Кодовая таблица – это внутреннее преставление символов в компьютере. Во всем мире в качестве стандарта принята таблица ASCII – Американский стандартный код для обмена информацией. Для хранения двоичного кода одного символа выделен 1 байт = 8 бит.

Следует отметить, что указанный способ кодирования используется тогда, когда к нему не предъявляются дополнительные требования, такие как необходимость указать на возникшую ошибку, исправление ошибки, секретность информации. При специальном кодировании коды получаются длиннее, чем в указанной таблице.

Наиболее просто кодируется числовая информация – она переводится в двоичную систему исчисления.

Для представления графической информации в двоичной форме используется так называемый поточечный способ. На первом этапе вертикальными и горизонтальными линиями делят изображение. Чем больше при этом получилось квадратов, тем точнее будет передана информация о картинке. Как известно из физики, любой цвет может быть представлен в виде суммы различной яркости зеленого, синего, красного цветов. Поэтому информация о каждой клетке должна содержать кодировку значения яркости и количеств зеленого, синего и красного компонентов. Таким образом кодируется растровое изображение – изображение, разбитое на отдельные точки. Объем растрового изображения определяется умножением количества точек на рисунке на информационный объем одной точки, который зависит от количества возможных цветов отображения (для черно-белого изображения информационный объем одной точки равен 1 биту и кодируется двумя цифрами – 0 или 1). Разные цвета и их оттенки получаются за счет наличия или отсутствия трех основных цветов – красного, синего, зеленого и их яркости. Каждая точка на экране кодируется с помощью 4 битов.

Векторное изображение кодируется разбиением рисунка на элементарные отрезки, геометрические фигуры и дуги. Положение этих элементарных объектов определяется координатами точек. Для каждой линии указывается ее тип (сплошная, пунктирная, штрих- пунктирная ), толщина и цвет. Информация о векторном изображении кодируется как обычная буквенно-цифровая и обрабатывается специальными программами.

Звуковая информация может быть представлена последовательностью элементарных звуков и пауз между ними. Вывод звуков из компьютера осуществляется синтезатором речи, который считывает из памяти хранящийся код звука. Речь человека имеет большое разнообразие оттенков, поэтому каждое произнесенное слово должно сравниваться с предварительно занесенным в память компьютера эталоном, и при их совпадении происходит его распознавание и запись.

Содержание