logo
Теория информации

4. Количественное измерение информации

Любые сообщения измеряются в байтах, килобайтах, мегабайтах, гигабайтах, терабайтах, петабайтах и эксабайтах, а кодируются, например, в компьютере, с помощью алфавита из нулей и единиц, записываются и реализуются в ЭВМ в битах.

Приведем основные соотношения между единицами измерения сообщений:

1 бит (binary digit – двоичное число) = 0 или 1,

1 байт = 8 бит,

1 килобайт (1Кб) = 210 байт = 213 бит,

1 мегабайт (1Мб) = 220 байт = 223 бит,

1 гигабайт (1Гб) = 230 байт = 233 бит,

1 терабайт (1Тб) = 240 байт = 243 бит,

1 петабайт (1Пб) = 250 байт = 253 бит,

1 эксабайт (1Эб) = 260 байт = 263 бит.

Пример. Найти неизвестные х и у, если верны соотношения:

Выравниваем единицы измерения информации:

Подставляя в уравнения и отбрасывая размерности информации, получаем:

Отсюда получаем систему двух алгебраических уравнений:

или, решая эту систему, окончательно получаем, x = –76,5, у = –56,5.

Для измерения информации используются различные подходы и методы, например, с использованием меры информации по Р. Хартли и К. Шеннону.

Количество информации – число, адекватно характеризующее разнообразие (структурированность, определенность, выбор состояний и т.д.) в оцениваемой системе. Количество информации часто оценивается в битах, причем такая оценка может выражаться и в долях бит (так речь идет не об измерении или кодировании сообщений).

Мера информации – критерий оценки количества информации. Обычно она задана некоторой неотрицательной функцией, определенной на множестве событий и являющейся аддитивной, то есть мера конечного объединения событий (множеств) равна сумме мер каждого события.

Рассмотрим различные меры информации.

Возьмем меру Р. Хартли. Пусть известны N состояний системы S (N опытов с различными, равновозможными, последовательными состояниями системы). Если каждое состояние системы закодировать двоичными кодами, то длину кода d необходимо выбрать так, чтобы число всех различных комбинаций было бы не меньше, чем N:

.

Логарифмируя это неравенство, можно записать:

.

Наименьшее решение этого неравенства или мера разнообразия множества состояний системы задается формулой Р. Хартли:

(бит).

Пример. Чтобы определить состояние системы из четырех возможных состояний, то есть получить некоторую информацию о системе, необходимо задать 2 вопроса. Первый вопрос, например: "Номер состояния больше 2?". Узнав ответ ("да", "нет"), мы увеличиваем суммарную информацию о системе на 1 бит (). Далее необходим еще один уточняющий вопрос, например, при ответе "да": "Состояние – номер 3?". Итак, количество информации равно 2 битам ().

Если во множестве искать произвольный элемент, то для его нахождения (по Хартли) необходимо иметь не менее (единиц) информации.

Уменьшение Н говорит об уменьшении разнообразия состояний N системы.

Увеличение Н говорит об увеличении разнообразия состояний N системы.

Мера Хартли подходит лишь для идеальных, абстрактных систем, так как в реальных системах состояния системы не одинаково осуществимы (не равновероятны).

Для таких систем используют более подходящую меру К. Шеннона. Мера Шеннона оценивает информацию отвлеченно от ее смысла:

,

где n – число состояний системы; рi – вероятность (относительная частота) перехода системы в i-е состояние, а сумма всех pi должна равняться 1.

Если все состояния рассматриваемой системы равновозможны, равновероятны, то есть , то из формулы Шеннона можно получить (как частный случай) формулу Хартли:

.

Пример. Если положение точки в системе из 10 клеток известно, например, если точка находится во второй клетке, то есть рi = 0, i = 1, 3, 4, …, 10, р2 = 1. Получаем количество информации, равное нулю, т.е. .

Обозначим величину .

Тогда из формулы К. Шеннона следует, что количество информации I можно понимать как среднеарифметическое величин fi , то есть величину fi можно интерпретировать как информационное содержание символа алфавита с индексом i и величиной pi вероятности появления этого символа в любом сообщении (слове), передающем информацию.

Положительная сторона формулы Шеннона – ее отвлеченность от смысла информации. Кроме того, в отличие от формулы Хартли, она учитывает различность состояний, что делает ее пригодной для практических вычислений. Основная отрицательная сторона формулы Шеннона – она не распознает различные состояния системы с одинаковой вероятностью.

Контрольный тест №4:

  1. Минимально необходимое для записи целого числа 224 количество байт, равно

    1. 4

    2. 3

    3. 24

    4. 5

  2. Количество информации, содержащееся в одном разряде двоичного числа, равно…

    1. 2 бита

    2. 2 байта

    3. 1 байт

    4. 1 бит

  3. Укажите упорядоченную по убыванию последовательность значений

    1. 4 байта, 3 байта, 30 бит

    2. 3 байта, 30 бит, 4 байта

    3. 4 байта, 30 бит, 3 байта

    4. 30 бит, 4 байта, 3 байта

  4. Укажите упорядоченную по возрастанию последовательность значений

    1. 2 байта, 10 бит, 20 бит

    2. 10 бит, 20 бит, 2 байта

    3. 10 бит, 2 байта, 20 бит

    4. 20 бит, 10 бит, 2 байта

  5. Выберите вариант, в котором объемы памяти расположены в порядке убывания.

    1. 1010 байт, 2 байта, 1 Кбайт, 20 бит, 10 бит

    2. 1 Кбайт, 1010 байт, 20 бит, 2 байта, 10 бит

    3. 1010 байт, 1 Кбайт, 2 байта, 20 бит, 10 бит

    4. 1010 байт, 1 Кбайт, 20 бит, 2 байта, 10 бит

  6. Выберите вариант, в котором объемы памяти расположены в порядке возрастания.

    1. 15 бит, 20 бит, 2 байта, 1 Кбайт, 1010 байт

    2. 15 бит, 2 байта, 20 бит, 1 Кбайт, 1010 байт

    3. 15 бит, 2 байта, 20 бит, 1010 байт, 1 Кбайт

    4. 15 бит, 20 бит, 2 байта, 1010 байт, 1 Кбайт

  7. Выберите вариант, в котором единицы измерения информации расположены в порядке возрастания.

    1. гигабайт, мегабайт, терабайт

    2. терабайт, мегабайт, гигабайт

    3. мегабайт, терабайт, гигабайт

    4. мегабайт, гигабайт, терабайт

  8. Выберите вариант, в котором единицы измерения информации расположены в порядке убывания.

    1. гигабайт, мегабайт, килобайт

    2. килобайт, гигабайт, мегабайт

    3. килобайт, мегабайт, гигабайт

    4. мегабайт, гигабайт, килобайт

  9. Выберите вариант, в котором единицы измерения информации расположены в порядке убывания.

    1. килобайт, гигабайт, терабайт

    2. терабайт, мегабайт, килобайт

    3. гигабайт, мегабайт, терабайт

    4. мегабайт, терабайт, килобайт