стр 103-113

Информация, энтропия и избыточность при передаче данных

Связь количества информации и энтропии сообщения, введенные К.Шенноном, имеет большой практический интерес. Если мы рассматриваем информацию как числовой параметр, выражающий энтропию некоторого сообщения или результатов проводимого эксперимента то, очевидно, мы можем рассматривать энтропию как меру вероятности, случайности. Тогда, необходимое количество битов для кодировки одного символа (энтропия), например, английского алфавита, содержащего 26 букв и знак пропуска, равна log₂ 27 = 4,76 бита на символ. Учтем неравномерность использования букв английского алфавита (вероятность встретить букву “e” в 12 раз выше, чем букву “s”, учтем вероятность следования определенных сочетаний), получим:

H= - (P₁log₂P₁+ P₂log₂P₂ +……+P₂₆log₂ P₂₆)

Это значение средней длины кода называется энтропией распределения вероятности, т.к. это мера количества порядка (или беспорядка) в кодах, представляющих символ языка. Вычисленное Шенноном значение энтропии алфавита английского языка равно 3,3 бита на символ. Другими словами избыточность английского языка равна 70% (сравнение с 4,76 битов на символ). Отсюда можно сделать интересные практические выводы:

если в английском тексте каждая вторая буква потеряна или изменена в результате помех, ничего страшного, есть возможность полного восстановления текста;
нет необходимости использовать 8 бит кода ASCII для передачи каждого символа, поэтому можно применить один или несколько алгоритмов компрессии, тем самым временно уменьшая избыточность.

Вообще говоря, тема компрессии (сжатии) данных чрезвычайно важна при передаче цифровых сообщений и здесь расчет энтропии играет ключевую роль. Все современные модемы, аппаратура связи для IP-телефонии и многое другое имеют встроенные механизмы компрессии данных.

Тема эта чрезвычайно интересна, но нам пора приступить к рассмотрению тех прикладных свойств информации, которые являются абсолютно необходимыми в изучении компьютера и компьютерных технологий.

Содержание