logo
Сети

2. Энтропия

•Энтропия источника информации с независимыми и равновероятными сообщениями есть среднее арифметическое количеств информации сообщений •H = - sum Pk*log2 Pk где k=1..N, a Pk - вероятность появления k-го сообщения.

•Другими словами, энтропия есть мера неопределенности ожидаемой информации.

Пример

•Пусть имеем два источника информации, один передает двоичный код с равновероятным появлением в нем 1 и О, другой имеет вероятность 1, равную 2-10, и вероятность 0, равную 1-2-10.

•Очевидно, что неопределенность в получении в очередном такте символа 1 или 0 от первого источника выше, чем от второго. Это подтверждается количественно оценкой энтропии: у первого источника Н = 1, у второго приблизительно Н = -2-10*1од22-10 , т.е. значительно меньше.

3. Коэффициент избыточности сообщения

•Коэффициент избыточности сообщения А определяется по формуле

•г = (Imax - l)/lmax,

•где I - количество информации в сообщении А, Imax - максимально возможное количество информации в сообщении той же длины, что и А.

•Пример избыточности дают сообщения на естественных языках, так, у русского языка г находится в пределах 0,3...0,5.

•Наличие избыточности позволяет ставить вопрос о сжатии информации без ее потери в передаваемых сообщениях.

4. Основные используемые коды

• Широко используются двоичные коды: •EBCDIC (Extended Binary Coded Decimal Interchange Code) - символы кодируются восемью битами; популярен благодаря его использованию в IBM;

•ASCII (American Standards Committee for Information Interchange) - семибитовый двоичный код.

•Оба этих кода включают битовые комбинации для печатаемых символов и некоторых распространенных командных слов типа NUL, CR, АСК, NAK и др.

Русский текст

•Для кодировки русского текста нужно вводить дополнительные битовые комбинации. Семибитовая кодировка здесь уже недостаточна. В восьмибитовой кодировке нужно под русские символы отводить двоичные комбинации, не занятые в общепринятом коде, чтобы сохранять неизменной кодировку латинских букв и других символов.

•Так возникли кодировка КОИ-8, затем при появлении персональных ЭВМ - альтернативная кодировка и при переходе к Windows - кодировка 1251. Множество используемых кодировок существенно усложняет проблему согласования почтовых программ в глобальных сетях.