logo search
Шпоры автоматизация и моделирование в ИД Сулим

20. Информационные свойства текста

Количество информации в дискретных сообщениях определяется буквой N и равно mn.

Текстовая информация очень широко используется в АСУ. Например, при выдаче данных о состоянии объектов, о значении параметров технологического процесса. Для этого используются специфические англоязычные тексты, которые применяются при составлении программ на языках более высокого уровня.

В процессе работы все источники и приемники сообщений обладают дискретными свойствами. Они создают и передают сообщение последовательно, символ за символом. Если бы все символы алфавита были равновероятными, то энтропия была бы равной для кириллицы. Вероятности появления последующих символов значительно зависит от предыдущих.

4,35 бит/зн – русский, для немецкого алфавита при равновероятном появлении знаков 4,75 бит/зн., а с учетом реальных вероятностей 4,11 бит/зн.

При ручном наборе количество шрифтовых знаков набора должно было быть не меньше вероятности их появления в русском языке. Значение частоты буквенных сочетаний позволяет совершенствовать методику кодирования текста за счет создания многокодовых клавиш. Одной из статистических характеристик текстов является избыточность текста.

Мера избыточности:

,

где Нмакс – максимально возможная энтропия при равновероятном появлении знаков. Н – энтропия реальная, с учетом вероятности появления знаков и их сочетаний. С одной стороны, избыточность требует дополнительных затрат на их передачу и увеличение объемов памяти и так далее. Каналы передачи информации, которые конструируются без учета ограничений с отсутствием помех, используется всего на 30 %.