logo search
Informatics

3.1. Методы и модели оценки количества информации

Для теоретической информатики информация играет такую же роль, как и вещество в физике. И подобно тому, как веществу можно приписывать довольно большое количество характеристик: массу, заряд, объем и т. д., так и для информации имеется пусть и не столь

большой, но достаточно представительный набор характеристик. Как и для характеристик вещества, так и для характеристик информации имеются единицы измерения, что позволяет некоторой порции информации приписывать числа - количественные характеристики информации.

На сегодняшний день наиболее известны следующие способы измерения информации: объемный, энтропийный и алгоритмический.

Объемный является самым простым и грубым способом измерения информации. Соответствующую количественную оценку информации естественно назвать объемом информации. Объем информации в сообщении - это количество символов в сообщении. Поскольку, например, одно и то же число может быть записано многими разными способами (с использованием разных алфавитов), то этот способ чувствителен к форме представления (записи) сообщения. В вычислительной технике вся обрабатываемая и хранимая информация вне зависимости от ее природы (число, текст, отображение) представлена в двоичной форме (с использованием алфавита, состоящего всего из двух символов 0 и 1). Такая стандартизация позволила ввести две стандартные единицы измерения: бит и байт. Байт - это восемь бит.

В теории информации и кодирования принят энтропийный подход к измерению информации. Этот способ измерения исходит из следующей модели. Получатель информации (сообщения) имеет определенные представления о возможных наступлениях некоторых событий. Эти представления в общем случае недостоверны и выражаются вероятностями, с которыми он ожидает то или иное событие. Общая мера неопределенности (энтропия) характеризуется некоторой математической зависимостью от совокупности этих вероятностей. Количество информации в сообщении определяется тем, насколько уменьшится эта мера после получения сообщения.

Однако в теории информации получила использование другая количественная оценка, а именно - логарифм от описанной выше оценки по основанию 2:

H=log2m, (3.1)

где m -число возможных равновероятных выборов.

К. Шеннону принадлежит обобщение Н на случай, когда Н зависит от вероятностей возможных выборов (для сообщения - вероятности выбора символов). Для количества собственной индивидуальной информации он предложил соотношение

H=-j Pj log2Pj, (3.2)

где Pj - вероятность выбора j-го символа алфавита.

В алгоритмической теории информации (раздел теории алгоритмов) предлагается алгоритмический метод оценки информации в сообщении. Этот метод кратко можно охарактеризовать следующими рассуждениями. Каждый согласится, что слово 0101...01 сложнее слова 00...0, а слово, где 0 и 1 выбираются из эксперимента - бросания монеты (где 0 - герб, 1 - решка), сложнее обоих предыдущих.

Компьютерная программа, производящая слово из одних нулей, крайне проста: печатать один и тот же символ. Для получения 0101...01 нужна чуть более сложная программа, печатающая символ, противоположный только что напечатанному. Случайная, не обладающая ни какими закономерностями последовательность не может быть произведена никакой <короткой> программой. Длина программы, производящей хаотичную последовательность, должна быть близка к длине последней.

Приведенные рассуждения позволяют предположить, что любому сообщению можно приписать количественную характеристику, отражающую сложность (размер) программы, которая позволяет ее произвести.

Так как имеется много разных вычислительных машин и разных к языков программирования (разных способов задания алгоритма), то или определенности задаются некоторой конкретной вычислительной машиной, например машиной Тьюринга (см. раздел <Теория алгоритмов>), а предполагаемая количественная характеристика сложность слова (сообщения) определяется как минимальное число внутренних состояний машины Тьюринга, требующиеся для его воспроизведения. Так же в алгоритмической теории информации используются и другие способы задания сложности.