История развития теории сжатия информации
В сороковых годах двадцатого века ученые, работающие в области информационных технологий, ясно поняли, что можно разработать такой способ хранения данных, при котором дисковое пространство будет расходоваться более экономно. Клод Шеннон, изучая нюансы различий между семантикой (semantics) (что некая сущность значит) и синтаксисом (syntax) (как некая сущность выражается), разработал большинство базовых понятий этой теории. Понимание того, что одно и то же значение (семантика) может быть реализовано различными способами (синтаксис), приводит к закономерному вопросу: «Какой способ выражения чего-либо является наиболее экономичным?» Поиск ответа на этот вопрос привел Шеннона к мысли об энтропии, которая, проще говоря, соотносится с количеством, содержащейся в файле полезной информации. Методы сжатия пытаются увеличивать энтропию файла, то есть уменьшать длину файла, сохраняя при этом всю информацию.
Однако Шеннон не был первым, кто задумывался о сущности информации и определении ее количества. Первый шаг на этом пути сделал в 1928 г. Хартли. Основной полученный им результат можно сформулировать примерно так: если в заданном множестве, содержащем N элементов, выделен некоторый элемент х, о котором известно лишь, что он принадлежит этому множеству, то, чтобы найти х, необходимо получить количество информации, равное log2 N. Эту формулу обычно называют формулой Хартли. Формула Хартли является частным случаем более общей формулы Шеннона, позволяющей найти количество информации в случайном сообщении фиксированного алфавита. Пусть Xl, ..., Xn – символы этого алфавита, Pl, ..., Pn – вероятности их появления в тексте сообщения, тогда формула Шеннона принимает вид:
Н = P1*log2 (1 / Pl) + ... + Pn*log2 (1 / Pn),
где Н – количество бит информации в одном символе сообщения, или энтропия символа сообщения. Это число показывает минимальное среднее число бит, необходимых для представления одного символа алфавита данного сообщения.
В некоторых случаях алфавит сообщения может быть неизвестен, тогда выдвигаются гипотезы об алфавите сообщения. Имея разные алфавиты, можно достичь разных коэффициентов сжатия. Например, текстовый файл, если его рассматривать как последовательность битов, имеет энтропию порядка 0.7 – 0.9, если как последовательность байтов, – 0.5 – 0.7, хотя популярные программы сжатия уменьшают размеры текстовых файлов до 0.3 – 0.4 от исходного размера.
Доказательство Шеннона не было конструктивным, т.е. не содержало способа построения этих оптимальных кодов, а лишь показывало их существование. До появления работы Шеннона, кодирование символов алфавита при передаче сообщения по каналам связи осуществлялось одинаковым количеством бит, получаемым по формуле Хартли. С появлением этой работы начали появляться способы, кодирующие символы разным числом бит в зависимости от вероятности появления их в тексте. Например, часто в файлах некоторые значения байта встречаются чаще других. Таким образом, за счет использования для каждого значения байта кода различной длины можно значительно уменьшить общий размер данных. Эта базовая идея лежит в основе алгоритмов сжатия Шеннона-Фано (Shannon-Fano) и Хаффмана (Huffman). Подобные алгоритмы выбирают более короткие коды для часто встречающихся и более длинные для редко встречающихся значений байта. Обычно текстовые файлы (в которых одни значения байтов повторяются гораздо чаще других) они сжимают довольно хорошо.
Более тридцати лет алгоритм сжатия Хаффмана и его варианты оставались наиболее популярными методами. Однако в 1977 два исследователя из Израиля предложили совершенно другой подход к этой проблеме. Абрахам Лемпел и Якоб Зив выдвинули идею формирования «словаря» общих последовательностей данных. При этом сжатие данных осуществляется за счет замены записей соответствующими кодами из словаря. Существуют два алгоритма, в настоящее время известные как LZ77 и LZ78. Они уже не требуют включения словаря данных в архив, так как если вы формируете ваш словарь определенным способом, программа декодирования может его восстанавливать непосредственно из ваших данных. К сожалению, LZ77 и LZ78 тратят много времени на создание эффективного словаря. Лемпел был приглашен фирмой Sperry для оказания им помощи в разработке способа наиболее эффективной упаковки данных на компьютерных лентах. В этой же фирме Терри Велч (Terry Welch) расширил алгоритм LZ78, создав новый вариант, широко известный, как LZW.
На работу Велча обратила внимание группа программистов Unix и использовала его алгоритм в их приложении LZW, получившем вполне естественное название compress. Они добавили несколько усовершенствований и опубликовали общедоступную версию этой программы в телеконференции Internet, благодаря чему многие пользователи смогли начать с ней работать. Популярность алгоритма LZW в значительной степени связана с успехом программы compress. Исходный текст последней версии программы, осуществляющей как сжатие, так и декомпрессию, занимает всего 1200 строк. Ядро кода сжатия занимает не более сотни строк, а код декомпрессии не намного больше. Программисты считают, что это облегчает чтение и понимание алгоритма, а также позволяет адаптировать его для самых разных целей. Алгоритмы LZ-стиля (включая LZW, LZ77, LZ78 и многие другие варианты) очень популярны везде, где требуется универсальное сжатие. LZW используется в стандарте модема V.42bis, протоколе передачи данных ZModem, форматах GIF, ТIFF, АRС и других прикладных программах. Другие алгоритмы LZ используются в дисковых утилитах сжатия типа DoubleSpace и Stacker, графических форматах типа PNG, а также в универсальных утилитах архивирования и сжатия, включая ZIP, GZIP и LHA .
- Институт туризма и гостеприимства
- А. К. Антонов, о. В. Пузырева
- Часть 2
- Оглавление
- Лекция 14 компьютерные сети. Составляющие компьютерных сетей
- Классификация сетей
- Сетевое программное обеспечение
- Локальные компьютерные сети. Преимущества работы в ней
- Топология сети
- Сеть моноканальной топологии
- Сеть кольцевой топологии
- Сеть звездообразной топологии
- Программное обеспечение локальной сети
- Сетевые операционные системы
- Доступ пользователей к ресурсам сети
- Служба каталогов NetWare
- Именование объектов nds
- Печать в сети
- Контрольные вопросы к лекции 14
- Лекция 15 глобальные компьютерные сети
- Глобальные компьютерные сети в финансово-экономической деятельности
- Российские сети информационных и финансовых телекоммуникаций (обзор)
- Банковские сети и системы межбанковских расчетов
- Внутригосударственные межбанковские системы различных стран
- Международные сети межбанковских сообщений
- Компьютерные сети для проведения операций с ценными бумагами
- Структура глобальной сети
- Структура Интернет
- Принципы работы глобальной сети Архитектура сети
- В прикладной уровень прикладной уровень иртуальное соединение
- Физическое соединение
- Маршрутизация
- Адресация в Интернет
- Доменная система имен
- Управление передачей в Интернет
- Протокол tcp/ip
- Подключение индивидуального компьютера
- Услуги Интернет
- Электронная почта
- Общие принципы работы системы электронной почты
- Структура почтового сообщения
- Передача файлов
- Получение услуг сети через удаленный компьютер
- Телеконференции
- Интерактивное общение пользователей на естественном языке
- Служба World Wide Web (www)
- Вид_информационного_ресурса://доменное_имя_хост-компьютера/имя_каталога/имя_подкаталога/имя_файла
- Поиск информации в Интернет
- Обработка нужных документов
- Подключение к Интернет. Основные понятия
- Установка модема
- Подключение к компьютеру поставщика услуг Интернет
- Контрольные вопросы к лекции 15
- Лекция 16 Информационная безопасность. Каналы утечки информации. Анализ возможных каналов утечки информации
- 2.1. Случайные угрозы
- Преднамеренные умышленные угрозы
- Традиционный шпионаж и диверсии
- Несанкционированный доступ к информации
- Электромагнитные излучения и наводки
- Несанкционированная модификация структур
- Вредительские программы
- Неформальная модель нарушителя
- Компьютерные преступления
- Компьютерное пиратство. Хакеры
- Категории пиратов
- Обходной путь
- Логические бомбы
- Троянский конь
- Экранный имитатор
- Вирусные программы
- Обнаружение несанкционированного доступа
- Предупреждение преступлений
- Контрольные вопросы к лекции 16
- Лекция 17 Системы защиты информации (сзи). Компоненты (сзи) Структура информационной системы
- 4. Средства хранения и обработки информации:
- 5. Средства передачи информации:
- Защищенная ис и система защиты информации
- Компоненты системы защиты информации
- 1. Защита информации от утечки по техническим каналам:
- 2. Безопасность информационных технологий:
- 3. Организационно-режимные мероприятия:
- Основные направления обеспечения безопасности информационных систем
- 1. Правовая защита:
- Классификация способов защиты конфиденциальной информации
- Мероприятия по защите информации. Общие процедуры обеспечения сохранности информации
- Совокупность методов, средств и мероприятий по защите информации
- Правовое регулирование в области безопасности информации Направления деятельности государства в области защиты информации
- Законодательная база информатизации общества
- Общая характеристика организационных методов защиты информации в информационных системах
- Опыт законодательного регулирования проблем защиты информации в других странах
- Контрольные вопросы к лекции 17
- 1. Назовите основные направления обеспечения безопасности информационных систем.
- Лекция 18
- Средства защиты информации
- Криптографические методы защиты информации
- Асимметричные системы с открытым ключом
- Компьютерная стеганография
- Принципы построения компьютерной стеганографии
- Парольная защита операционных систем
- Электронная цифровая подпись
- Защита сети с помощью биометрических систем Теоретические основы биометрии
- Контрольные вопросы к лекции 18
- Лекция 19
- Компьютерные вирусы. Методы защиты от компьютерных вирусов. Антивирусные программы
- Защита от компьютерных вирусов
- Определение компьютерного вируса
- Вирус – саморазмножающаяся искусственная конструкция
- Авторы вирусных программ
- Классификация компьютерных вирусов
- Методы обнаружения и удаления компьютерных вирусов Комплекс боязни вирусов
- Основные методы защиты от компьютерных вирусов
- Профилактика вирусного заражения
- Источники заражения Глобальные сети – электронная почта.
- Основные правила защиты
- Проблема защиты от макровирусов
- Антивирусные программы Критерии оценки антивирусных программ
- I. Для домашнего пользователя
- II. Для среднего и малого бизнеса
- Компания 3ao «диалогнаука»
- Антивирусная защита домашнего пк и рабочих станций
- Действия при заражении вирусом
- Лечение компьютера
- Лечение дисков
- Профилактика против заражения вирусом
- Проверка поступающих извне данных:
- Защита от загрузочных вирусов:
- Контрольные вопросы к лекции 19
- Лекция 20
- Архиваторы
- История развития теории сжатия информации. Создание архивов. Архиватор WinRar.
- История развития теории сжатия информации
- Создание архивов
- Архиватор WinRar
- Контрольные вопросы к лекции 20
- Тесты к курсу лекций по дисциплине «Информатика»
- Г). Измерение ее величины в байтах
- Е). Увеличение тезауруса
- А) 1 кбайт, 1010 байт, 20 бит, 2 байта, 10 бит б) 1010 байт, 1 Кбайт, 20 бит, 2 байта, 10 бит
- 29. Тезаурусный метод оценки количества информации основан на:
- 30. Под угрозой безопасности информации понимают
- 31. К случайным угрозам безопасности информации относят
- 32. К преднамеренным угрозам безопасности информации относят
- Б) технические средства и программные приложения
- Б) Обработка статистической информации в) математическая обработка информации
- Г) программа
- 111. Если ячейка содержит «#знач!», то:
- 112. Понятие алгоритма определяется как…
- 113. Наиболее наглядным способом записи алгоритма является
- А) условие и оператор, выполняемый в случае истинности условия
- Г) только условие