Программные средства для сжатия данных (архивация). Самораспаковывающиеся архивы. Многотомные архивы. Теоретические основы сжатия данных (виды сжатия, коэффициент сжатия).
Архивация – это сжатие файлов, то есть уменьшение их размера.
Термин "архивация" не совсем точен. Главное назначение программ-архиваторов - сжатие файлов с целью экономии памяти. Поскольку со сжатыми файлами часто невозможно работать по их прямому назначению, их используют для хранения копий файлов, т.е. для их архивации. Сжатию (уплотнению) могут быть подвергнуты: файлы, папки, диски. Сжатие файлов и папок необходимо либо для их транспортировки, либо для резервного копирования, либо для обмена информацией по сети Интернет. Уплотнение дисков применяют для повышения эффективности использования их рабочего пространства (обычно для дисков недостаточной емкости).
Самораспаковывающийся или самоизвлекающийся архив (англ. self-extracting archive, сокращённо «SFX archive») — файл, компьютерная программа, объединяющая в себе архив и исполняемый код для его распаковки. Такие архивы, в отличие от обычных, не требуют отдельной программы для их распаковки (получения исходных файлов, из которых они созданы), если исполняемый код можно выполнить в указанной операционной системе. Это удобно, когда неизвестно, есть ли у пользователя, которому передаётся архив, соответствующая программа распаковки.
Основной способ использования самораспаковывающихся архивов — создание программ для установки ПО без использования систем управления пакетами.
Исполняемый код, присоединённый к архиву, может представлять собой полноценную программу распаковки. Так как существует вероятность выполнения кода распаковщика, самораспаковывающийся архив или замаскированный под него файл может использоваться для распространения вредоносного ПО.
Многотомный архив — архив компьютерных программ и данных, разбитый на несколько частей (томов).
В утилитах сжатия с возможностью задания объёма томов есть много преимуществ. Во-первых, такое позволяет человеку скачать файл по частям в удобное для себя место. Это создаёт ещё удобство и тем, что в случае повреждения только одного тома оно может быть устранено без повторной закачки всех томов. Во-вторых, работа с томами позволяет сжимать данные по размеру тома для совместимости со съёмными накопителями. Например, архивное сжатие в части размером 700 Мб облегчит запись на CD. Или часто возникает необходимость разбить архив на «куски» (тома). Например, мы сжали файлы в архив, чтобы перенести их на дискетах, однако после сжатия размер архива превышает размер одной дискеты. Другой пример: почтовый сервер позволяет присоединять к письму по несколько файлов, однако размер каждого файла должен быть не более 1 Мб.
Коэффициент сжатия — основная характеристика алгоритма сжатия. Она определяется как отношение объёма исходных несжатых данных к объёму сжатых, то есть: , где k — коэффициент сжатия, So — объём исходных данных, а Sc — объём сжатых. Таким образом, чем выше коэффициент сжатия, тем алгоритм эффективнее. Следует отметить:
если k = 1, то алгоритм не производит сжатия, то есть выходное сообщение оказывается по объёму равным входному;
если k < 1, то алгоритм порождает сообщение большего размера, нежели несжатое, то есть, совершает «вредную» работу.
Ситуация с k < 1 вполне возможна при сжатии. Принципиально невозможно получить алгоритм сжатия без потерь, который при любых данных образовывал бы на выходе данные меньшей или равной длины. Обоснование этого факта заключается в том, что поскольку число различных сообщений длиной n бит составляет ровно 2n, число различных сообщений с длиной меньшей или равной n (при наличии хотя бы одного сообщения меньшей длины) будет меньше 2n. Это значит, что невозможно однозначно сопоставить все исходные сообщения сжатым: либо некоторые исходные сообщения не будут иметь сжатого представления, либо нескольким исходным сообщениям будет соответствовать одно и то же сжатое, а значит их нельзя отличить. Но даже когда алгоритм сжатия увеличивает размер исходных данных, легко добиться того, чтобы их объём гарантировано не мог увеличиться более, чем на 1 бит. То есть сделать так, чтобы даже в самом худшем случае имело место неравенство: Делается это следующим образом: если объём сжатых данных меньше объёма исходных, возвращаем сжатые данные, добавив к ним «1», иначе возвращаем исходные данные, добавив к ним «0»).
Коэффициент сжатия может быть как постоянным (некоторые алгоритмы сжатия звука, изображения и т. п., например А-закон, μ-закон, ADPCM, усечённое блочное кодирование), так и переменным. Во втором случае он может быть определён либо для каждого конкретного сообщения, либо оценён по некоторым критериям:
средний (обычно по некоторому тестовому набору данных);
максимальный (случай наилучшего сжатия);
минимальный (случай наихудшего сжатия);
или каким-либо другим. Коэффициент сжатия с потерями при этом сильно зависит от допустимой погрешности сжатия или качества, которое обычно выступает как параметр алгоритма. В общем случае постоянный коэффициент сжатия способны обеспечить только методы сжатия данных с потерями.
Объекты сжатия
В зависимости от того, в каком объекте размещены данные, подвергаемые сжатию, различают:
уплотнение (архивацию) файлов. Применяют для уменьшения их размеров при подготовке к передаче по каналам электронных сетей или к транспортировке на внешнем носителе малой емкости, например на гибком диске.
уплотнение (архивацию) папок. Используют как средство архивации данных перед длительным хранением, в частности, при резервном копировании.
уплотнение дисков. Служит целям повышения эффективности использования их рабочего пространства и, как правило, применяется к дискам, имеющим недостаточную емкость.
В основе любого способа сжатия лежит модель источника данных, или, точнее, модель избыточности. Иными словами, для сжатия данных используются некоторые априорные сведения о том, какого рода данные сжимаются. Не обладая такими сведениями об источнике, невозможно сделать никаких предположений о преобразовании, которое позволило бы уменьшить объём сообщения. Модель избыточности может быть статической, неизменной для всего сжимаемого сообщения, либо строиться или параметризоваться на этапе сжатия (и восстановления). Методы, позволяющие на основе входных данных изменять модель избыточности информации, называются адаптивными. Неадаптивными являются обычно узкоспециализированные алгоритмы, применяемые для работы с данными, обладающими хорошо определёнными и неизменными характеристиками. Подавляющая часть достаточно универсальных алгоритмов являются в той или иной мере адаптивными.
Все методы сжатия данных делятся на два основных класса:
Сжатие без потерь
Сжатие с потерями
При использовании сжатия без потерь возможно полное восстановление исходных данных, сжатие с потерями позволяет восстановить данные с искажениями, обычно несущественными с точки зрения дальнейшего использования восстановленных данных. Сжатие без потерь обычно используется для передачи и хранения текстовых данных, компьютерных программ, реже — для сокращения объёма аудио- и видеоданных, цифровых фотографий и т. п., в случаях, когда искажения недопустимы или нежелательны. Сжатие с потерями, обладающее значительно большей, чем сжатие без потерь, эффективностью, обычно применяется для сокращения объёма аудио- и видеоданных и цифровых фотографий в тех случаях, когда такое сокращение является приоритетным, а полное соответствие исходных и восстановленных данных не требуется.
- 1. Определение информатики. Появление и становление информатики. Источники информатики.
- 2. Предмет, задачи и методы информатики. Экономическая информатика.
- 4. История развития вычислительной техники.
- 5. Информационное общество. Роль информатизации в развитии общества.
- 6.Информационный потенциал общества.
- 7.Информационные ресурсы общества.
- 8.Информационные продукты и услуги.
- 9.Рынок информационных продуктов и услуг.
- 10.Информация. Данные. Технократический, антропоцентрический, недетерминированный подходы к информации.
- 11. Единицы информации. Свойства информации.
- 12.Классификация информации (по способу восприятия человеком, по способу отображения, по функциям управления, по стадиям обработки, по стабильности, по месту возникновения и т.Д.).
- 13. Экономическая информация. Особенности экономической информации.
- 14. Кодирование информации.
- 15.Информационные процессы: понятие, этапы.
- 16.Классификация компьютеров.
- 17. Поколения эвм.
- 18. Понятие архитектуры и структуры компьютера. Структурная схема персонального компьютера.
- 19.Состав системного блока (назначение и характеристики основных устройств).
- 20.Материнская плата. Устройства, входящие в состав материнской платы, их назначение и характеристики.
- 21.Устройства для хранения информации (назначение, виды и основные характеристики).
- Нжмд(накопитель на жестких магнитных дисках)
- Flash-карта
- Оптические cd,dvd,bd
- Магнитно-оптические диски
- Внутренние:
- Cmos-память
- Периферийные устройства вывода данных:
- 25.Программный продукт и программное обеспечение. Характеристика программного продукта. Программа.
- 26. Категории специалистов, занятых разработкой программ.
- 28. Жизненный цикл программного продукта. Защита программных продуктов.
- 29. Системное программное обеспечение (сервисное и базовое). Состав, назначение, примеры
- 30. Операционные системы: назначение, классификация, примеры
- 31. Прикладные программы: назначение, классификация, примеры.
- 3.1. Классификация.
- 3.1.1. Инструментальные программные средства общего назначения.
- 3.1.2. Инструментальные программные средства специального назначения.
- 32. Интегрированный программный продукт Microsoft Office (состав, назначение, особенности использования).
- 33. Операционная система windows. Основные объекты и приемы управления windows. Главное меню. Окна.
- 34. Понятие файловой структуры. Файлы и папки. Операции с файловой структурой
- 35. Стандартные программы windows. Служебные приложения Основные стандартные утилиты Windows xp (программы из группы стандартные)
- 1.Возможности текстового процессора Word
- 2.Средства автоматизации
- Например – автозамена.
- Автоматическое создание и предварительный просмотр стилей
- 38. Электронные таблицы Microsoft Excel. Общие сведения об электронных таблицах (интерфейс, возможности, назначение, средства для автоматизации обработки информации).
- 40. Понятие моделирования и модели. Цель и задачи моделирования.
- 41. Виды моделирования. Уровни моделирования. Моделирование в экономике.
- 42. Системы счисления ( позиционные, непозиционные)
- 45. Примеры логических функций. Таблицы истинности. Приоритет выполнения логических операций. Примеры вычисления задач
- 1) Логическое умножение или конъюнкция:
- 2) Логическое сложение или дизъюнкция:
- 3) Логическое отрицание или инверсия:
- 4) Логическое следование или импликация:
- 5) Логическая равнозначность или эквивалентность:
- 46. Алгоритм: определение , свойства алгоритмов
- 47. Способы описания алгоритмов. Типовые алгоритмические конструкции. Примеры.
- 48. Средства программирования. Языки программирования высокого и низкого уровня. Обзор языков программирования высокого уровня.
- 49. Базы данных. Модели хранения данных.
- Реляционные базы данных. Основные понятия реляционных баз данных.
- 51. Этапы создания базы данных. Информационно-логические модели баз данных. Создание межтабличных связей, их назначение, виды. Обеспечение целостности данных.
- Типы связей информационных объектов
- 52. Требования нормализации.
- 53. Субд Microsoft Access. Свойства полей базы данных.
- Субд Microsoft Access Основные объекты (таблицы, запросы, формы, отчеты), их назначение и способы создания. Типы данных.
- Понятие компьютерной сети. Вычислительные и информационные сети.
- Компоненты компьютерной сети. Характеристики сети.
- Классификация компьютерных сетей по разным признакам. Локальные и глобальные сети.
- Логическая структура сети (базовая модель открытых систем). Характеристика уровней передачи данных.
- Протоколы (понятие, виды).
- Топология локальных сетей. Шинная топология
- Топология типа “звезда”
- Топология “кольцо”
- Топология Token Ring
- Каналы передачи данных.
- Интернет. Основные понятия. История и перспективы развития Интернет.
- История развития интернета в России
- Перспективы развития интернета в мире и в России
- Адресация в сети Интернет. Адресация информационных ресурсов. Url-адреса. Адресация компьютеров. Доменная система имен. Адресация в сети Интернет
- Адресация компьютеров к адресу узла сети и схеме его назначения можно предъявить несколько требований.
- Службы (сервисы) Интернет (обзор, наименования, назначения)
- Www: основные понятия. Поиск информации в World Wide Web. Поисковые системы (назначение, обзор, технология работы на примере …).
- Электронная почта. Функции почтовых клиентов. Технология приема и отправки сообщений.
- Прием сообщений электронной почты
- Отправка сообщений электронной почты через Интернет
- Необходимость защиты информации. Понятие угрозы информационной безопасности. Виды угроз информационной безопасности.
- Защита информации на уровне государства. Законодательная база.
- Защита информации от несанкционированного доступа. Методы и средства защиты информации. Комплексная система защиты информации. Защита информации при работе в Интернет.
- Безопасность пользователя при работе с компьютером. Техника безопасности.
- Компьютерные вирусы: понятие, классификация, признаки заражения компьютера, средства защиты от компьютерных вирусов.
- Программные средства для сжатия данных (архивация). Самораспаковывающиеся архивы. Многотомные архивы. Теоретические основы сжатия данных (виды сжатия, коэффициент сжатия).