Форматы файлов
Основное назначение файлов -- хранить информацию. Они также предназначены для передачи данных от программы к программе и от системы к системе. Другими словами, файл -- это хранилище стабильных и мобильных данных. Но, файл -- это нечто большее, чем просто хранилище данных. Обычно файл имеет имя, атрибуты, время модификации и время создания.
Понятие файла менялось с течением времени. Операционные системы первых больших ЭВМ представляли файл, как хранилище для базы данных и, поэтому файл являлся набором записей. Обычно все записи в файле были одного размера, часто по 80 символов каждая. При этом много времени уходило на поиск и запись данных в большой файл.
В конце 60-х годов наметилась тенденция к упрощению операционных систем, что позволило использовать их на менее мощных компьютерах. Это нашло свое отражение и в развитии операционной системы Unix. В Unix под файлом понималась последовательность байтов. Стало легче хранить данные на диске, так как не надо было запоминать размер записи.
Unix оказал очень большое влияние на другие операционные системы персональных компьютеров. Почти все они поддерживают идею Unix о том, что файл -- это просто последовательность байтов. Файлы, представляющие собой поток данных, стали использоваться при обмене информацией между компьютерными системами. Если используется более сложная структура файла (как в операционных системах OS/2 и Macintosh), она всегда может быть преобразована в поток байтов, передана и на другом конце канала связи воссоздана в исходном виде.
Итак, мы можем считать, что файл -- это поименованная последовательность байтов.
Файловая структура представляет собой систему хранения файлов на запоминающем устройстве, например, диске. Файлы организованы в каталоги (иногда называемые директориями или папками). Любой каталог может содержать произвольное число подкаталогов, в каждом из которых могут храниться файлы и другие каталоги.
Способ, которым данные организованы в байты, называется форматом файла.
Для того чтобы прочесть файл, например, электронной таблицы, необходимо знать, каким образом байты представляют числа (формулы, текст) в каждой ячейке; чтобы прочесть файл текстового редактора, надо знать, какие байты представляют символы, а какие шрифты или поля, а также другую информацию.
Программы могут хранить данные в файле таким способом, какой выберет программист. Зачастую предполагается, однако, что файлы будут использоваться различными программами. По этой причине многие прикладные программы поддерживают некоторые наиболее распространенные форматы, так что другие программы могут понять данные в файле. Компании по производству программного обеспечения (которые хотят, чтобы их программы стали "стандартами"), часто публикуют информацию относительно форматов, которые они создали, чтобы их можно было бы использовать в других приложениях.
Все файлы условно можно разделить на две части -- текстовые и двоичные.
Текстовые файлы -- наиболее распространенный тип данных во всем компьютерном мире. Для хранения каждого символа чаще всего отводится один байт, а кодирование текстовых файлов выполняют с помощью специальных таблиц, в которых каждому символу соответствует определенное число, не превышающее 255. Файл, для кодировки которого используется только 127 первых чисел, называется ASCII-файлом (сокращение от American Standard Code for Information Intercange -- американский стандартный код для обмена информацией), но в таком файле не могут быть представлены буквы, отличные от латиницы (в том числе и русские). Большинство национальных алфавитов можно закодировать с помощью восьмибитной таблицы. Для русского языка наиболее популярны на данный момент три кодировки: Koi8-R, Windows-1251 и, так называемая, альтернативная (alt) кодировка. Подробнее о кодировании русского текста рассказано в главе "Обработка документов".
Такие языки, как китайский, содержат значительно больше 256 символов, поэтому для кодирования каждого из них используют несколько байтов. Для экономии места зачастую применяется следующий прием: некоторые символы кодируются с помощью одного байта, в то время как для других используются два или более байтов. Одной из попыток обобщения такого подхода является стандарт Unicode, в котором для кодирования символов используется диапазон чисел от нуля до 65 536. Такой широкий диапазон позволяет представлять в численном виде символы языка людей из любого уголка планеты.
Но чисто текстовые файлы встречаются все реже. Люди хотят, чтобы документы содержали рисунки и диаграммы и использовали различные шрифты. В результате появляются форматы, представляющие собой различные комбинации текстовых, графических и других форм данных.
Двоичные файлы, в отличие от текстовых, не так просто просмотреть и в них, обычно, нет знакомых нам слов -- лишь множество непонятных символов. Эти файлы не предназначены непосредственно для чтения человеком. Примерами двоичных файлов являются исполняемые программы и файлы с графическими изображениями.
- Введение
- Информационные процессы
- Информационная деятельность человека
- Технические средства хранения информации
- Кодирование информации
- Единицы измерения информации
- Форматы файлов
- Системы счисления
- Двоичная система счисления
- Двоично-шестнадцатеричная таблица
- Двоично-восьмеричная таблица
- Кодирование текста
- Кодирование графической информации
- Кодирование звука
- Типы и назначение компьютеров
- Магистрально-модульный принцип построения компьютера
- Периферийные и внутренние устройства
- Программный принцип управления компьютером
- Компьютерные вирусы
- Правовая охрана программ и gpl
- Введение
- Операционные системы
- Операционная система ms dos
- Операционная система Linux
- Особенности ос Linux
- Графическая среда kde
- Компоненты рабочего стола
- Использование окон
- Поиск файлов
- Эмулятор терминала
- Команды для работы с файлами
- Переадресация ввода и вывода
- Перемещение по файловой системе
- Права доступа к файлам и каталогам
- Копирование файлов
- Создание и удаление каталогов
- Просмотр содержимого файлов
- Перемещение и переименование
- Удаление файлов
- Работа с дискетой ms dos
- Архивация и сжатие файлов
- Изменение прав доступа к файлам
- Команды для работы с файлами и каталогами
- Фильтры
- Другие полезные команды
- Konqueror - файловый менеджер и браузер
- Программа Midnight Commander (mc)
- Компьютерные сети
- Технология World Wide Web (www)
- Универсальный локатор ресурса (url)
- Браузеры и их назначение
- Поиск информации в Интернет
- Электронная почта (e-mail)
- Настройка почты в Netscape
- Отправка почты
- Получение почты
- Inbox -- пришедшие письма;
- Базовые сетевые утилиты
- Введение
- Растровый формат
- Глубина цвета
- Особенности растровой графики
- Jpeg -- формат
- Средства работы с графикой
- Редактор Paint
- Знакомство с редактором
- Редактирование и преобразование рисунка в Paint
- Набор инструментов для рисования
- Рабочее окно xPaint
- Графический редактор gimp
- Интерфейс программы
- Панель инструментов
- Окно изображения
- Ввод графики в эвм
- Обзор цифровой фототехники
- Виды сканеров, их назначение и характеристики
- Особенности сканирования изображений
- Графические планшеты
- Введение
- Форматы текстовых файлов
- Редакторы plain-текста
- NotePad (Блокнот)
- Редактор kEdit
- Редактор kWrite
- Редактор McEdit
- Текстовый редактор Emacs
- Работа с файлами
- Редактирование
- Клавиатурные макросы
- Дополнительные возможности
- Текстовый процессор ms Word
- Колонтитулы
- Многоколоночный текст
- Вставка графики
- Текстовые эффекты
- Включение математических формул