logo
лекция авто

Раздел 2

Машиночитаемые документы.

Лекция №2

Технотронная документация

Термины: «документ», «электронный документ», «файлы машиночитаемых данных», «банки данных», «архивы машиночитаемых данных», «архив», «машиночитаемый источник», «метаданные” “контекст”, «формат данных». Определения машиночитаемых документов, разработанные в исторической науке, сфере управления и документирования управленческой деятельности и в архивной отрасли.

Термины: «документ», «электронный документ», «файлы машиночитаемых данных», «банки данных», «архивы машиночитаемых данных», «архив», «машиночитаемый источник», «метаданные” “контекст”.

В архивоведении под документом издавна понимался материальный объект, содержащий зафиксированную на нем информацию. Это находило и до сих пор находит отражение в ряде нормативных и законодательных актов. При таком подходе внимание архивистов должно было сосредотачиваться в основном на операциях с носителями информации: их учете, размещении в архивохранилище, обеспечении надлежащих условий хранения, передаче во временное пользование. Однако в современную эпоху перечисленные мероприятия не исчерпывают всего многообразия архивных работ (не говоря уже о делопроизводственных), а экспертиза ценности, описание, выявление и учет использования документов оперируют не столько "объекто-материальными", сколько информационными смысловыми категориями.

Несоответствие между термином "документ" и реальностью, которую он был призван отражать, стало особенно заметно с разрушением советской системы и попытками наладить в России жизнь на основе строгих правовых отношений. В этих условиях понадобилось переосмыслить его определение с информационной точки зрения. В принятом в 1995 г. законе Российской Федерации "Об информации, информатизации и защите информации" документ трактуется как "зафиксированная на материальном носителе информация с реквизитами, позволяющими ее идентифицировать". Акцент здесь смещается с носителя информации на саму информацию. Все действия над документами теперь следует оценивать с точек зрения информационной целостности и информационной безопасности. В дальнейшем это определение вошло в некоторые ГОСТы и методические указания, связанные с делопроизводством и архивоведением.

Существует и другой подход к понятию "документа", характерный для зарубежной, в первую очередь, англоязычной литературы. В "Словаре архивной терминологии", изданном в 1988 г. Международным советом по делам архивов (МСА), можно найти следующее определение: "Документ (Document) - комбинация носителя и записанной на нем или в нем информации, которая может иметь доказательную или справочную ценность". Тем самым провозглашается органическое единство и неразрывная связь между носителем и документированной информацией. Однако гораздо большее распространение в зарубежной делопроизводственной и архивной практике получило другое определение: "Документ (Record) - записанная информация (document), в независимости от формы или носителя, созданная, полученная и сохраняемая организациями, институтами и индивидуумами в обеспечение своих законных прав и обязанностей или для проведения деловых операций". Такое определение во многом сближается с отечественными понятиями "служебный документ" и "архивный документ". В нем важно то, что документ создается, а главное сохраняется, для каких-то конкретных целей и деловых отношений в обществе. Необходимо обратить внимание на то, что при анализе зарубежной литературы следует отличать понятие "record" (запись) от более общего "document".

Недавно группа американских юристов, архивистов и специалистов в области информационных технологий предложила ввести в практику правительственных и судебных учреждений США следующее определение: "Документ - информация, созданная на некотором носителе некоторой техникой, известной в настоящее время или могущей быть изобретенной в будущем". По их мнению, такое обобщенное понятие поможет избежать в будущем переработку законов, в связи с появлением новых технологий записи и представления информации.

Переходя к непосредственному рассмотрению электронных документов, следует указать на их технологическую специфику. Специфика заключается в том, что человек не может воспринимать эти документы в той физической

форме, в какой они хранятся на носителе информации. Электронная информация закодирована совокупностью электрических импульсов и представляется в понятном пользователю виде (как распечатка, на экране монитора и т.п.) только после декодирования с помощью программных алгоритмов, управляющих работой электронно-вычислительных машин.

Понятие "электронный документ" вслед за "документом" прошло в своем развитии также несколько стадий. Хотя этот термин появился давно, активно употреблять его начали относительно недавно. До этого в отечественной и зарубежной литературе общепринятыми были термины "машиночитаемый документ" (МЧД) и "документ на машинном (или магнитном) носителе" (ДМН).

Сначала под МЧД понимали "документ, пригодный для автоматического считывания содержащейся в нем информации". Это соответствовало реалиям 70-х годов, когда информацию, созданную большими ЭВМ, записывали и хранили на перфокартах или бобинах с магнитной лентой.

На Западе определение было более детализированным, например: "МЧД (machine-readable records) - закодированные документы (records), записанные на таких носителях как магнитный диск, магнитная лента и т.п., содержание которых доступно только с применением ЭВМ";*1 "ДМН - информация, которая передается и сохраняется электронными средствами в процессе обмена данными".*2 С начала 90-х годов указания на тип носителя и средство представления информации проникли и в отечественную терминологию: ДМН - это "документы, предназначенные для восприятия человеком с помощью соответствующих программных и аппаратных средств";*3 "все виды документов, представленные (записанные) на машинных носителях";*4 наконец, документы, созданные с использованием носителей и способов записи, обеспечивающих обработку его информации ЭВМ".

Таким образом, учитывая современное понятие "документа", а также специфику продуцирования электронных данных, можно дать рабочую характеристику: электронный документ - это зафиксированная на электронном носителе информация, которая записывается, сохраняется, передается и представляется в приемлемой для человека форме с помощью технологий, поддерживаемых электронно-вычислительными машинами, и которая содержит реквизиты, позволяющие ее идентифицировать. При этом под электронным носителем понимается материальный носитель, предназначенный для записи и хранения информации посредством электронно-вычислительной техники.

В современной литературе, доступной отечественным исследователям, лишь немногие работы так или иначе касаются вопроса о составляющих электронного документа (ЭД). В основном эти работы принадлежат зарубежным архивистам. Кеннет Тибодо, например, выделяет три компонента ЭД: содержание - информация, содержащаяся в документе; структура - способ организации содержания документа (вид документа, размещение и композиция его частей, способ кодирования); контекст - связь между документом и другими материалами.

С таким составом ЭД согласуется мнение Дэвида Бирмена, который, впрочем, по иному определяет контекст. Кроме того, он предлагается инкорпорировать в состав ЭД так называемые метаданные как необходимое условие для поддержания их доказательной силы и долговременного хранения. Метаданные, по Д. Бирману, описывают как компоненты ЭД, так и их включенность в деловые процессы и разделяются на шесть "слоев" описания: "регистрация" - утверждение уникальности документа и его идентификация, т.е. делопроизводственные реквизиты; "термины и условия" - условия доступа к документу; "структура" - определение формата записи и другая информация, необходимая программному обеспечению для воспроизведения ЭД; "контекст" - информация, утверждающая и гарантирующая доказательную силу документа; "содержание" - описание содержания документа; "история использования" - регистрация того, когда и как документ использовался.*2 Выделение Д. Бирменом метаданных как самостоятельного компонента ЭД оправдано самой технологией их создания и представления. Однако малоубедительным выглядит расширенное толкование этого термина, включение в него, наряду с технологическим, и делопроизводственного аспекта описания.

Иной подход избрали Лучана Дуранти и Хизер Макнейл. Они рассматривают ЭД с документоведческой и архивоведческой точек зрения и предлагают следующие компоненты: носитель информации; физическая форма - конфигурация электронных систем и структура электронных документов, в соответствии с которыми возможен технологический доступ и прочтение документа; интеллектуальная форма - вид документа (текст, графика, имидж, звук и т.п.) и его делопроизводственные реквизиты; ответственные лица - автор, адресат, составитель документа, а также фондообразователь и "оригинатор" (владелец электронного пространства в рамках информационной системы или сети); действие - деловой процесс, который документируется; контекст - административно-правовые условия осуществления деловой операции; архивные связи - связь документа с предшествующими и с последующими документами, относящихся к общему деловому процессу; содержание. Как видим, авторы избегают термина "метаданные". Особую ценность работе Дуранти и Макнейл придает то, что они показывают специфику каждого компонента ЭД. Например, носитель электронной информации, по их мнению - это не средство для передачи (перемещения) документа, а скорее условие его существования; изменение физической формы ЭД не обязательно ведет к изменению других частей документа, а значит к утрате его аутентичности; своеобразие делопроизводственных реквизитов ЭД заключается в том, что они могут фиксироваться совершенно автоматически, без какого-либо вмешательства человека; содержание виртуальных документов нестабильно во времени и это создает серьезные препятствия для сохранения такой информации.

Суммируя изложенное, можно сказать, что вышеназванные специалисты выделяют четыре составляющих электронных документов: содержание; атрибуция и определение деловых процессов, связанных с документированием; данные технологического характера; носитель информации. Все это вполне согласуется с характеристикой электронного документа, которая дана выше. Пользуясь этим определением, можно дать предложения по обозначению компонентов ЭД (хотя бы условно), чтобы в дальнейшем избежать терминологической путаницы:

- содержание - информация, которая документируется;

- контекст - деловые, правовые, делопроизводственные, технические, архивные реквизиты, в которых фиксируются разнообразные моменты создания и жизни документа;

- метаданные - технологическая информация, необходимая программному обеспечению для управления данными и представления документа в удобном для человека (декодированном) виде;

- носитель информации.

Важность технологической составляющей электронных документов требует особого к ней внимания. Понимание того, как физически организована информация на диске компьютера, как содержимое документа предстает перед пользователем и что может с ним произойти при изменении технических характеристик, помогает глубже вникнуть в проблемы аутентичности, классификации, экспертизы ценности и, конечно, обеспечения долговременного хранения ЭД.

Собственно метаданными являются лишь данные, включенные в состав ЭД программным обеспечением. Основные понятия здесь: тип данных, структура данных, формат данных и протокол передачи данных.

Типы данных определяются значениями, которые эти данные могут принимать, и базовыми операциями над ними. Среди них есть простые и составные типы. К простым типам относятся: символьные данные - простая последовательность символов, которые можно вставлять, замещать, удалять, искать или сравнивать по образцу; числовые данные - символы или совокупность символов, над которыми совершают арифметические операции; изображения (графические данные) - комбинации точек (пикселов), представляющих собой цифровое выражение яркости и цвета (вернее, яркости цвета); логические (бинарные) данные - принимают значения "1" или "0", т.е. "да" или "нет", "истинно" или "ложно". Наиболее распространенными составными типами данных являются: календарные даты - по существу, тройки целых чисел, каждое из которых может принимать значения лишь в определенных диапазонах; геометрические объекты - множество точек, представляющих собой совокупность чисел-координат в 2- или 3-мерном пространстве; массивы данных (векторы, матрицы и т.п.) - многомерные, упорядоченные путем простой нумерации совокупности числовых данных.

Структурой данных называют множество допустимых типов данных и отношений между ними. Существует несколько уровней структур данных. Первый из них - это структура элементов данных внутри записи. Запись определяется как семантически наполненная совокупность данных, характеризующих тот или иной объект, а элемент данных - фрагмент логически целостной однотипной информации. Запись может состоять как из однотипных, так и разнотипных элементов, разным способом обособленных друг от друга. В свою очередь совокупность однотипных или разнотипных записей, разделенных специальными управляющими символами, образует второй уровень структуры данных - файл. Наконец, разные файлы также могут быть неким образом связаны между собой (третий уровень). Различают несколько структур данных: линейная, иерархическая, сетевая, реляционная, объектная.

Формат данных - это способ описания элементов и структуры данных. Поэтому формат зависит "от двух факторов: 1) типа, состава и структуры данных; и 2) набора управляющих символов, стандарта описания и языка программирования. Естественно, что разные типы и структуры данных будут описываться по разному и для работы с ними необходимы разные типы программного обеспечения: текстовые процессоры, издательские системы, электронные таблицы, статистические пакеты, СУБД, графические редакторы, геоинформационные системы и т.д. Но и однотипные программы зачастую генерируют отличные друг от друга форматы. Это связано с обеспечением авторских прав, которые защищают новые технологические приемы, и с предпочтением, которое разработчики отдают тому или иному языку программирования. В итоге, только современных, т.е. действующих, форматов насчитывают несколько сотен.

Разнообразие форматов данных порождает проблему совместимости программных продуктов. Попытка загрузить в программу файл чужеродного формата как правило приводит к невозможности адекватно отразить и полноценно использовать документ. Чтобы осуществить обмен данными, формат нужно полностью перепрограммировать, т.е. конвертировать. Не со всякими форматами это удается сделать. Для этого необходимо знать используемые в программе коды. Открытость кодировки, открытость форматов данных, выработка единых стандартов описания - острейшие организационные проблемы компьютерной отрасли. За открытость форматов выступают пользователи и мелкие разработчики информационных систем, против нее - коммерческие интересы крупнейших производителей программного обеспечения. Последние мотивируют свою позицию тем, что такой шаг снизит доходность отрасли, а значит снизит капиталовложения в нее и темпы развития в целом. Операционная среда (ОС) MS Windows представляет собой типичный образец закрытости форматов. Другая ОС - UNIX создавалась и изначально развивалась как открытая система, но в начале 80-х годов ее разработчики перешли на коммерческую основу. В последнее десятилетие появилась новая мощная система, использующая идеологию открытых форматов - Linux Она уже стала настолько популярной, что на рынке программных приложений теснит не только UNIX, но и продукцию такого компьютерного гиганта как Microsoft.

Соревнование между открытыми и закрытыми системы, вероятно, будет продолжаться всегда. Главное в нем, чтобы наконец появился хотя бы один широко распространенный открытый формат. Пока же при обмене данными пользуются широко распространенными, признанными де-факто закрытыми форматами. Для текстовых документов такими форматами (в разных целях использования) являются ASCII, RTF и HTML, для реляционных таблиц - DBF, для графических файлов - TIFF.

Протокол передачи данных - это комплекс правил, реализуемых при подготовке файлов для передачи их по телекоммуникационным каналам. Наиболее распространенными протоколами являются FTP - для передачи текста и программного обеспечения и TCP/IP - для представления в Интернете многих типов данных.

Итак, метаданные позволяют представить электронную информацию перед пользователем в "нормальном" виде. То, можно ли эту информацию рассматривать в качестве документа и каков его статус, зависит, в большей мере, не от техники, а от общеметодических подходов к управлению документацией.