logo search
Билет 2 ч

Билет № 19 Технология цифровых библиотек (генерация данных, каталогизация, архивация, хранение цифрового материала, обеспечение доступа) Цифровые библиотеки

В настоящее время число цифровых документов в мире исчисляется миллиардами.

Рост массивов имел скачкообразный характер и произошел примерно за пятнадцать - двадцать лет. Существует, однако, один косвенный показатель – динамика выпуска микрофильмов с 1950 по 2005 год в Европе и Америке. График показывает рост выпуска микрофильмов до начала девяностых годов.

Массивы электронных документов в национальных библиотеках

Генерация данных (оцифровка)

Основным техническим устройством оцифровки является преобразователь данных из аналоговой в цифровую форму (сканнер или цифровая камера). В ходе преобразования видимое изображение раскладывается на систему прямоугольных матриц, состоящих из точек (пикселей). Конденсация этих точек зависит от используемой фото детекторной матрицы, характеристик сканирующего устройства, и, в первую очередь, от разрешающей способности сканера, иначе говоря, количества пикселей на дюйм линии. (dpi – dot per inch).

Цифровое изображение, таким образом, – это электронная фотография, представляющая собой набор элементов (пикселей), расположенных в определенном порядке по вертикальным и горизонтальным линиям экрана. Количество пикселей на единице площади определяет разрешение изображения. Каждый пиксель имеет определенное значение яркости, которое зависит от того, какой уровень света, отраженный от документа – источника, воспринимается светочувствительными диодами сканирующего устройства (charge-coupled device (CCD)). При световой экспозиции они создают соответствующее электрическое напряжение, которое посредством аналоговой / цифровой конверсии генерирует серию цифровых сигналов, представленных в бинарных кодах.

Наименьшая единица информации, хранящейся в компьютере, называется битом (бинарное значение). Количество битов, которые используются для представления каждого пикселя в изображении, определяет число цветов или оттенков серого цвета, которые могут быть представлены в цифровом изображении. Это называется битовая глубина (bit-depth). Чем больше значение этого показателя, тем выше качество цветопередачи.

Цифровые изображения также известны как изображения посредством распределенных битов или растровые изображения – их надо отличать от других типов файлов, таких, например, как векторные файлы, в которых изображение кодируется математическими формулами, описывающими линии и кривые.

Поскольку изображения с высоким разрешением могут занимать большой объем памяти, возникает необходимость в их сжатии (компрессии). После сканирования физического документа, все данные конвертируются в особый формат хранения. Существует много таких форматов, некоторые из них предполагают сжатие при хранении. Графические файлы содержат также техническую информацию в области файла, которую называют заголовок (“header”).

Задача любой программы оцифровки заключается в том, чтобы зафиксировать и представить существенную информацию, содержащуюся в документе или собрании документов. Для фиксации существенных частей документа оценка качества цифровых образов должна основываться на сравнении между цифровым изображением и оригинальным документом, а не на неопределенных представлениях, что является достаточным, чтобы удовлетворить непосредственные нужды пользователя.

В момент разработки ЭБ всегда следует определить уровень, на котором осуществляется поиск цифровых изображений. Существующие метаданные, такие как поисковые средства, индексы и т.д. должны быть видимы при обзоре, и при соответствии определенному уровню, связываться с нужным файлом с графическим изображением. Необходимо так же продумать, каким образом организовывать те метаданные, которые образуются в ходе оцифровки.

В качестве матричных файлов-изображений (иначе, мастер-имиджей, т.е. изображений, которые создаются при оцифровке, а затем могут быть преобразованы в другие форматы) чаще всего применяется формат TIFF (Tagged image file format). В этом, как и в некоторых других форматах, например, в GIF, программа, используемая сканнером, генерирует набор меток (тэгов) с технической и административной метаинформацией (метаданными), которая записывается собственно в файле в формате ASCII, благодаря чему, использование файла не зависит от программной платформы.

Таким образом, устанавливается связь между физическим документом, процессом оцифровки и электронным изображением.

Создание ЭБ означает, прежде всего, предоставление пользователям доступа к электронным изображениям. Традиционные библиотеки повсеместно используют в качестве стандартного набора метаданных форматы MARC, но в других сферах культуры эти форматы не используются. Новым требованиям отвечает формат Dublin Core Metadata, разработанный в начале 90-х годов для Веб-ресурсов. Он содержит 15 элементов описания, и является наиболее широко используемым средством описания метаданных.

Архивирование, консервация и хранение цифрового материала.

Архивирование – набор функций, которые позволяют при необходимости восстановить прежнее состояние информации.

В цифровой среде следует предусмотреть три направления архивации:

1. Архивация операционных систем

2. Архивация актуального состояния баз данных сервера генерации данных

3. Архивация электронных документов

Ни у кого нет сомнения в необходимости первых двух направлений.

Архивирование электронных документов

Что необходимо для цифрового хранения?

1) Организация.

2) Программно-аппаратное обеспечение

3) Метаданные, описывающие сохраняемый документ:

4) Обеспечение постоянного доступа к сохраняемым материалам:

Сохраняемые материалы, как правило, разнородны (тексты, графика, аудио, видео материалы)

Необходима поддержка программной среды, позволяющей использовать эти материалы

Стратегии хранения, обеспечивающие постоянный доступ к данным

  1. Миграция данных.

Под миграцией понимается конвертирование данных, приспособление их к новой версии программного средства. Однако, в ходе конвертирования данных некоторая часть информации теряется, в результате цифровой объект с течением времени несколько меняется

Стратегии хранения, обеспечивающие постоянный доступ к данным

2.Эмуляция

Под эмуляцией понимается имитация оригинальной программной среды в новой программной среде. При этом сохраняемые материалы остаются неизменными.

Управление цифровыми объектами (Digital Object Management - DOM)

Так называемая «идеальная» схема организации обработки, хранения и использования электронных документов (DOM) приводится по публикации Ричарда Мастерса (Британская Библиотека)

Долговременное хранение цифровых документов

В чем проблема сохранности цифровых материалов? (из доклада Барбары Сирмен)

Массивы электронных документов в национальных библиотеках

Массивы электронных документов в национальных библиотеках

Массивы электронных документов в национальных библиотеках