logo
Билеты Масевич

Билет № 19 Технология цифровых библиотек (генерация данных, каталогизация, архивация, хранение цифрового материала, обеспечение доступа) Цифровые библиотеки

В настоящее время число цифровых документов в мире исчисляется миллиардами. Мы не располагаю точными статистическими данными о динамике роста массивов электронных документов и вряд ли сегодня можно получить такие данные.

Бесспорно только, что рост массивов имел скачкообразный характер и произошел примерно за пятнадцать - двадцать лет. Существует, однако, один косвенный показатель – динамика выпуска микрофильмов с 1950 по 2005 год в Европе и Америке. График показывает рост выпуска микрофильмов до начала девяностых годов.

Массивы электронных документов в национальных библиотеках

Генерация данных (оцифровка)

Основным техническим устройством оцифровки является преобразователь данных из аналоговой в цифровую форму (сканнер или цифровая камера). В ходе преобразования видимое изображение раскладывается на систему прямоугольных матриц, состоящих из точек (пикселей). Конденсация этих точек зависит от используемой фото детекторной матрицы, характеристик сканирующего устройства, и, в первую очередь, от разрешающей способности сканера, иначе говоря, количества пикселей на дюйм линии. (dpi – dot per inch).

Цифровое изображение, таким образом, – это электронная фотография, представляющая собой набор элементов (пикселей), расположенных в определенном порядке по вертикальным и горизонтальным линиям экрана. Количество пикселей на единице площади определяет разрешение изображения. Каждый пиксель имеет определенное значение яркости, которое зависит от того, какой уровень света, отраженный от документа – источника, воспринимается светочувствительными диодами сканирующего устройства (charge-coupled device (CCD)). При световой экспозиции они создают соответствующее электрическое напряжение, которое посредством аналоговой / цифровой конверсии генерирует серию цифровых сигналов, представленных в бинарных кодах.

Наименьшая единица информации, хранящейся в компьютере, называется битом (бинарное значение). Количество битов, которые используются для представления каждого пикселя в изображении, определяет число цветов или оттенков серого цвета, которые могут быть представлены в цифровом изображении. Это называется битовая глубина (bit-depth). Чем больше значение этого показателя, тем выше качество цветопередачи.

Цифровые изображения также известны как изображения посредством распределенных битов или растровые изображения – их надо отличать от других типов файлов, таких, например, как векторные файлы, в которых изображение кодируется математическими формулами, описывающими линии и кривые.

Документы трансформируются в растровые изображения с помощью сканнера или цифровой камеры. В ходе снятия изображения физические документы читаются или сканируются с заданным разрешением и глубиной. Образовавшиеся файлы, содержащие бинарные значения (биты) для каждого пикселя форматируются и именуются таким образом, чтобы компьютер мог обеспечить их хранение и извлечение. Изображения из этих файлов воспроизводятся на экране и могут быть распечатаны.

Поскольку изображения с высоким разрешением могут занимать большой объем памяти, возникает необходимость в их сжатии (компрессии). После сканирования физического документа, все данные конвертируются в особый формат хранения. Существует много таких форматов, некоторые из них предполагают сжатие при хранении. Графические файлы содержат также техническую информацию в области файла, которую называют заголовок (“header”).

Задача любой программы оцифровки заключается в том, чтобы зафиксировать и представить существенную информацию, содержащуюся в документе или собрании документов. Для фиксации существенных частей документа оценка качества цифровых образов должна основываться на сравнении между цифровым изображением и оригинальным документом, а не на неопределенных представлениях, что является достаточным, чтобы удовлетворить непосредственные нужды пользователя.

В момент разработки ЭБ всегда следует определить уровень, на котором осуществляется поиск цифровых изображений. Существующие метаданные, такие как поисковые средства, индексы и т.д. должны быть видимы при обзоре, и при соответствии определенному уровню, связываться с нужным файлом с графическим изображением. Необходимо так же продумать, каким образом организовывать те метаданные, которые образуются в ходе оцифровки.

В качестве матричных файлов-изображений (иначе, мастер-имиджей, т.е. изображений, которые создаются при оцифровке, а затем могут быть преобразованы в другие форматы) чаще всего применяется формат TIFF (Tagged image file format). В этом, как и в некоторых других форматах, например, в GIF, программа, используемая сканнером, генерирует набор меток (тэгов) с технической и административной метаинформацией (метаданными), которая записывается собственно в файле в формате ASCII, благодаря чему, использование файла не зависит от программной платформы.

Таким образом, устанавливается связь между физическим документом, процессом оцифровки и электронным изображением.

Создание ЭБ означает, прежде всего, предоставление пользователям доступа к электронным изображениям. Традиционные библиотеки повсеместно используют в качестве стандартного набора метаданных форматы MARC, но в других сферах культуры эти форматы не используются. Новым требованиям отвечает формат Dublin Core Metadata, разработанный в начале 90-х годов для Веб-ресурсов. Он содержит 15 элементов описания, и является наиболее широко используемым средством описания метаданных.

Отбор по содержанию материала для оцифровки в национальных библиотеках

Рабочая группа по содержательному отбору материала для оцифровки в национальных библиотеках (Content Working Group)

Направления деятельности Группы

Архивирование, консервация и хранение цифрового материала.

Архивирование – набор функций, которые позволяют при необходимости восстановить прежнее состояние информации.

В цифровой среде следует предусмотреть три направления архивации:

1. Архивация операционных систем

2. Архивация актуального состояния баз данных сервера генерации данных

3. Архивация электронных документов

Ни у кого нет сомнения в необходимости первых двух направлений.

Архивирование электронных документов

Массивы электронных документов в национальных библиотеках

Что необходимо для цифрового хранения?

Что необходимо для цифрового хранения?

Что необходимо для цифрового хранения?

В настоящее время разрабатываются стандарт на наборы метаданных.

Что необходимо для цифрового хранения?

Сохраняемые материалы, как правило, разнородны (тексты, графика, аудио, видео материалы)

Необходима поддержка программной среды, позволяющей использовать эти материалы

Стратегии хранения, обеспечивающие постоянный доступ к данным

Под миграцией понимается конвертирование данных, приспособление их к новой версии программного средства. Однако, в ходе конвертирования данных некоторая часть информации теряется, в результате цифровой объект с течением времени несколько меняется

Стратегии хранения, обеспечивающие постоянный доступ к данным

Под эмуляцией понимается имитация оригинальной программной среды в новой программной среде. При этом сохраняемые материалы остаются неизменными.

Управление цифровыми объектами (Digital Object Management - DOM)

Европейские проекты по долгосрочному хранению, начатые 2006 г.

Европейская цифровая библиотека (EDL – European Digital Library)

О проекте EDL

Направления (workpackages) EDL

1. Увеличение ресурса, доступного через Европейскую библиотеку, повышение возможности его использования. Прежде всего добавлением данных из 9 целевых библиотек: Бельгия, Греция, Исландия, Ирландия, Лихтенштейн, Люксембург, Норвегия, Испания и Швеция.

Координатор - Европейская библиотека (TEL)

2. Исследования и эксперименты с многоязычным доступом

Создание цифровой библиотеки. Подготовка очередного этапа. Решение стратегических и практических проблем, возникающих при трансформации Европейской библиотеки в Европейскую цифровую библиотеку. Согласование путей и методов сотрудничества.

4. Распространение информации о проекте

Координатор – компания, которая специализируются на организации и координации проектов, связанных с культурным наследием на национальных, европейском и международном уровнях. Компания занимается разработкой исследовательских проектов, управлением ими, а также организацией технологических центров поддержки культурных и научных ресурсов.

5. Управление проектом и оценка результатов

Примерные этапы создания Цифровой библиотеки Европы

Этапы создания цифровой библиотеки Европы

 2005200620072008200920109 библиотек 100 собраний23 библиотеки 232 собрания 32 библиотеки  38 библиотек Цифровая библиотека Европы ?     Музеи и архивы 1 млн оцифрованных единиц2 млн оцифрованных единиц 4 млн оцифрован-ных единиц  Начало проекта "Европейская цифровая библиотека" (EDL)     Проект EDL:

Европейский регистр метаданных

План развития Цифровой библиотеки ЕвропыЦентрализованное индексирование

Улучшенное обслуживание пользователейПоддержка многоязычного доступаПользователей нет  TEL PLUS:

Совместимость с системой "Открытые архивы" (OAI)

Оптическое распознавание

Улучшенный доступ

Веб сервис

Персональное обслуживание пользователей

  EDLnet: