Билет № 19 Технология цифровых библиотек (генерация данных, каталогизация, архивация, хранение цифрового материала, обеспечение доступа) Цифровые библиотеки
В настоящее время число цифровых документов в мире исчисляется миллиардами. Мы не располагаю точными статистическими данными о динамике роста массивов электронных документов и вряд ли сегодня можно получить такие данные.
Бесспорно только, что рост массивов имел скачкообразный характер и произошел примерно за пятнадцать - двадцать лет. Существует, однако, один косвенный показатель – динамика выпуска микрофильмов с 1950 по 2005 год в Европе и Америке. График показывает рост выпуска микрофильмов до начала девяностых годов.
-
Проекты оцифровки, отдельные примеры:
-
Великобритания: 100000 книг свободных от копирайта будут в ближайшее время оцифрованы
-
В Нидерландах планируется оцифровка 8 млн страниц газет
-
Проект Gallica в национальной библиотеке Франции
-
В Чехии уже оцифровано несколько млн листов старопечатных книг и рукописей
-
Документы созданные в электронной форме:
-
Электронные книги и журналы во многих странах уже охвачены законом об обязательном хранении. Их количество постоянно растет
-
Так например, электронный архив Королевской библиотеки Нидерландов содержит 9 млн статей из 2800 естественнонаучных и технических журналов, и охватывает продукцию всего лишь 8 издательств.
Массивы электронных документов в национальных библиотеках
-
Web материалы - результаты автоматизированного сбора материала (harvesting), примеры:
-
Королевская библиотека Дании за три месяца собрала 5,3 терабайта информации
-
Национальная библиотека Франции за 2004 год собрала 3 терабайта информации
-
Один терабайт по приблизительной оценке соответствует 13,5 млн страниц
Генерация данных (оцифровка)
Основным техническим устройством оцифровки является преобразователь данных из аналоговой в цифровую форму (сканнер или цифровая камера). В ходе преобразования видимое изображение раскладывается на систему прямоугольных матриц, состоящих из точек (пикселей). Конденсация этих точек зависит от используемой фото детекторной матрицы, характеристик сканирующего устройства, и, в первую очередь, от разрешающей способности сканера, иначе говоря, количества пикселей на дюйм линии. (dpi – dot per inch).
Цифровое изображение, таким образом, – это электронная фотография, представляющая собой набор элементов (пикселей), расположенных в определенном порядке по вертикальным и горизонтальным линиям экрана. Количество пикселей на единице площади определяет разрешение изображения. Каждый пиксель имеет определенное значение яркости, которое зависит от того, какой уровень света, отраженный от документа – источника, воспринимается светочувствительными диодами сканирующего устройства (charge-coupled device (CCD)). При световой экспозиции они создают соответствующее электрическое напряжение, которое посредством аналоговой / цифровой конверсии генерирует серию цифровых сигналов, представленных в бинарных кодах.
Наименьшая единица информации, хранящейся в компьютере, называется битом (бинарное значение). Количество битов, которые используются для представления каждого пикселя в изображении, определяет число цветов или оттенков серого цвета, которые могут быть представлены в цифровом изображении. Это называется битовая глубина (bit-depth). Чем больше значение этого показателя, тем выше качество цветопередачи.
Цифровые изображения также известны как изображения посредством распределенных битов или растровые изображения – их надо отличать от других типов файлов, таких, например, как векторные файлы, в которых изображение кодируется математическими формулами, описывающими линии и кривые.
Документы трансформируются в растровые изображения с помощью сканнера или цифровой камеры. В ходе снятия изображения физические документы читаются или сканируются с заданным разрешением и глубиной. Образовавшиеся файлы, содержащие бинарные значения (биты) для каждого пикселя форматируются и именуются таким образом, чтобы компьютер мог обеспечить их хранение и извлечение. Изображения из этих файлов воспроизводятся на экране и могут быть распечатаны.
Поскольку изображения с высоким разрешением могут занимать большой объем памяти, возникает необходимость в их сжатии (компрессии). После сканирования физического документа, все данные конвертируются в особый формат хранения. Существует много таких форматов, некоторые из них предполагают сжатие при хранении. Графические файлы содержат также техническую информацию в области файла, которую называют заголовок (“header”).
Задача любой программы оцифровки заключается в том, чтобы зафиксировать и представить существенную информацию, содержащуюся в документе или собрании документов. Для фиксации существенных частей документа оценка качества цифровых образов должна основываться на сравнении между цифровым изображением и оригинальным документом, а не на неопределенных представлениях, что является достаточным, чтобы удовлетворить непосредственные нужды пользователя.
В момент разработки ЭБ всегда следует определить уровень, на котором осуществляется поиск цифровых изображений. Существующие метаданные, такие как поисковые средства, индексы и т.д. должны быть видимы при обзоре, и при соответствии определенному уровню, связываться с нужным файлом с графическим изображением. Необходимо так же продумать, каким образом организовывать те метаданные, которые образуются в ходе оцифровки.
В качестве матричных файлов-изображений (иначе, мастер-имиджей, т.е. изображений, которые создаются при оцифровке, а затем могут быть преобразованы в другие форматы) чаще всего применяется формат TIFF (Tagged image file format). В этом, как и в некоторых других форматах, например, в GIF, программа, используемая сканнером, генерирует набор меток (тэгов) с технической и административной метаинформацией (метаданными), которая записывается собственно в файле в формате ASCII, благодаря чему, использование файла не зависит от программной платформы.
Таким образом, устанавливается связь между физическим документом, процессом оцифровки и электронным изображением.
Создание ЭБ означает, прежде всего, предоставление пользователям доступа к электронным изображениям. Традиционные библиотеки повсеместно используют в качестве стандартного набора метаданных форматы MARC, но в других сферах культуры эти форматы не используются. Новым требованиям отвечает формат Dublin Core Metadata, разработанный в начале 90-х годов для Веб-ресурсов. Он содержит 15 элементов описания, и является наиболее широко используемым средством описания метаданных.
Отбор по содержанию материала для оцифровки в национальных библиотеках
Рабочая группа по содержательному отбору материала для оцифровки в национальных библиотеках (Content Working Group)
-
Рабочая группа была создана решением собрания исполнительного комитета CENL от 5 декабря 2005 года.
-
Основной задачей группы является разработка методов отбора материала для массовой каталогизации
Направления деятельности Группы
-
Изучение стратегий и планов работ по оцифровке в национальных библиотеках
-
Разработка моделей кооперации
-
Подготовка стратегических рекомендаций для CENL
-
Определение положения Европейской цифровой библиотеки в Европейской библиотеке
-
Подготовка предложений по организации массовой оцифровки данных
-
Первая задача рабочей группы по отбору была получить обзор существующих стратегических планов и политик по оцифровке в европейских национальных библиотеках. Членов CENL попросили представить свои планы и стратегии по оцифровке, 11 библиотек прислали документы, которые были представлены. Вторым источником Отчета по оцифровке Группы национальных представителей был анализ, включавший только страны-участницы Евросоюза. Страны ЕС <в отношении политики оцифровки> могут быть разделены на 3 группы:
-
Страны, которые имеют национальный план по оцифровке,
-
Страны без национального плана по оцифровке, однако, имеющие некоторую координационную структуру,
-
Страны, которые вообще не имеют национальной структуры работ по оцифровке, чья деятельность по оцифровке фрагментарна, а координация слабая.
-
Относительно типа материалов, которые оцифровываются, существуют несколько основных направлений: газеты, фотографии и другие изображения, карты, рукописи и т.д.
-
Имеется общая структура работ по оцифровке, которая, однако, варьирует в разных странах, есть информация по отдельным национальным разработкам, но почти нет информации по национальным программам, отмечается значительный недостаток статистических данных, нет повременных планов осуществления работ.
-
Высказаны предложения, (1) чтобы Европейская Комиссия отобрала собрания для определения характера основных статистических данных, необходимых для представления современного состояния и создания базы данных о коллекциях, а так же (2) чтобы ежегодные отчеты CENL содержали отчеты по оцифровке в каждой библиотеке – члене CENL.
-
До конца 2007 г. более 300 цифровых коллекций из 33 библиотек – членов CENL будут доступны через TEL.
Архивирование, консервация и хранение цифрового материала.
Архивирование – набор функций, которые позволяют при необходимости восстановить прежнее состояние информации.
В цифровой среде следует предусмотреть три направления архивации:
1. Архивация операционных систем
2. Архивация актуального состояния баз данных сервера генерации данных
3. Архивация электронных документов
Ни у кого нет сомнения в необходимости первых двух направлений.
Архивирование электронных документов
-
Сегодня практически каждое учреждение имеет свой сайт или электронный архив. Объемы информации, подлежащей хранению, постоянно растут. Чрезвычайно важна кооперация, так как проблема выходит за рамки возможностей одной организации.
Массивы электронных документов в национальных библиотеках
Что необходимо для цифрового хранения?
-
1) Организация.
-
Хранением цифровых материалов должны заниматься организации, которые могут взять на себя долгосрочные обязательства, обеспечить поддержку технологий, подготовку кадров, имеют устойчивое финансирование.
Что необходимо для цифрового хранения?
-
2) Программно-аппаратное обеспечение
-
В последние годы появились коммерческие системы, называемые «цифровые архивы». Системы разработаны с учетом международных стандартов (ISO) и основаны на системах OAIS (Open Archive Initiative Systems). RLG занималась разработкой процедуры сертификации таких систем.
-
Некоторые библиотеки (Германия, Нидерланды) на сентябрь 2006 уже имели такие системы. В некоторых национальных библиотеках (Франция, Швеция) их планировали внедрить в конце 2006 года.
Что необходимо для цифрового хранения?
-
3) Метаданные, описывающие сохраняемый документ:
-
Библиографическое описание
-
Структурное описание (формат и структура данных)
-
Описание системы хранения
-
другие.
В настоящее время разрабатываются стандарт на наборы метаданных.
Что необходимо для цифрового хранения?
-
4) Обеспечение постоянного доступа к сохраняемым материалам:
Сохраняемые материалы, как правило, разнородны (тексты, графика, аудио, видео материалы)
Необходима поддержка программной среды, позволяющей использовать эти материалы
Стратегии хранения, обеспечивающие постоянный доступ к данным
-
1. Миграция данных.
Под миграцией понимается конвертирование данных, приспособление их к новой версии программного средства. Однако, в ходе конвертирования данных некоторая часть информации теряется, в результате цифровой объект с течением времени несколько меняется
Стратегии хранения, обеспечивающие постоянный доступ к данным
-
2.Эмуляция
Под эмуляцией понимается имитация оригинальной программной среды в новой программной среде. При этом сохраняемые материалы остаются неизменными.
Управление цифровыми объектами (Digital Object Management - DOM)
-
Так называемая «идеальная» схема организации обработки, хранения и использования электронных документов (DOM) приводится по публикации Ричарда Мастерса (Британская Библиотека)
Европейские проекты по долгосрочному хранению, начатые 2006 г.
-
DPE (Digital Preservation Europe)
-
Проект, цель которого – поддержка сотрудничества в области сохранности документов, учет и координация разработок в этой области
-
Caspar (Cultural, Artistic, and Scientific Knowledge for Preservation, Access and Retrieval)
-
Проект касается в основном предметов искусства, науки и культуры
-
Planets, Digital Preservation Research and Technology
-
Организация, планирование, разработка технологий хранения цифровых объектов
Европейская цифровая библиотека (EDL – European Digital Library)
О проекте EDL
-
EDL – целевой проект в рамках программы Европейской Комиссии eContentplus (примерно: Содержание электронных ресурсов).
-
Координатор проекта - Майкл Буш – находится в Люксембурге
-
Проект начался 1 сентября 2006 года и рассчитан на 18 месяцев. Общий бюджет проекта 2, 114 млн евро
-
Все участники проекта, кроме Eremo, национальные библиотеки, члены CENL
Направления (workpackages) EDL
1. Увеличение ресурса, доступного через Европейскую библиотеку, повышение возможности его использования. Прежде всего добавлением данных из 9 целевых библиотек: Бельгия, Греция, Исландия, Ирландия, Лихтенштейн, Люксембург, Норвегия, Испания и Швеция.
Координатор - Европейская библиотека (TEL)
2. Исследования и эксперименты с многоязычным доступом
Создание цифровой библиотеки. Подготовка очередного этапа. Решение стратегических и практических проблем, возникающих при трансформации Европейской библиотеки в Европейскую цифровую библиотеку. Согласование путей и методов сотрудничества.
4. Распространение информации о проекте
Координатор – компания, которая специализируются на организации и координации проектов, связанных с культурным наследием на национальных, европейском и международном уровнях. Компания занимается разработкой исследовательских проектов, управлением ими, а также организацией технологических центров поддержки культурных и научных ресурсов.
5. Управление проектом и оценка результатов
Примерные этапы создания Цифровой библиотеки Европы
Этапы создания цифровой библиотеки Европы
2005200620072008200920109 библиотек 100 собраний23 библиотеки 232 собрания 32 библиотеки 38 библиотек Цифровая библиотека Европы ? Музеи и архивы 1 млн оцифрованных единиц2 млн оцифрованных единиц 4 млн оцифрован-ных единиц Начало проекта "Европейская цифровая библиотека" (EDL) Проект EDL:
Европейский регистр метаданных
План развития Цифровой библиотеки ЕвропыЦентрализованное индексирование
Улучшенное обслуживание пользователейПоддержка многоязычного доступаПользователей нет TEL PLUS:
Совместимость с системой "Открытые архивы" (OAI)
Оптическое распознавание
Улучшенный доступ
Веб сервис
Персональное обслуживание пользователей
EDLnet:
- IБилет № 2
- Билет № 3. Информационно -поисковые система (ипс), Элементы документа html
- Билет № 4 Элементы документа html
- Как создаются html документы?
- Основные положения
- Структура документа
- Билет № 5. Мета данные в документе html (Дублинское ядро) Дублинское ядро
- Обеспечивающие подсистемы ипс (Информационное обеспечение)
- Состав лингвистического обеспечения абис
- Графика внутри html-документа
- Гипертекстовые ссылки
- Билет №10 html-тэги
- Тэги тела документа
- Список базовых тэгов html
- Гипертекстовые системы
- Билет № 16 Проблемы, связанные с развитием Интернет (web-память, digital divide)
- Билет № 18 Терминология информатики
- Относительность терминологии
- 2. Основные понятия информатики:
- Билет № 19 Технология цифровых библиотек (генерация данных, каталогизация, архивация, хранение цифрового материала, обеспечение доступа) Цифровые библиотеки
- 50 Партнеров
- Билет № 20 Третий период истории автоматизированных информационных систем
- Билет № 22. Четвёртый период истории автоматизированных информационных систем
- Билет № 23
- Билет № 24
- Билет № 25 Информационная потребность, релевантность, пертинентность. Информационная потребность
- Информационный продукт, метаданные, электронные информационные ресурсы