Билет № 19 Технология цифровых библиотек (генерация данных, каталогизация, архивация, хранение цифрового материала, обеспечение доступа) Цифровые библиотеки
В настоящее время число цифровых документов в мире исчисляется миллиардами.
Рост массивов имел скачкообразный характер и произошел примерно за пятнадцать - двадцать лет. Существует, однако, один косвенный показатель – динамика выпуска микрофильмов с 1950 по 2005 год в Европе и Америке. График показывает рост выпуска микрофильмов до начала девяностых годов.
-
Документы созданные в электронной форме:
-
Электронные книги и журналы во многих странах уже охвачены законом об обязательном хранении. Их количество постоянно растет
-
Так например, электронный архив Королевской библиотеки Нидерландов содержит 9 млн статей из 2800 естественнонаучных и технических журналов, и охватывает продукцию всего лишь 8 издательств.
Массивы электронных документов в национальных библиотеках
-
Web материалы - результаты автоматизированного сбора материала (harvesting), примеры:
-
Королевская библиотека Дании за три месяца собрала 5,3 терабайта информации
-
Национальная библиотека Франции за 2004 год собрала 3 терабайта информации
-
Один терабайт по приблизительной оценке соответствует 13,5 млн страниц
Генерация данных (оцифровка)
Основным техническим устройством оцифровки является преобразователь данных из аналоговой в цифровую форму (сканнер или цифровая камера). В ходе преобразования видимое изображение раскладывается на систему прямоугольных матриц, состоящих из точек (пикселей). Конденсация этих точек зависит от используемой фото детекторной матрицы, характеристик сканирующего устройства, и, в первую очередь, от разрешающей способности сканера, иначе говоря, количества пикселей на дюйм линии. (dpi – dot per inch).
Цифровое изображение, таким образом, – это электронная фотография, представляющая собой набор элементов (пикселей), расположенных в определенном порядке по вертикальным и горизонтальным линиям экрана. Количество пикселей на единице площади определяет разрешение изображения. Каждый пиксель имеет определенное значение яркости, которое зависит от того, какой уровень света, отраженный от документа – источника, воспринимается светочувствительными диодами сканирующего устройства (charge-coupled device (CCD)). При световой экспозиции они создают соответствующее электрическое напряжение, которое посредством аналоговой / цифровой конверсии генерирует серию цифровых сигналов, представленных в бинарных кодах.
Наименьшая единица информации, хранящейся в компьютере, называется битом (бинарное значение). Количество битов, которые используются для представления каждого пикселя в изображении, определяет число цветов или оттенков серого цвета, которые могут быть представлены в цифровом изображении. Это называется битовая глубина (bit-depth). Чем больше значение этого показателя, тем выше качество цветопередачи.
Цифровые изображения также известны как изображения посредством распределенных битов или растровые изображения – их надо отличать от других типов файлов, таких, например, как векторные файлы, в которых изображение кодируется математическими формулами, описывающими линии и кривые.
Поскольку изображения с высоким разрешением могут занимать большой объем памяти, возникает необходимость в их сжатии (компрессии). После сканирования физического документа, все данные конвертируются в особый формат хранения. Существует много таких форматов, некоторые из них предполагают сжатие при хранении. Графические файлы содержат также техническую информацию в области файла, которую называют заголовок (“header”).
Задача любой программы оцифровки заключается в том, чтобы зафиксировать и представить существенную информацию, содержащуюся в документе или собрании документов. Для фиксации существенных частей документа оценка качества цифровых образов должна основываться на сравнении между цифровым изображением и оригинальным документом, а не на неопределенных представлениях, что является достаточным, чтобы удовлетворить непосредственные нужды пользователя.
В момент разработки ЭБ всегда следует определить уровень, на котором осуществляется поиск цифровых изображений. Существующие метаданные, такие как поисковые средства, индексы и т.д. должны быть видимы при обзоре, и при соответствии определенному уровню, связываться с нужным файлом с графическим изображением. Необходимо так же продумать, каким образом организовывать те метаданные, которые образуются в ходе оцифровки.
В качестве матричных файлов-изображений (иначе, мастер-имиджей, т.е. изображений, которые создаются при оцифровке, а затем могут быть преобразованы в другие форматы) чаще всего применяется формат TIFF (Tagged image file format). В этом, как и в некоторых других форматах, например, в GIF, программа, используемая сканнером, генерирует набор меток (тэгов) с технической и административной метаинформацией (метаданными), которая записывается собственно в файле в формате ASCII, благодаря чему, использование файла не зависит от программной платформы.
Таким образом, устанавливается связь между физическим документом, процессом оцифровки и электронным изображением.
Создание ЭБ означает, прежде всего, предоставление пользователям доступа к электронным изображениям. Традиционные библиотеки повсеместно используют в качестве стандартного набора метаданных форматы MARC, но в других сферах культуры эти форматы не используются. Новым требованиям отвечает формат Dublin Core Metadata, разработанный в начале 90-х годов для Веб-ресурсов. Он содержит 15 элементов описания, и является наиболее широко используемым средством описания метаданных.
Архивирование, консервация и хранение цифрового материала.
Архивирование – набор функций, которые позволяют при необходимости восстановить прежнее состояние информации.
В цифровой среде следует предусмотреть три направления архивации:
1. Архивация операционных систем
2. Архивация актуального состояния баз данных сервера генерации данных
3. Архивация электронных документов
Ни у кого нет сомнения в необходимости первых двух направлений.
Архивирование электронных документов
Что необходимо для цифрового хранения?
1) Организация.
-
Хранением цифровых материалов должны заниматься организации, которые могут взять на себя долгосрочные обязательства, обеспечить поддержку технологий, подготовку кадров, имеют устойчивое финансирование.
2) Программно-аппаратное обеспечение
-
В последние годы появились коммерческие системы, называемые «цифровые архивы». Системы разработаны с учетом международных стандартов (ISO) и основаны на системах OAIS (Open Archive Initiative Systems). RLG занималась разработкой процедуры сертификации таких систем.
-
Некоторые библиотеки (Германия, Нидерланды) на сентябрь 2006 уже имели такие системы. В некоторых национальных библиотеках (Франция, Швеция) их планировали внедрить в конце 2006 года.
3) Метаданные, описывающие сохраняемый документ:
-
Библиографическое описание
-
Структурное описание (формат и структура данных)
-
Описание системы хранения
-
другие.
4) Обеспечение постоянного доступа к сохраняемым материалам:
Сохраняемые материалы, как правило, разнородны (тексты, графика, аудио, видео материалы)
Необходима поддержка программной среды, позволяющей использовать эти материалы
Стратегии хранения, обеспечивающие постоянный доступ к данным
-
Миграция данных.
Под миграцией понимается конвертирование данных, приспособление их к новой версии программного средства. Однако, в ходе конвертирования данных некоторая часть информации теряется, в результате цифровой объект с течением времени несколько меняется
Стратегии хранения, обеспечивающие постоянный доступ к данным
2.Эмуляция
Под эмуляцией понимается имитация оригинальной программной среды в новой программной среде. При этом сохраняемые материалы остаются неизменными.
Управление цифровыми объектами (Digital Object Management - DOM)
Так называемая «идеальная» схема организации обработки, хранения и использования электронных документов (DOM) приводится по публикации Ричарда Мастерса (Британская Библиотека)
Долговременное хранение цифровых документов
В чем проблема сохранности цифровых материалов? (из доклада Барбары Сирмен)
-
Электронные документы создаются с помощью специальных программных средств и предназначены для использования в определенной программно-аппаратной среде. Это весьма осложняет проблему их сохранности. Коммерческие фирмы разрабатывают новые программно-аппаратные средства, а средства предыдущего поколения перестают использоваться. Доступ к объектам, созданным с помощью средств прежних поколений, может быть утрачен, если не будут приняты соответствующие меры. Вопрос долгосрочной сохранности – это прежде всего разработка таких мер.
-
Сегодня практически каждое учреждение имеет свой сайт или электронный архив. Объемы информации, подлежащей хранению, постоянно растут. Чрезвычайно важна кооперация, так как проблема выходит за рамки возможностей одной организации.
Массивы электронных документов в национальных библиотеках
-
Проекты оцифровки, отдельные примеры:
-
Великобритания: 100000 книг свободных от копирайта будут в ближайшее время оцифрованы
-
В Нидерландах планируется оцифровка 8 млн страниц газет
-
Проект Gallica в национальной библиотеке Франции
-
В Чехии уже оцифровано несколько млн листов старопечатных книг и рукописей
Массивы электронных документов в национальных библиотеках
-
Документы созданные в электронной форме:
-
Электронные книги и журналы во многих странах уже охвачены законом об обязательном хранении. Их количество постоянно растет
-
Так например, электронный архив Королевской библиотеки Нидерландов содержит 9 млн статей из 2800 естественнонаучных и технических журналов, и охватывает продукцию всего лишь 8 издательств.
Массивы электронных документов в национальных библиотеках
-
Web материалы - результаты автоматизированного сбора материала (harvesting), примеры:
-
Королевская библиотека Дании за три месяца собрала 5,3 терабайта информации
-
Национальная библиотека Франции за 2004 год собрала 3 терабайта информации
-
Один терабайт по приблизительной оценке соответствует 13,5 млн страниц
- Как создаются html документы?
- Основные положения
- Дублинское ядро
- Обеспечивающие подсистемы
- Обеспечивающие подсистемы
- Гипертекстовые ссылки
- Графика внутри html-документа
- Понятие «тэг» в html
- Тэги тела документа
- Список базовых тэгов html
- Понятия html, Гипертекст, Браузер, Гиперссылка
- Принципы разработки и функционирования ипс
- Билет № 16 Проблемы, связанные с развитием интернет (web-память, digital divide)
- Билет №17
- Билет № 18 Терминология информатики
- Относительность терминологии
- 2. Основные понятия информатики:
- Билет № 19 Технология цифровых библиотек (генерация данных, каталогизация, архивация, хранение цифрового материала, обеспечение доступа) Цифровые библиотеки
- Билет № 20 Третий период истории автоматизированных информационных систем
- Билет № 21 Система ирбис для полных текстов
- Билет № 22. Четвёртый период истории автоматизированных информационных систем
- Билет № 23
- Билет № 24
- Билет № 25 Информационная потребность, релевантность, пертинентность. Информационная потребность
- Билет № 26 Элементы форматирования текста в html.
- Табуляция, пробелы, переносы...
- Билет № 27 Информационный продукт, метаданные, электронные информационные ресурсы