3.3.2. Загрузка данных в Хранилище
В процессе загрузки данных в Хранилище выполняется сбор данных, их преобразование (очистка, интегрирование), агрегирование. В Хранилище также хранится информация об источниках данных. Понятие и назначение агрегирования были описаны выше (см. п. 3.1), поэтому здесь мы подробнее рассмотрим первые три понятия.
Для выполнения функций сбора, преобразования и загрузки данных в Хранилище применяются специальные ETL - комплексы программ (Extraction, Transformation, Loading). Эти комплексы извлекают информацию из оперативных баз данных различных типов, преобразуют ее в формат, поддерживаемый Хранилищем и загружают в Хранилище [71].
В процессе извлечения данных выполняется их чтение из баз данных оперативно меняющейся информации. Перед помещением данных в Хранилище, они должны быть очищены. Это один из этапов трансформации данных. Основная задача очистки - отсев неточных данных. Что такое "грязные" данные? Например, при заполнении Базы данных Отдела кадров необходимо указывать Индивидуальный номер налогоплательщика. Не все работники имеют такой номер, однако поле формы является обязательным для заполнения. Поэтому оператор пишет фиктивные данные. Другим примером может служить указание устаревшего адреса сотрудника в базе. Хранящиеся в базе данные могут выходить за пределы установленных в Хранилище для таких атрибутов значений. Например, год приема на работу сотрудника предприятия не может быть меньше года создания предприятия. Данные, помещаемые в Хранилище, должны быть абсолютно точными, поэтому они очищаются средствами специальных программ, составляющих метаданные, от ложной и устаревшей информации. Объединение данных из различных баз представляет собой процедуру интегрирования. При этом надо привести к единому формату, например, структуру телефонных номеров, способ представления даты (дд/мм/гггг или мм/гг). В разных базах может быть использована разная аббревиатура для обозначения одного и того же клиента или разные значения ключевых полей. Как и в предыдущем случае, специальные программные комплексы, составляющие часть метаданных, автоматически преобразуют и объединяют данные из различных баз. В процессе преобразования данных перед загрузкой их в хранилище также могут создаваться новые поля, например, это поле для подсчета прибыли по сделке, если все необходимые данные находятся в полях оперативных баз данных, из которых извлекается информация. Для выполнения вычислений могут быть использованы арифметические выражения со встроенными функциями, логические операции. В процессе выполнения преобразований, данные хранятся в специальной промежуточной базе. После преобразования данных выполняется их загрузка в Хранилище из этой промежуточной базы.
Из всего сказанного выше следует, что аккуратно определенные метаданные являются основой заполнения и функционирования Информационного хранилища. Метаданные хранятся в репозитарии, который представляет собой отдельную базу данных, содержащую информацию о самом Хранилище. В репозитарии хранится информация о том, какие оперативные базы данных являются источниками информации, описана структура хранения информации в этих базах, хранятся программы преобразования данных и даже программы построения аналитических отчетов. Репозитарии может сохранять историю преобразования данных. В результате, возможно не только определение источника данных Хранилища, но и восстановление выполненных над данными операций. Метаданные, хранящиеся в репозитарии, позволяют создавать информационно - справочные сервисы, показывающие изменения, происходящие в Хранилище.
Для примера, рассмотрим возможности службы репозитария, входящей в состав СУБД SQL Server фирмы Microsoft. Служба предоставляет следующие возможности: средства для описания метаданных; процессор репозитария, который позволяет выполнять поиск метаданных, ведет историю изменения метаданных (например, вы можете определить, когда была изменена структура таблиц для хранения информации в Хранилище или структура аналитического отчета). В репозитарии также могут храниться: схемы данных22 оперативных баз -источников информации; схемы данных Хранилища; данные для многомерного анализа информации (реализации OLAP анализа - см. п. 3.4.1), программы извлечения, преобразования и загрузки данных в Хранилище. Программы эти специфичны для каждого Хранилища и создаются с помощью службы DTS (Data Transformation Service ). DTS позволяет создавать такие программы с помощью специального редактора, указывая в диалоговом режиме таблицы - источники и таблицы назначения в Хранилище. Необходимые преобразования описываются на специальном встроенном языке программирования [72].
22Схема данных Базы иллюстрирует взаимосвязь объектов предметной области. Учитывая эти связи, можно строить отчеты, содержащие информацию о разных объектах, каждый из которых описывается отдельной таблицей. Например, для Базы данных студенческой библиотеки, которая была описана в п. 3.2, схема данных изображена на рис.24.
- Информационные технологии в экономике и управлении
- Технологии Internet
- 1.История развития и администрирование
- 2.Обмен сообщениями в Internet Адресация и маршрутизация
- Доменная система имен
- 3.Популярные сервисы Internet
- Электронная почта
- Телеконференции
- Ftp сервис
- Сервис World Wide Web
- Сервис видеоконференций
- Internet - сервисы на мобильном терминале
- 1.4. Поиск информации в Internet
- 1.4.1. Информационно - поисковые системы сервиса www
- 1.4.2. Службы поиска людей и организаций
- 4.2. Информационные технологии для управления административно -хозяйственной деятельностью предприятия
- 2.1. Современные стандарты управления предприятиями
- 2.2. Программные комплексы для автоматизации управления предприятием
- 2.3. Системы управления документами
- 2.3.1. Корпоративные электронные архивы (кэа)
- 2.3.1.1. Средства ввода документов в кэа
- 2.3.1.2. Средства хранения информации в кэа
- 2.3.1.3. Индексация, организация поиска, анализ документов в кэа
- 2.3.2. Организация электронного документооборота
- 2.3.2.1. Понятие электронного документооборота
- 2.3.2.2. Технология Workflow
- 5.3. Системы управления знаниями
- 3.1. Общее описание
- 3.2.Базы данных
- 3.3. Хранилища данных
- 3.3.1. Структура хранения информации в Хранилище
- 3.3.2. Загрузка данных в Хранилище
- 3.4. Системы поддержки принятия решений
- 3.4.1. Аналитическая обработка данных в реальном времени
- 3.4.2. Средства управления эффективностью бизнеса врм
- 3.4.3. Интеллектуальный анализ данных (Data Mining)
- 6.4. Защита корпоративной информации
- 4.1. Корпоративные сети
- 7.5. Основы электронной коммерции
- 5. 1. Инструменты электронной коммерции
- 5.1.1. Торговые площадки
- 5.1.2. Internet - реклама
- 5.1.3. Internet - магазины
- 5.1.4. Поиск информации на рынке электронной коммерции
- 5.2. Корпоративные информационные порталы
- 5.3. Типы электронной коммерции
- 5.4. Электронные онлайновые платежные Internet - системы
- 8.Контроль знаний
- 1. Тестовые вопросы по темам
- Тема 1. Технологии Internet
- Тема 2. Информационные технологии для управления административно-хозяйственной деятельностью предприятия
- Тема 3. Системы управления знаниями
- Тема 4. Защита корпоративной информации
- Тема 5. Основы электронной коммерции
- 2. Список экзаменационных вопросов
- 9.Сноски к тексту
- 10.Список литературы и Internet - публикаций