logo
пособие

Информационные хранилища данных

Хранилище содержит сведения, поступающие из самых разных источников данных, функционирующих под управлением разных операционных модулей, а также различные накопительные и сводные данные.

Хранилище данных - предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений. Такое определение хранилищу данных было дано Уильямом Инмоном. Данные из различных источников помещаются в хранилище, а их описания — в репозиторий метаданных.

Архитектура хранилища данных состоит из следующих компонентов (рис. 5):

  1. Оперативные данные - исходные данные, помещаемые в хранилище, поступающие из источников обработки данных.

  2. Хранилище оперативных данных - представляет собой репозитарий для текущих и интегрированных оперативных данных.

  3. Диспетчер загрузки - компонент, который выполняет все операции, связанные с извлечением и загрузкой данных в хранилище.

  4. Диспетчер хранилища - выполняет все операции, связанные с управлением информацией, помещенной в хранилище данных.

  5. Диспетчер запросов - выполняет все операции, связанные с управлением пользовательскими запросами.

  6. Фактические данные – данные, которые хранятся в виде информации, агрегированной до следующего уровня детализации, а также регулярно вводящиеся в хранилище данные, пополняющие имеющиеся.

  7. Архивные и резервные копии - отвечают за подготовку фактической и просуммированной информации, предназначенной для создания архивов и резервных копий.

  8. Метаданные - данные о данных, которые используются любыми процессами хранилища.

  9. Средства доступа к данным – это средства при помощи которых пользователи взаимодействуют с хранилищем.

Рис. 5. Архитектура хранилища данных

Информационные потоки в хранилище данных следующие:

  1. Входной поток - выбирает информацию из источников данных с целью их последующей загрузки в хранилище данных.

  2. Восходящий поток - выполняет суммирование, документирование и распределение исходных данных.

  3. Нисходящий поток - включает процедуры, обеспечивающие возможность восстановления текущего состояния хранилища в случае потери данных из-за сбоев в программном или аппаратном обеспечении.

  4. Выходной поток - обеспечивает выполнение запросов конечных пользователей к нужным данным и своевременную доставку информации на рабочие станции конечных пользователей.

  5. Метапоток - это процесс, связанный с перемещением метаданных, т.е. данных о других потоках.

Данные, поступающие в хранилище данных, как правило, доступны только для чтения. Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы построение отчетов и OLAP-анализ не использовал ресурсы транзакционной системы и не нарушал ее стабильность. Как правило, данные загружаются в хранилище с определённой периодичностью, поэтому актуальность данных может несколько отставать от OLTP-системы.

Назначение информационных хранилищ заключается в следующем:

В основу организации хранилища положены следующие принципы:

  1. Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.

  2. Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.

  3. Некорректируемость. Данные в хранилище данных не создаются: т.е. поступают из внешних источников, не корректируются и не удаляются.

  4. Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.