logo
Информационные технологии управления

Концепция хд - хранилища данных

Концепция определяет процесс сбора, отсеивания, предварительной обработки и накопления данных с целью долговременного хранения данных и предоставления результирующей информации пользователям в удобной форме для статистического анализа и создания аналитических отчетов. В основе концепции ХД для интеграции неоднородных источников данных принципиально отличается от подхода динамической интеграции разнородных БД, лежат две основополагающие идеи:

Интеграция

ранее разъединенных детализированных (описывающих некоторые конкретные факты, свойства, события и т.д.) данных в едином ХД : исторические архивы, данные из традиционных СОД, данные из внешних источников в едином ХД, их согласование и возможно агрегация. Интегрированность означает, что, например, данные, полученные из различных источников, хранятся согласованно и централизованно.

Разделение

наборов данных используемых для операционной обработки и наборов данных используемых для решения задач анализа, применяемых в системах поддержки принятия решений. Такое разделение возможно путем интеграции источников ранее разъединенных детализированных данных в едином ХД, их согласования и, возможно, агрегации. Организация информационного процесса при построении ХД представлена на рисунке.

Цель концепции ХД

Цель концепции ХД - прояснить отличия в характеристиках данных в операционных и аналитических системах, определить требования к данным помещаемым в целевую БД ХД, определить общие принципы и этапы её построения, основные источники данных, дать рекомендации по решению потенциальных проблем возникающих при их выгрузке, очистке, согласовании, транспортировке и загрузке в целевую БД.

Для правильного понимания данной концепции необходимо понимание следующих принципиальных моментов, заключающихся в том, что концепция ХД:

  • это не концепция анализа данных, скорее это концепция подготовки данных для анализа.

  • не предопределяет архитектуру целевой аналитической системы. Она говорит о том, какие процессы должны выполняться в системе, но не о том, где конкретно и как эти процессы должны выполняться.

  • предполагает не просто единый логический взгляд на данные организации (как иногда это трактуется). Она предполагает реализацию единого интегрированного источника данных.