logo search
пособие

Модели данных, используемые для построения информационных хранилищ

В основе концепции хранилища данных лежат две основные идеи: интеграция разъединенных детализированных данных, то есть данных, описывающих некоторые конкретные факты, свойства, события, в едином хранилище и разделение наборов данных и приложений, используемых для обработки и анализа. Хранилища строятся на основе многомерной модели данных, подразумевающей выделение отдельных измерений и фактов с их анализом по выбранным измерениям. Многомерная модель данных физически может быть реализована как в многомерных, так и в реляционных СУБД..

В настоящее время для построения информационных хранилищ используется два архитектурных направления:

- нормализованные хранилища данных;

- хранилища с измерениями.

Первый базируется на обработке текущего потока транзакций и представляет текущий или, охватывающий небольшой временной период, поток информации. Второй основан на сборе и подготовке большого по объему и временному периоду (от 5 лет) массива информации, предназначенного для проведения анализа данных. Развитие концепции информационных хранилищ позволило провести границы между двумя типами систем.

Физическая модель данных может строиться на нескольких конструкциях, таких как модель сущность-связь, схема «звезда», схемы «снежинка», постоянное многомерное хранилище. В одном информационных хранилище могут быть реализовано несколько таких конструкций.

В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы. Нормализованные хранилища характеризуются как простые в создании и управлении, недостатки нормализованных хранилищ – большое количество таблиц как следствие нормализации, из-за чего для получения какой-либо информации нужно делать выборку из многих таблиц одновременно, что приводит к ухудшению производительности системы.

Схема звезды - специальная организация реляционных таблиц, удобная для хранения многомерных показателей. Лежит в основе реляционного OLAP.

Модель данных состоит из двух типов таблиц: одной таблицы фактов - центр «звезды» - и нескольких таблиц измерений по числу измерений в модели данных - лучи «звезды» (рис. 6).

Рис. 6. Схема звезды

Таблица фактов - является основной таблицей хранилища данных. Как правило, она содержит сведения об объектах или событиях, совокупность которых будет в дальнейшем анализироваться.

Таблица измерений - таблица в структуре многомерной базы данных, которая содержит атрибуты событий, сохраненных в таблице фактов. Атрибуты представляют собой текстовые или иные описания, логически объединенные в одно целое.

Схема снежинка (рис. 7) используется для нормализации схемы звезда. Она несколько сокращает избыточность в таблицах размерностей. Одним из достоинств является более быстрое выполнение запросов о структуре размерностей, которые очень часто выполняются при анализе данных, и могут задерживать ход анализа.

Рис. 7 Схема Снежинка

Хранилище данных имеет структуру в виде «гиперкуба» - многомерного куба пространства агрегированных множеств (или значений). Величины, хранящиеся в ячейках этого куба и называемые фактами, представляют собой количественные показатели, характеризующие деятельность организации. Измерения куба представляют собой множество однотипных данных, предназначенных для описания фактов. В качестве примеров детализации измерений могут выступать филиалы, объединенные по территориальному признаку; поставщики или потребители продукции; даты (или интервалы), на которые производились вычисления. Каждая ячейка данного куба "отвечает" за конкретный набор значений по его измерениям.