logo
Практические работы

2.2. Deductor Warehouse

Хранилище данных Deductor Warehouse – это специально организованная база данных, ориентированная на решение задач анализа данных и поддержки принятия решений, обеспечивающая максимально быстрый и удобный доступ к информации. ХД Deductor Warehouse соответствует модели ROLAP (схема «снежинка») и может быть развернуто на одной из следующих СУБД: Firebird, SQL Server, Oracle (в версии Academic – только на Firebird). С Deductor Warehouse на базе Firebird имеется возможность работать локально при помощи динамической библиотеки fbclient.dll (поставляется вместе с Deductor).

Хранилище данных Deductor Warehouse включает в себя потоки данных, поступающие из различных источников, и специальный семантический слой, содержащий так называемые метаданные (данные о данных). Семантический слой и сами данные хранятся в одной СУБД.

Запрос к хранилищу осуществляется непосредственно сквозь семантический слой, который через внутреннюю систему команд (скрытую от пользователя и аналитика) подбирает запрашиваемую информацию из многообразия хранимых данных. Работу семантического слоя можно сравнить с деятельностью библиотекаря, который по просьбе читателя достает с разрозненных полок книги и раскрывает их на нужных страницах.

Все данные в Deductor Warehouse хранятся в структурах типа «снежинка», где в центре расположены таблицы фактов, а «лучами» являются измерения, причем каждое измерение может ссылаться на другое измерение. Именно эта схема чаще всего встречается в реляционных хранилищах данных (рис. 2.1).

Рис. 2.1. Структура Deductor Warehouse

В Deductor Warehouse имеются следующие типы объектов.

Измерение – последовательность значений одного из анализируемых параметров. Например, для параметра Время это последовательность календарных дней, для параметра Регион – список городов. Каждое значение измерения может быть представлено координатой в многомерном пространстве процесса, например Товар, Клиент, Дата.

Атрибут – свойство измерения (то есть точки в пространстве). Атрибут как бы скрыт внутри другого измерения и помогает пользователю полнее описать исследуемое измерение. Атрибутами измерения Товар могут выступать Цвет, Вес, Габариты.

Факт – значение, соответствующее измерению. Факты – это данные, отражающие сущность события. Как правило, фактами являются численные значения, например сумма и количество отгруженного товара, скидка.

Ссылка на измерение – установленная связь между двумя и более измерениями. Дело в том, что некоторые бизнес-понятия (соответствующие измерениям в хранилище данных) могут образовывать иерархии, например, Товары могут включать Продукты питания и Лекарственные препараты, которые, в свою очередь, подразделяются на группы продуктов и лекарств и т. д. В этом случае первое измерение содержит ссылку на второе, второе – на третье и т.д.

Процесс – совокупность измерений, фактов и атрибутов. По сути, процесс и есть «куб», «снежинка». Процесс описывает определенное действие, например продажи товара, отгрузки, поступления денежных средств и пр.

Атрибут процесса – свойство процесса. Атрибут процесса, в отличие от измерения, не определяет координату в многомерном пространстве. Это справочное значение, относящееся к процессу, например № накладной, Валюта документа и т.д. Значение атрибута процесса, в отличие от измерения, не всегда может быть определено.

В Deductor Warehouse может одновременно храниться множество процессов («звезд» или «снежинок»), имеющих общие измерения, например измерение Товар, фигурирующее в процессах Поступления и Отгрузка.

Все загружаемые в ХД данные обязательно должны быть определены как измерение, атрибут либо факт (рис. 2.2).

Рис. 2.2. Проектирование структуры хранилища

Информация о принадлежности данных к тому или иному типу (измерение, ссылка на измерение, атрибут или факт) содержится в семантическом слое хранилища. Обратим внимание на то, что: