logo
Информационные технологии управления

Требования к olap-средствам

Аббревиатура OLAP была впервые введена Коддом (E.F.Kodd), известным ученым в области реляционных БД, создателем широко распространенной реляционной модели. В своей работе, инициированной компанией Arbor Software (сегодня это Hyperion Solutions) "Providing OLAP to User Analysis: AN IT MAN-DATE"(Обеспечение OLAP (оперативной аналитической обработки) для пользователей – аналитиков) в 1993 г ., он определил:

  • основной недостаток реляционной модели как невозможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом»

  • общие требования к системам OLAP, расширяющим функциональность реляционных СУБД и включающим многомерный анализ как одну из своих характеристик.

Кодд сформулировал концепцию комплексного многомерного анализа данных, накопленных в хранилище, в виде 12 основных правил, которым должны удовлетворять OLAP-системы, как продукты, предоставляющие возможность выполнения оперативной аналитической обработки. В 1995 году к ним были добавлены еще шесть (которые известны в значительно меньшей степени). Все эти правила разделены на четыре группы и названы «характеристиками» (features, особенности). Ниже дано краткое описание этих особенностей, однако сегодня они редко цитируются и мало используются:

  • Основные характеристики OLAP:

    • многомерность модели данных (оригинальное правило 1). Эта особенность - сердцевина OLAP;

    • прозрачность (оригинальное правило 2),

    • доступность данных, пакетное извлечение данных (оригинальное правило 3),

    • архитектура «клиент-сервер» (оригинальное правило 5),

    • многопользовательская работа (оригинальное правило 8),

    • интуитивные механизмы манипулирования данными (оригинальное правило 10),

    • пакетное извлечение против интерпретации (новое). Это правило требует, чтобы продукт в равной степени эффективно обеспечивал доступ как к собственному хранилищу данных, так и к внешним данным. К большому сожалению лишь небольшая часть OLAP продуктов должным образом соответствует ей, и среди них редкие делают это легко или автоматически. Сегодня это соответствует определению гибридных OLAP, которые, в самом деле, становятся наиболее популярной архитектурой

    • модели анализа OLAP (новое). OLAP-продукты должны поддерживать четыре модели анализа (Категориальный, Толковательный, Умозрительный и Стереотипный) которые можно определить как формирование параметрически настраиваемых отчетов, формирование разрезов и группировок с обращением, анализом в стиле "что, если" и моделями поиска целей, соответственно.

  • Специальные характеристики:

    • Обработка ненормализованных данных (новое)

Указывает на необходимость интеграции между OLAP-машиной и ненормализованными источниками данных. Не должны допускаться изменения данных, которые обычно расцениваются как расчетные ячейки в пределах БД OLAP.,

    • Хранение результатов отдельно от исходных данных (новое)

В действительности это боле относится к реализации, чем к сущности продукта. OLAP приложения, работающие в режиме чтения/записи не должны воздействовать напрямую на обрабатываемые данные, и данные, модифицированные в OLAP, должны сохраняться отдельно от данных транзакций. Например, метод обратной записи данных, использованный в Microsoft OLAP Services, является лучшей реализацией этого, поскольку позволяет сохранять данные, измененные в среде OLAP, отдельно от основных данных.

    • Выделение пропущенных данных (новое)

Пропущенные данные (Missing Data, Missing Value) – это особый элемент данных, который сигнализирует о том, что в данной ячейке данные отсутствуют и/или не определены. Это может быть как вследствие того, что рассматриваемая комбинация элементов не имеет смысла (например, снегоходы не могут продаваться в экваториальных странах), так и того, что данные не были введены. Термин "Пропущенные данные" по своему значению близок к термину "Пустое значение данных", однако, это не то же самое, что "Нулевое значение". В действительности это интересно только с точки зрения компактности хранения данных, некоторые OLAP инструменты игнорируют это правило без больших потерь в функциональности.

    • Обработка отсутствующих значений (новое)

Все отсутствующие значения будут игнорироваться OLAP анализатором без учета их источника. Эта особенность связана с предыдущей и является почти неизбежным следствием того, как OLAP-машина обрабатывает все данные.

  • Характеристики построения отчетов:

    • стабильная производительность при построении отчетов (оригинальное правило 4),

    • автоматическая настройка физического уровня(замена оригинального правила 7),

    • гибкое построение отчетов (оригинальное правило 11).

  • Управление размерностью:

    • общая функциональность - универсальность измерений (оригинальное правило 6),

    • неограниченные операции между данными различных измерений (оригинальное правило 9)

    • неограниченное число измерений и уровней агрегирования (оригинальное правило 12).

Работа с OLAP-системами может быть построена на основе из двух схем:

OLAP-средства, встроенные в настольные приложения

Такие средства, как правило, имеют множество ограничений: на количество измерений, на допустимые иерархии и так далее.

Двухступенчатую схему "клиент-сервер"

Сервер обеспечивает непосредственно извлечение информации из СУБД и все прочее, необходимое для создания кубов. Специализированное же приложение-клиент предназначено для удобного (а главное -эффективного) просмотра кубов и выявления тех самых аналитических закономерностей, с которых мы начинали наш экскурс.