logo search
Мат мод консп сум-2012

Хранилища данных и системы оперативной аналитической обработки данных

Рассмотренные способы и возможные архитектуры информационных систем, предназначены для оперативной обработки данных, т.е. для получения текущей информации, позволяющей решать повседневные проблемы корпорации. Объективно сложилось так, что внедрение информационных технологий в подавляющем большинстве организаций осуществлялось без стратегического плана развития (по мере развития технического и программного обеспечения, по мере осознания необходимости автоматизации того или иного участка деятельности), отдельными, изолированными друг от друга фрагментами.

Следствием этого на сегодняшний день в большинстве организаций функционируют разнородные и слабо связанные между собой информационные системы, которые функционируют на различных технических и операционно-системных платформах, и используют различные СУБД. Эти системы обслуживают в первую очередь текущую, повседневную деятельность отдельных подразделений (бухгалтерию, кадры, склад, маркетинг и т.д.). Такие информационные системы получили название транзакционных или OLTP (On-Line Transactions Processing).

Существующее состояние корпоративных информационных систем характеризуется значительно возросшим объемом данных, накопленных за многие годы. Накопленные данные позволяют ставить и решать значительно более сложные задачи тактического и стратегического планирования развития компании и ее подразделений – возрос удельный вес задач по извлечению, сбору и представлению пользователю информации о состоянии и прогнозе развития. Проанализировав поведение корпорации на рынке с учетом сопутствующих внешних факторов и спрогнозировав хотя бы ближайшее будущее, требуется выработать тактику, а возможно, и стратегию корпорации. Для решения таких задач требуются данные и прикладные программы, отличные от тех, которые используются в оперативных информационных системах. В результате выработался подход, основанный на концепциях хранилища данных и системы оперативной аналитической обработки данных.

Информационные системы, ориентированные на решение подобного класса задач, получили название систем поддержки принятия решений. Подобные системы генерировали заранее предопределенные формы предоставления информации на основе данных, получаемых из транзакционных систем. Каждый раз, при построении нового отчета, приходится обеспечивать совместный доступ к данным, имеющимся в транзакционных системах, при помощи сетевого оборудования и средств операционных систем. По мере увеличения количества корпоративных транзакционных систем, объемов данных и задач топология объединения разрозненных источников данных все более усложнялась.

Для эффективного решения задач управления необходимо предоставить пользователям единый взгляд на корпоративную информацию независимо от того, где она физически хранится, - появилась технология хранилищ данных.

Одна из главных идей технологии хранилищ данных заключается в том, чтобы собрать в едином, по крайней мере с точки зрения пользователя, месте – супербазе всю информацию, которая может понадобиться при принятии решения.

Два подхода к интеграции корпоративной информации: децентрализованное и централизованное объединение источников.

Основа такого хранилища данных – информационные системы, основанные на различных СУБД, обслуживающие повседневную деятельность.

Хранилища данных не заменяют существующие системы, а являются надстройкой над ними.

Хранилище данных (Data Warehouse) — предметно-ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации. Строится на базе систем управления базами данных и систем поддержки принятия решений. Это одни из наиболее динамично развивающихся направлений индустрии информационных систем.

Основная цель хранилищ – создание единого логического представления данных, содержащихся в разнотипных БД, - единой модели корпоративных данных, ориентированных на поддержку принятия управленческих решений.

Хранилище данных - неизменяемое собрание данных, предметно ориентированное, интегрированное, поддерживающее хронологию.

Хранилище данных - автоматизированная система, состоящая из организационных, технических средств, БД или совокупности БД (хранилище в узком смысле) и программного обеспечения со следующими функциями:

- извлечение данных из разрозненных источников, их трансформация и загрузка в хранилище;

- извлечение данных из хранилища, аналитическая обработка и представление конечному пользователю;

- администрирование данных и хранилища.

Такое расширенное толкование данных понимается как "Система поддержки принятия решения (СППР)" или "OLAP-система".

OLAP-система имеет отличное от OLTP-систем функциональное назначение - не заменяет их, а надстраивается над ними и использует транзакционные системы в качестве источников данных. OLAP-система не анализирует данные, а предоставляет пользователю инструмент для такого анализа.

Данные архивов и внешних источников используются транзакционными (OLTP) и аналитическими (OLAP) системами. С помощью транзакционных систем решаются задачи обеспечения оперативной информацией и оперативными регламентированными отчетами (на основе реляционных баз данных), с помощью аналитических систем – задачи обеспечения аналитическими данными, нерегламентированными отчетами (на основе реляционных и многомерных баз данных).

Распределение функций между аналитическими и транзакционными информационными системами для различных типов пользователей приведено на рисунке.

OLTP-системы строятся на основе реляционной модели.

OLAP-системы могут быть построены как на основе реляционной базы (Relation OLAP - ROLAP), так и на основе многомерных баз (Multidimensional OLAP - MOLAP).

Производительность многомерных баз на несколько порядков выше и не зависит от объема данных в базе.

В многомерной модели данные представляются в виде многомерного куба, где измерения соответствуют осям, а данные – ячейкам. Многомерная модель позволяет делать плоские разрезы куба и поворачивать его нужной гранью в зависимости от потребности.

Структура организации хранилища ориентирована на предметные области.

Рассогласование приложений прикладного окружения объясняется множеством средств разработки, каждое из которых диктует определенные правила, и множеством способов разработки приложений, что отражается на способах создания ключевых структур. Полной согласованности между системами, созданными в разное время различными разработчиками, не будет.

Распределение функций между аналитическими и транзакционными информационными системами

Компоненты хранилища: подсистемы загрузки данных из различных источников, обработки запросов и представления данных, администрирования хранилища.

Подсистема загрузки извлекает данные из источников и приводит их к единому формату, определенному для хранилища. Подсистема обеспечивает согласованность, качество и интеграцию данных, которые загружаются из источников в оперативный склад данных. Каждый источник данных требует разработки собственного загрузочного модуля.

Подсистема обработки запросов и представления данных обеспечивает: регламентированные и нерегламентированные запросы пользователей, а также реализует сложные алгоритмы для поиска скрытых закономерностей и представления их в виде моделей и многовариантного прогнозирования развития ситуаций.

Подсистема администрирования обеспечивает регулярное пополнение данных, поддержание архитектуры хранилища и его эффективной работы, разграничение доступа к данным и защиту информации.

В состав программного обеспечения, предназначенного для проектирования, создания и сопровождения СППР входят: серверы реляционных и многомерных баз данных, серверы приложений, средства разработки программного обеспечения компонентов хранилища и приложений, готовые приложения.