Метаданные
Данные о данных Метаданные (Metadata) - это данные о данных. Метаданные представляют собой описание структуры данных и методов их обработки. Кроме того, в метаданных может содержаться дополнительная информация о БД, являющихся источниками и получателями информации, о сведениях, помещаемых в хранилище, а также о качестве данных в хранилище. Также метаданные включают сведения о преобразованиях данных, о дате последнего обновления и о правах доступа пользователей к информации. Плотная БД (Dense DB) Хотя MOLAP обеспечивает лучшую производительность, но их структуры нельзя использовать для обработки больших объемов данных, поскольку большая размерность потребует больших аппаратных ресурсов, а вместе с тем плотность гиперкубов может быть очень низкой и, следовательно, использование аппаратных мощностей не будет оправданным. Наоборот, ROLAP обеспечивает обработку на больших массивах хранимых данных, так как возможно обеспечение более экономичного хранения, но, вместе с тем, значительно проигрывает в скорости работы многомерной. Плотная БД (Dense DB) – это многомерная база данных, если относительно высокий процент (по крайней мере, 10%) возможных комбинаций ее измерений содержит данные. Агрегатные данные могут помещаться в служебные таблицы в той же БД. Преобразование данных из реляционной БД в многомерные кубы происходит по запросу OLAP-средства. При этом скорость построения куба будет сильно зависеть от типа источника данных и порой приводит к неприемлемому времени отклика системы. Для большинства ХД наиболее эффективным способом моделирования N-мерного куба фактов является схема "звезда" (star schema). |
Схема звезды
Схема звезды (Star schema) - схема построения большинство реляционных БД, ориентированных на использование средствами многомерного анализа. Ее идея заключается в том, что имеются таблицы для каждого измерения, а все факты помещаются в одну таблицу. Обычно измерения имеют несколько уровней, каждый из которых представлен в виде заголовка столбца таблицы измерения. Основными составляющими структуры ХД являются таблица фактов (fact table) и таблицы измерений (dimension tables). |
Таблица измерений
Таблица измерений содержит неизменяемые или редко изменяемые данные. В каждой таблице измерений перечислены возможные значения одного из измерений гиперкуба. В подавляющем большинстве случаев эти данные представляют собой по одной записи для каждого члена нижнего уровня иерархии в измерении. Таблицы измерений также содержат как минимум одно описательное поле (обычно с именем члена измерения) и, как правило, целочисленное ключевое поле (обычно это суррогатный ключ) для однозначной идентификации члена измерения. Каждая таблица измерений должна находиться в отношении "один ко многим" с таблицей фактов. В сложных задачах с многоуровневыми измерениями используется расширение схемы "звезда" - схема созвездие (fact constellation schema) и схема "снежинка" (snowflake schema). Ориентация на представление многомерной информации с помощью звездообразных реляционных моделей позволяет избавиться от проблемы оптимизации хранения разреженных матриц, остро стоящей перед многомерными СУБД (где проблема разреженности решается специальным выбором схемы). Хотя для хранения каждой ячейки в таблице фактов используется целая запись (которая помимо самих значений включает вторичные ключи – ссылки на таблицы измерений), несуществующие значения могут просто не быть включены в таблицу фактов, то есть наличие в базе пустых ячеек исключается. Индексирование обеспечивает приемлемую скорость доступа к данным в таблицах фактов. Увеличение числа таблиц фактов в БД может проистекать не только из множественности уровней различных измерений, но и из того обстоятельства, что в общем случае факты имеют разные множества измерений. При абстрагировании от отдельных измерений пользователь должен получать проекцию максимально полного гиперкуба, причем далеко не всегда значения показателей в ней должны являться результатом элементарного суммирования. Таким образом, при большом числе независимых измерений необходимо поддерживать множество таблиц фактов, соответствующих каждому возможному сочетанию выбранных в запросе измерений. Это позволяет добиться лучшей производительности, но часто приводит к избыточности данных и к значительным усложнениям в структуре БД, в которой оказывается огромное количество таблиц фактов Схема снежинки (Snowflake schema) На рисунке приведен фрагмент для одного измерения в схеме "снежинка". Схема снежинки (Snowflake schema) то же, что и схема звезды, но с нормализованными таблицами измерений. При такой структуре БД большинство запросов из области делового анализа объединяют центральную таблицу фактов с одной или несколькими таблицами измерений.
В любом случае, если многомерная модель реализуется в виде реляционной БД, следует создавать длинные и "узкие" таблицы фактов и сравнительно небольшие и "широкие" таблицы измерений. Таблицы фактов содержат численные значения ячеек гиперкуба, а остальные таблицы определяют содержащий их многомерный базис измерений. Часть информации можно получать с помощью динамической агрегации данных, распределенных по не звездообразным нормализованным структурам, хотя при этом следует помнить, что включающие агрегацию запросы при высоконормализованной структуре БД могут выполняться довольно медленно. Переход от OLTP к звездной схеме позволяет получить выигрыш в аналитических запросах, несмотря на то, что с точки зрения реляционной модели OLAP противоречит всем правилами нормализации, ибо здесь имеется масса избыточности, вычисляемых полей и т.д. В частности, повышая степень денормализации, любую "снежинку" можно привести к канонической "звезде". Далее, куб вообще можно представить в виде одной плоской таблицы, выписывая построчно все комбинации членов всех измерений с соответствующими им величинами мер. Примерно так, с точностью до пустот хранятся данные в истинно многомерном MOLAP кубе. Куб не хранит пустоты с целью экономии места. Ключи (координаты по измерениям) кодируются и сжимаются до 4 - 8 байт. Для быстрого доступа к значениям в кубах используются битовые индексы. Все сказанное означает, что MOLAP намного эффективнее проявляет себя в хранении, чем ROLAP, и при одинаковых объемах данных потребляет меньше места на диске, чем ROLAP-хранилище. Меньше места - меньше операций ввода/вывода. Кроме того, MOLAP не нуждается в отработке многочисленных join'ов, не заботится о блокировках, так как все операции происходят на чтение, и работает только с численными данными (мерами не могут быть строки, BLOBы и т.п.). Следовательно, MOLAP намного быстрее, чем ROLAP. Аналитические запросы к многомерным кубам имеют простую и компактную форму. |
Таблица фактов (итогов)
Таблица фактов (итогов) (Summary tables) является основной таблицей ХД. Это таблицы, которые содержат предварительно вычисленные на основе первичных данных, и для увеличения производительности запросов создаются по наиболее часто используемым измерениям. Как правило, она содержит сведения об объектах или событиях, совокупность которых будет в дальнейшем анализироваться. Если проводить аналогию с многомерной моделью, то строка таблицы фактов соответствует ячейке гиперкуба. Обычно говорят о четырех наиболее часто встречающихся типах фактов. К ним относятся факты, связанные с: транзакциями (Transaction facts) Они основаны на отдельных событиях (типичными примерами которых являются телефонный звонок или снятие денег со счета с помощью банкомата); "моментальными снимками " (Snapshot facts) Основаны на состоянии объекта (например, банковского счета) в определенные моменты времени, например на конец дня или месяца. Типичными примерами таких фактов являются объем продаж за день или дневная выручка; элементами документа (Line-item facts) Основаны на том или ином документе (например, счете за товар или услуги) и содержат подробную информацию об элементах этого документа (например, количестве, цене, проценте скидки); событиями или состоянием объекта (Event or state facts) Представляют возникновение события без подробностей о нем (например, просто факт продажи или факт отсутствия таковой без иных подробностей).
В общем случае факты имеют разные множества измерений, и тогда их удобно хранить не в одной, а в нескольких таблицах; кроме того, в различных запросах пользователей может интересовать только часть возможных измерений. Пример. Таблица Product Dim в этом примере может быть разбита на две: собственно изделия и категории изделий. Однако это все равно будет одно продуктовое измерение. Но при таком подходе при большом числе независимых измерений необходимо поддерживать множество таблиц фактов, соответствующих каждому возможному сочетанию выбранных в запросе измерений, что приводит к неэкономному использованию внешней памяти, увеличению времени загрузки данных в БД схемы звезды из внешних источников и сложностям администрирования. Таблица фактов индексируется по сложному ключу, составленному из ключей отдельных изменений. При этом как ключевые, так и некоторые неключевые поля таблицы фактов должны соответствовать будущим измерениям OLAP-куба. Помимо этого таблица фактов содержит одно или несколько числовых полей, на основании которых в дальнейшем будут получены агрегатные данные. Замечания:
|
- Области применения ит - информационных технологий
- Современные ит - информационные технологии
- Цели внедрения информационных технологий
- Этапы развития ит (информационных технологий)
- Информационная система
- Общие понятия об информационных системах - ис
- Основные задачи информационных систем - ис
- Пользователи информационных систем - ис
- Процессы в информационных системах - ис
- Система. Общие понятия о системе
- Современные информационные системы - ис
- Этапы развития информационных систем - ис
- Математическое и программное обеспечение информационных систем - ис
- Организационное обеспечение информационных систем - ис
- Правовое обеспечение ис - информационных систем
- Техническое обеспечение информационной системы - ис.
- Принципы и методы создания ис - информационных систем
- Методы и концепции создания ис - информационных систем
- Принципы создания информационных систем - ис
- Классификация информационных систем - ис
- Классификация ис по масштабности применения
- Классификация ис по концепции построения
- Классификация ис по оперативности обработки данных
- Классификация ис по признаку структурированности задач
- Классификация ис по сфере деятельности
- Классификация информационных систем по режиму работы
- Классификация информационных систем по степени автоматизации
- Классификация информационных систем по функциональности
- По квалификации персонала и управления
- По характеру обработки информации
- Аналитические ис репортинга, oltp, data mining
- Общие сведения об аналитических ис репортинга, oltp, data mining
- Базовая аналитическая система
- Классификация по области применения
- Классы аналитических систем
- Перспективы использования аналитических систем
- Применяемые виды анализа
- Системы репортинга
- Рынок систем репортинга
- Oltp - системы оперативной обработки транзакций
- Data Mining (dm) - интеллектуальный анализ данных
- Типы закономерностей
- Классы систем Data Mining - dm
- Алгоритмы ограниченного перебора
- Генетические алгоритмы
- Деревья решений (decision trees)
- Нейронные сети
- Предметно-ориентированные аналитические системы
- Системы для визуализации многомерных данных
- Системы рассуждений на основе аналогичных случаев
- Статистические пакеты
- Эволюционное программирование
- Бизнес-приложения Data Mining
- Банковское дело
- Медицина
- Молекулярная и генная инженерия
- Розничная торговля
- Страхование
- Телекоммуникации
- Проблемы, связанные с использованием Data Mining dm-технологии
- Olap-системы оперативной аналитической обработки данных
- Недостатки olap
- Основные преимущества olap-систем
- Предпосылки и причины появления olap
- Принципы проектирования и использования многомерных бд
- Типы используемых данных
- Многомерная модель данных
- Гиперкубические и поликубические модели данных
- Операции с измерениями
- Требования к olap-средствам
- 12 Основных правил olap- систем по Кодду
- Fasmi Пендса и Крита
- Кубы olap
- Спуск и консолидация
- Члены и метки. Иерархии. Аналитические операции.
- Классификация olap по типу доступа к бд
- Достоинства и недостатки rolap
- Метаданные
- Другие olap. Holap. Dolap. Jolap.
- По месту размещения olap - машин
- Olap-клиент
- Olap-сервер
- Применение olap - систем
- Преимущества и недостатки
- Определение dss (сппр)
- Характеристики dss (сппр)
- Структура сппр
- Бм и субм
- Классификация
- Основные функции субм
- Система управления интерфейсом
- Управление сообщениями. Электронная почта.
- Data Warehouse – хранилище данных - хд - систем обработки данных
- Цели и задачи хранилищ данных
- Концепция хд - хранилища данных
- Единый источник даннх
- Свойства данных
- Структура ис на основе хд
- Методы организации хд
- Data Mart - Витрины данных
- Интегрированное хд - хранилище данных
- Непроектируемые витрины данных
- Система постепенно развиваемых витрин данных
- Data Warehouse Bus - хд с архитектурой шины
- Объединенное (федеративное) хд
- Требования к техническому и программному обеспечению
- Основные компоненты хд
- Проблемы интеграции данных
- Сравнение оперативных и аналитических бд
- Средства и методы построения хд - хранилищ данных
- Применение готовых хранилищ данных
- Студии для построения хд - хранилищ данных
- Подход сверху вниз
- Подход снизу вверх
- Рекомендации по внедрению хд
- Финансовые хранилища данных (хд)
- Хд для управления человеческими ресурсами
- Хранилища данных (хд) в области телекоммуникаций
- Хранилища данных (хд) с возможностями Data Mining и Exploration
- Хранилища данных в области страхования
- Тенденции развития хранилищ данных
- Операции и процедуры
- Функции управления
- Принципы управления
- Информационные технологии и системы управления
- Информационные технологии управления
- Информационные системы управления (ису)
- Виды обеспечений в составе иасу
- Уровни управления
- Ис организационного управления (исоу)
- Ису "Галактика"
- Система управления Парус
- Корпоративные информационные системы - кис
- Определения и назначения кис
- Перспективы развития корпоративных информационных систем (кис)
- Современные корпоративные информационные системы
- Структура корпоративных информационных систем
- Требования к корпоративным базам данных
- Требования к техническому обеспечению кис
- Кис и Internet, Intranet-технологии
- Особенности создания кис на базе Workflow-систем
- Системы управления документами - суд
- Средства обработки бумажных документов
- Мировой рынок корпоративных информационных систем
- Экспертные интеллектуальные ис (информационные системы)
- Структура и типы сии
- Терминология систем искусственного интеллекта
- Эволюция экспертных систем
- Второе поколение экспертных интеллектуальных систем (эис)
- Первое поколение экспертных систем
- Третье поколение экспертных интеллектуальных систем (эис)
- Назначение экспертных интеллектуальных систем (эис)
- Структура экспертных интеллектуальных систем
- База знаний (бз). Правила.
- Интерфейс пользователя - диалог с экспертной системой
- Решатель (интерпретатор, дедуктивная машина)
- Виды знаний в экспертных системах
- Организация знаний в базе данных
- Уровни представления и уровни детальности
- Особенности разработки экспертных интеллектуальных систем
- Технология разработки экспертных интеллектуальных систем
- Основные компоненты ис офисной автоматизации
- Ис управления бизнес-процессами
- Определение вмр( управление бизнес-процессами)
- Примеры использования вмр(Business Performance Management)
- Ис банковской деятельности
- Программно-техническая платформа абс(автоматизированной банковской системы)
- Функциональная структура абс (автоматизированной банковской системы)
- Районный уровень статистичекой службы Украины
- Региональный (областной) уровень статистичекой службы Украины
- Центральный (государственный) уровень статистичекой службы Украины
- Ис в налоговых органах Украины
- Автоматизированная информационная система (аис) «Налоги»
- Ис(информационная система) в страховании
- Функциональные подсистемы аис «Страхование»
- Информационное обеспечение системы страхования
- Ис(информационные системы) управления персоналом
- Функциональная направленность систем управления персоналом
- Эффекты от внедрения hr-систем управления персоналом
- Ис(информационные системы) на основе производственных стандартов
- Эволюция стандартов планирования производства
- Стандарт mrp II (Manufacturing Resource Planning)
- Подробнее об mrp1 - стандарте планирования материальных ресурсов
- Входные элементы mrp-системы
- Основные операции, достоинства и недостатки mrp-системы
- Преимущества и процесс планирования mrp-систем
- Принцип работы mrp-системы и результаты работы
- Требования к производству для успешного внедрения mrp-системы
- Цели и задачи системы-mpr
- Процесс crp(Capacity Requirements Planning)
- Входные данные crp(Capacity Requirements Planning)
- Значение crp(Capacity Requirements Planning)
- Подробнее о mrpii - стандарте планирование производственных ресурсов
- Процессы mprii
- Цели и задачи системы-mprii
- Функциональные блоки mrp II
- Планирование потребностей в сырье и материалах
- Главный календарный план производства
- Инструментальное обеспечение
- Интерфейс с финансовым планированием
- Оценка деятельности ( Performance Measurement ) в mrp II
- Планирование продаж и операций
- Планирование ресурсов распределения
- Управление входным и выходным материальным потоком в mrp II
- Преимущества mprii
- Концепция erp-системы
- Структура erp - системы
- Общая характеристика erp
- Преимущества erp - системы
- Csrp - стандарт(Customer Synchronized Resource Planning) и система
- Современная концепция управления ресурсами csrp
- Преимущества csrp
- Жизненный цикл - общие понятия
- Жизненный цикл изделия (жци)
- Этапы жци
- Классификация данных в связи со стадиями жци
- Маркетинг и исследование жизненного цикла.
- Разработка-производство жц
- Этапы жц промышленных изделий и системы их автоматизации
- Жизненный цикл ис
- Жизненный цикл производственных ис
- Cals-методология поддержки жц ис
- Cals-стратегия
- Cals-технологии
- Базовые принципы cals-технологии
- Безмужаное представление информации
- Виртуальное производство
- Интегрированная информационная среда cals
- Концепция cals
- Параллельный инжиниринг
- Реинжиниринг бизнес-процессов
- Системы cals
- Управление процессами
- Стандарты cals
- Другие стандарты cals
- Стандарт iso 10303 (step)
- Стандарт iso 13584 (p_lib) и семейство стандартов idef
- Применение cals