Модели данных, используемые для построения информационных хранилищ
В основе концепции хранилища данных лежат две основные идеи: интеграция разъединенных детализированных данных, то есть данных, описывающих некоторые конкретные факты, свойства, события, в едином хранилище и разделение наборов данных и приложений, используемых для обработки и анализа. Хранилища строятся на основе многомерной модели данных, подразумевающей выделение отдельных измерений и фактов с их анализом по выбранным измерениям. Многомерная модель данных физически может быть реализована как в многомерных, так и в реляционных СУБД..
В настоящее время для построения информационных хранилищ используется два архитектурных направления:
- нормализованные хранилища данных;
- хранилища с измерениями.
Первый базируется на обработке текущего потока транзакций и представляет текущий или, охватывающий небольшой временной период, поток информации. Второй основан на сборе и подготовке большого по объему и временному периоду (от 5 лет) массива информации, предназначенного для проведения анализа данных. Развитие концепции информационных хранилищ позволило провести границы между двумя типами систем.
Физическая модель данных может строиться на нескольких конструкциях, таких как модель сущность-связь, схема «звезда», схемы «снежинка», постоянное многомерное хранилище. В одном информационных хранилище могут быть реализовано несколько таких конструкций.
В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы. Нормализованные хранилища характеризуются как простые в создании и управлении, недостатки нормализованных хранилищ – большое количество таблиц как следствие нормализации, из-за чего для получения какой-либо информации нужно делать выборку из многих таблиц одновременно, что приводит к ухудшению производительности системы.
Схема звезды - специальная организация реляционных таблиц, удобная для хранения многомерных показателей. Лежит в основе реляционного OLAP.
Модель данных состоит из двух типов таблиц: одной таблицы фактов - центр «звезды» - и нескольких таблиц измерений по числу измерений в модели данных - лучи «звезды» (рис. 6).
Рис. 6. Схема звезды
Таблица фактов - является основной таблицей хранилища данных. Как правило, она содержит сведения об объектах или событиях, совокупность которых будет в дальнейшем анализироваться.
Таблица измерений - таблица в структуре многомерной базы данных, которая содержит атрибуты событий, сохраненных в таблице фактов. Атрибуты представляют собой текстовые или иные описания, логически объединенные в одно целое.
Схема снежинка (рис. 7) используется для нормализации схемы звезда. Она несколько сокращает избыточность в таблицах размерностей. Одним из достоинств является более быстрое выполнение запросов о структуре размерностей, которые очень часто выполняются при анализе данных, и могут задерживать ход анализа.
Рис. 7 Схема Снежинка
Хранилище данных имеет структуру в виде «гиперкуба» - многомерного куба пространства агрегированных множеств (или значений). Величины, хранящиеся в ячейках этого куба и называемые фактами, представляют собой количественные показатели, характеризующие деятельность организации. Измерения куба представляют собой множество однотипных данных, предназначенных для описания фактов. В качестве примеров детализации измерений могут выступать филиалы, объединенные по территориальному признаку; поставщики или потребители продукции; даты (или интервалы), на которые производились вычисления. Каждая ячейка данного куба "отвечает" за конкретный набор значений по его измерениям.
- Санкт-Петербург
- Раздел 1. Информационные процессы, системы и технологии 10
- Тема 1. Основные понятия информатики. Информатизация общества 10
- Тема 2. Основные сведения об информации и информационных процессах 25
- Тема 3. Информационные системы и технологии 37
- Раздел 2. Проектирование баз данных 59
- Тема 4. Основные понятия теории баз данных. Модели данных. 59
- Предусловие
- Введение
- Раздел 1. Информационные процессы, системы и технологии тема 1. Основные понятия информатики. Информатизация общества Понятие информации
- Взаимосвязь процессов компьютеризации и информатизации
- Понятие информационного ресурса, его потенциала и возможностей использования
- Основные проблемы информационного обеспечения науки, техники производства и управления
- Организационно-экономические аспекты информатизации
- Понятие технико-экономического обоснования
- Системно-информационный анализ и синтез в информатизации
- Новые информационные технологии в социально-экономических процессах
- Современные технические и программные средства информационных технологий.
- Вопросы по теме
- Тема 2. Основные сведения об информации и информационных процессах Понятие данных. Информация и ее роль в управлении.
- Атрибутивные и функциональные свойства информации
- Адекватность информации
- Общая характеристика процессов сбора, передачи, обработки и накопления информации.
- Системы классификации, кодирования и организации информации.
- Общая характеристика, назначение, классификация, структура и эффективность информационных систем
- Информационные технологии: общая характеристика, назначение, классификация
- Понятие информационного обеспечения, основные формы, принципы, организация личного и корпоративного информационного обеспечения
- Информатизация управленческого решения
- Модели решения функциональных и вычислительных задач.
- Предметная область. Модель предметной области
- Объекты и атрибуты, связи между объектами и атрибутами объектов
- Концептуальная модель
- Типы моделей данных
- Реляционная модель данных. Основные определения: отношения, домены, кортежи, атрибуты
- Первичный ключ. Свойства отношений реляционной бд
- Ограничения на отношения, основные операции над отношениями
- Вопросы по теме
- Тема 5. Основы проектирования баз данных Методология проектирования бд
- Основные этапы проектирования бд
- Методы проектирования
- Использование case - технологии при проектировании базы данных.
- Вопросы по теме
- Тема 6. Технологии обработки экономической информацией на основе использования субд Системы управления базами данных, их эволюция и классификация
- Функции субд. Типовая организация субд
- Состав и назначение языковых средств субд
- Информационная безопасность баз данных
- Перспективы развития субд
- Информационные хранилища данных
- Модели данных, используемые для построения информационных хранилищ
- Вопросы по теме
- Раздел 3. Субд access тема 7. Субд Access и ее структура Основные объекты Access
- Режимы доступа к базе данных
- Понятие о синхронизации и репликациях базы данных
- Администрирование базы данных
- Поля, их типы и свойства
- Фильтрация и сортировка записей в таблицах
- Вопросы по теме
- Тема 9. Конструирование запросов Запросы qbe и запросы sql
- Основы конструирования qbe-запросов
- Запросы на выборку
- Запросы-действия
- Вопросы по теме
- Тема 10. Конструирование форм и отчетов Основы конструирования форм
- Структура формы
- Элементы управления
- Основы конструирования отчетов
- Структура отчет. Группировка данных в отчетах
- Использование вычисляемых полей в отчете.
- Вопросы по теме
- Тема 11. Средства автоматизации субд Основы конструирования макросов. Структура макроса. Виды макрокоманд.
- Создание макроса данных, управляемого событием. Создание именованного макроса данных
- Сведения о параметрах
- Управление макросами данных
- Создание изолированных макросов
- Создание внедренного макроса
- Создание вложенных макросов
- Вопросы по теме
- Тема 13. Основы языка sql История развития sql.
- Основы языка sql
- Вопросы по теме
- Заключение
- Список литературы