1.1 Технологии оперативной аналитической обработки данных
В настоящее время огромные объемы данных накапливаются в учетных, так называемых транзакционных (OLTP), системах.
Такие системы строятся на основе современных СУБД, в которых развит механизм управления транзакциями, что сделало их основным средством создания систем оперативной обработки транзакций (OLTP-систем, On-Line Transactions Processing).
Основной задачей таких систем является обеспечение выполнения операций с БД. В таких системах почти всегда предусмотрены и поисковые функции, в том числе позволяющие выводить некоторую итоговую и агрегированную информацию.
Но возможности таких систем для выполнения комплексного, углубленного анализа данных, позволяющего принимать обоснованные решения, ограничены.
Без продуктивной переработки и анализа колоссальные потоки информационной руды, т.е. сырые данные, образуют никому не нужную свалку.
В связи с этим возникла необходимость создания аналитических систем, которые бы позволяли превратить сырые данные в полезные информацию и знания, на основе которых можно принимать управленческие решения.
Анализ данных в той или иной степени проводится во многих информационных системах, в том числе и в OLTP-системах. Но виды анализа данных различаются в зависимости от гибкости и глубины проводимого анализа.
Информационно-поисковый анализ - анализ данных, проводимый по заранее определенным, т.е. заранее заданным видам запросов (регламентированным запросам).
Оперативно-аналитический анализ – анализ данных, который требует формирования нерегламентированных запросов, когда невозможно заранее предсказать, какие запросы понадобятся пользователю.
Интеллектуальный анализ – глубокий анализ данных, позволяющий получать из имеющихся данных скрытые для пользователя знания, такие как:
функциональные и логические закономерности в накопленных данных;
модели и правила, объясняющие найденные закономерности;
прогнозы развития процессов.
Сравнение характеристик различных видов анализа данных иллюстрирует таблица 1.1.
Таблица 1.1 - Сравнение видов анализа данных
Характеристики | Виды анализа данных | ||
Информационно-поисковый анализ | Оперативно-аналитический анализ | Интеллектуальный анализ | |
Виды запросов | Регламентированные | Нерегламентированные | Глубокий анализ |
Вид получаемых данных | Выборки сырых данных | Обобщенная, сгруппированная, агрегированная информация | Модели, шаблоны, закономерности, знания |
Решаемые задачи | Получение выборок данных | Грубый разведочный анализ, проверка заранее сформулированных гипотез | Получение новых, нетривиальных, скрытых знаний |
Уровень интерактивности | Низкий | Интерактивное взаимодействие с информацией | Интерактивное взаимодействие с информацией |
Таблица 2.1 - Сравнение видов анализа данных
Роль компьютера | Извлечение данных | Извлечение данных, визуализация данных | Извлечение данных, визуализация данных, обработка данных математическими методами |
Подбор моделей и обработка данных | Пользователь | Пользователь | Компьютер |
Применяемые методы анализа | Элементарные статистики | Математическая статистика | Методы Data Mining |
В соответствии с рассмотренными выше видами анализа данных аналитические системы можно разделить на следующие группы:
1. Системы корпоративной отчетности:
используются для контроля оперативной ситуации и анализа отклонений (отвечают на вопрос «что происходит»);
предоставляют оперативные данные о результатах деятельности в виде заранее заданных форм отчетности;
базируются на информационно-поисковом анализе данных;
могут не использовать хранилище данных, а брать данные непосредственно из OLTP-систем;
предназначены для широкого круга конечных пользователей (клиенты, партнеры, фискальные учреждения).
2. Системы аналитической обработки данных и аналитической отчетности (OLAP-системы – системы оперативной аналитической обработки, On-Line Analytical Processing):
позволяют выполнять многомерный анализ данных по различным срезам;
обладают развитыми средствами аналитической отчетности и визуализации данных в виде различных типов таблиц, графиков и диаграмм;
базируются на оперативно-аналитическом анализе данных;
чаще всего используют хранилище данных, оптимизированное под задачи многомерного анализа данных;
ориентированы на пользователей, которым требуется постоянное интерактивное взаимодействие с информацией (менеджеры, аналитики).
3. Системы глубокого анализа данных:
обладают развитыми инструментами для проведения глубокого анализа;
позволяют получить нетривиальные, скрытые знания;
используют хранилище данных в качестве источника информации;
базируются на интеллектуальном анализе данных;
предназначены для аналитиков, обладающих знаниями в области методов анализа данных;
позволяют создавать законченные приложения для конечных пользователей в виде построенных моделей, шаблонов и отчетов.
Схематичное описание разделения аналитических систем по вышепредставленным группам отображено на рисунке 1.1.1.
OLAP (On-Line Analytical Processing) – технология оперативной аналитической обработки данных, использующая методы и средства сбора, хранения и анализа многомерных данных, в целях поддержки аналитической деятельности и возможности формирования нерегламентированных запросов и отчетов на их основе.
Рисунок 1.1.1 – Виды аналитических систем
OLAP-системы создаются для конечных пользователей и аналитиков, предоставляя им инструменты для анализа данных и проверки возникающих гипотез.
Известен тест, созданный в 1995 году, определяющий критерии, по которым систему можно отнести к классу OLAP-систем.
Этот тест получил название FASMI (Fast Analysis of Shared Multidimensional Information) (быстрый анализ совместно используемой многомерной информации) и в настоящее время широко используется.
В соответствии с тестом FASMI OLAP определяется пятью ключевыми словами:
Fast (Быстрый);
Analysis (Анализ);
Shared (Разделяемой);
Multidimensional (Многомерной);
Information (Информации).
Схематичное представление теста изображено на рисунке 1.1.2.
Рисунок 1.1.2 – Тест FASMI.
1. Fast (Быстрый)
OLAP-система должна обеспечить выдачу ответов на большинство запросов в пределах приблизительно 5 секунд. Для простых запросов этот показатель может быть 1 секунда, а для редкостных по сложности запросов он может достигать 20 секунд.
Исследования показывают, что если отклик не получен в течение 30 секунд, то пользователь перестает считать систему полезной. Он способен нажать комбинацию клавиш <Ctrl>+<Alt>+<Del>, если система не предупредит, что обработка данных требует большего времени.
Но даже если система предупредит пользователя о продолжительном времени обработки аналитического запроса, пользователь может отвлечься и потерять мысль, что негативно скажется на качестве анализа.
Такой скорости обработки нелегко достигнуть на огромных массивах данных, особенно если требуются нестандартные и сложные запросы, формируемые «на лету».
Для достижения данной цели разработчики OLAP-систем используют разные методы:
- динамическая предобработка данных;
- создание специальных программно-аппаратных решений;
- применение аппаратных платформ с большей производительностью.
Критерий скорости является наиболее критическим в определении принадлежности системы к классу OLAP.
2. Analysis (Анализ).
OLAP-система должна справляться с любым логическим и статистическим анализом, характерным для данной прикладной области.
Все требуемые функциональные возможности анализа должны обеспечиваться понятным для пользователя способом.
OLAP-система должна обладать гибкостью в выдаче графических результатов анализа и позволять формировать отчеты любым желаемым способом без необходимости программирования.
3. Shared (Разделяемой).
OLAP-система должна работать в многопользовательском режиме, в связи с чем особо встает вопрос обеспечения конфиденциальности информации и наличия в таких системах средств защиты информации (права доступа, авторизация доступа и т.д.).
4. Multidimensional (Многомерной).
OLAP-система должна обеспечивать многомерное представление данных. Речь не идет о числе измерений многомерной модели данных или размерах каждого измерения. Это зависит от конкретной прикладной области и решаемых аналитических задач.
5. Information (Информации).
OLAP-система должна обеспечивать получение необходимой информации в условиях реального приложения.
Мощность OLAP-системы определяется количеством входных данных, которые она может обработать. Способности OLAP-систем к обработке информации разнятся в 1000 раз, что определяется множеством факторов, включая требуемую оперативную память, использование дискового пространства, интеграцию с хранилищами данных и другими аналитическими компонентами.
Таким образом, в тесте FASMI сделан акцент на такие важные свойства OLAP-систем как скорость обработки, многопользовательский доступ, релевантность информации, наличие средств статистического анализа и многомерность, т.е. представление анализируемых фактов как функций от большого числа их характеризующих параметров.
- Минобрнауки россии
- 2011 Г. Минобрнауки россии
- Им. В.И.Ульянова (Ленина)” (сПбГэту) ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯
- Реферат
- Введение
- 1 Обзор и анализ программных технологий разработки web-приложений для аналитической обработки данных
- 1.1 Технологии оперативной аналитической обработки данных
- 1.2 Технологии аналитической обработки данных Microsoft sql Server
- Sql dso
- PivotTable Service, ole db for olap и ado md
- Клиенты аналитических служб.
- Analysis Manager
- Приложения Microsoft Office
- 1.3 Технологии аналитической обработки данных в среде .Net
- 2 Постановка задачи дипломного проекта
- 3 Разработка многомерных моделей данных для построения olap-кубов по международному научно-техническому и образовательному сотрудничеству вузов России
- 3.1 Анализ инфологической модели базы данных
- 3.3 Многомерная модель данных для построения olap-куба по международному научно-техническому сотрудничеству вузов и научных организаций России
- 4 Разработка интерфейса web-приложения для аналитической обработки данных
- 5 Разработка программного обеспечения web-приложения для аналитической обработки данных
- 5.1 Реализация подключения к источнику данных
- 5.2 Реализация получения данных из источника аналитических данных
- 5.3 Пространство имен System.Web
- 5.4 Пространство имен System.Data
- 6. Экономическое обоснование дипломного проекта.
- 6.1 Концепция
- 6.2 Трудоемкость выполнения работ
- 6.3 Определение себестоимости проведения нир
- 6.4 Экономическая эффективность проекта
- 6.5 Рентабельность
- 6.6 Качественная оценка
- 6.7 Выводы
- 8 Охрана интеллектуальной собственности
- 8.1 Интеллектуальная собственность
- 8.2 Программа для эвм
- 8.3 Правообладатель
- Лицензионный договор на использование программы для эвм
- 1 Термины и их определение
- 2 Предмет Договора
- 3 Обеспечение Договора
- 4 Усовершенствования
- 5 Платежи
- 6 Защита передаваемых прав
- 7 Ответственность Сторон и разрешение споров
- 8 Срок действия Договора и условия его расторжения
- 9 Заключительные положения
- 10 Адреса Сторон
- Прошунин и.С. Спбгэту в.М. Кутузов Заключение
- Список используемых источников