1.1 Технологии оперативной аналитической обработки данных
программный модель приложение данные
В настоящее время огромные объемы данных накапливаются в учетных, так называемых транзакционных (OLTP), системах.
Такие системы строятся на основе современных СУБД, в которых развит механизм управления транзакциями, что сделало их основным средством создания систем оперативной обработки транзакций (OLTP-систем, On-Line Transactions Processing).
Основной задачей таких систем является обеспечение выполнения операций с БД. В таких системах почти всегда предусмотрены и поисковые функции, в том числе позволяющие выводить некоторую итоговую и агрегированную информацию.
Но возможности таких систем для выполнения комплексного, углубленного анализа данных, позволяющего принимать обоснованные решения, ограничены.
Без продуктивной переработки и анализа колоссальные потоки информационной руды, т.е. сырые данные, образуют никому не нужную свалку.
В связи с этим возникла необходимость создания аналитических систем, которые бы позволяли превратить сырые данные в полезные информацию и знания, на основе которых можно принимать управленческие решения.
Анализ данных в той или иной степени проводится во многих информационных системах, в том числе и в OLTP-системах. Но виды анализа данных различаются в зависимости от гибкости и глубины проводимого анализа.
Информационно-поисковый анализ - анализ данных, проводимый по заранее определенным, т.е. заранее заданным видам запросов (регламентированным запросам).
Оперативно-аналитический анализ - анализ данных, который требует формирования нерегламентированных запросов, когда невозможно заранее предсказать, какие запросы понадобятся пользователю.
Интеллектуальный анализ - глубокий анализ данных, позволяющий получать из имеющихся данных скрытые для пользователя знания, такие как:
§ функциональные и логические закономерности в накопленных данных;
§ модели и правила, объясняющие найденные закономерности;
§ прогнозы развития процессов.
Сравнение характеристик различных видов анализа данных иллюстрирует таблица 1.1.
Таблица 1.1 - Сравнение видов анализа данных
Характеристики |
Виды анализа данных |
|||
Информационно-поисковый анализ |
Оперативно-аналитический анализ |
Интеллектуальный анализ |
||
Виды запросов |
Регламентированные |
Нерегламентированные |
Глубокий анализ |
|
Вид получаемых данных |
Выборки сырых данных |
Обобщенная, сгруппированная, агрегированная информация |
Модели, шаблоны, закономерности, знания |
|
Решаемые задачи |
Получение выборок данных |
Грубый разведочный анализ, проверка заранее сформулированных гипотез |
Получение новых, нетривиальных, скрытых знаний |
|
Уровень интерактивности |
Низкий |
Интерактивное взаимодействие с информацией |
Интерактивное взаимодействие с информацией |
Таблица 1.1 - Сравнение видов анализа данных
Роль компьютера |
Извлечение данных |
Извлечение данных, визуализация данных |
Извлечение данных, визуализация данных, обработка данных математическими методами |
|
Подбор моделей и обработка данных |
Пользователь |
Пользователь |
Компьютер |
|
Применяемые методы анализа |
Элементарные статистики |
Математическая статистика |
Методы Data Mining |
В соответствии с рассмотренными выше видами анализа данных аналитические системы можно разделить на следующие группы:
1. Системы корпоративной отчетности:
§ используются для контроля оперативной ситуации и анализа отклонений (отвечают на вопрос «что происходит»);
§ предоставляют оперативные данные о результатах деятельности в виде заранее заданных форм отчетности;
§ базируются на информационно-поисковом анализе данных;
§ могут не использовать хранилище данных, а брать данные непосредственно из OLTP-систем;
§ предназначены для широкого круга конечных пользователей (клиенты, партнеры, фискальные учреждения).
2. Системы аналитической обработки данных и аналитической отчетности (OLAP-системы - системы оперативной аналитической обработки, On-Line Analytical Processing):
§ позволяют выполнять многомерный анализ данных по различным срезам;
§ обладают развитыми средствами аналитической отчетности и визуализации данных в виде различных типов таблиц, графиков и диаграмм;
§ базируются на оперативно-аналитическом анализе данных;
§ чаще всего используют хранилище данных, оптимизированное под задачи многомерного анализа данных;
§ ориентированы на пользователей, которым требуется постоянное интерактивное взаимодействие с информацией (менеджеры, аналитики).
3. Системы глубокого анализа данных:
§ обладают развитыми инструментами для проведения глубокого анализа;
§ позволяют получить нетривиальные, скрытые знания;
§ используют хранилище данных в качестве источника информации;
§ базируются на интеллектуальном анализе данных;
§ предназначены для аналитиков, обладающих знаниями в области методов анализа данных;
§ позволяют создавать законченные приложения для конечных пользователей в виде построенных моделей, шаблонов и отчетов.
Схематичное описание разделения аналитических систем по вышепредставленным группам отображено на рисунке 1.1.1.
OLAP (On-Line Analytical Processing) - технология оперативной аналитической обработки данных, использующая методы и средства сбора, хранения и анализа многомерных данных, в целях поддержки аналитической деятельности и возможности формирования нерегламентированных запросов и отчетов на их основе.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Рисунок 1.1.1 - Виды аналитических систем
OLAP-системы создаются для конечных пользователей и аналитиков, предоставляя им инструменты для анализа данных и проверки возникающих гипотез.
Известен тест, созданный в 1995 году, определяющий критерии, по которым систему можно отнести к классу OLAP-систем.
Этот тест получил название FASMI (Fast Analysis of Shared Multidimensional Information) (быстрый анализ совместно используемой многомерной информации) и в настоящее время широко используется.
В соответствии с тестом FASMI OLAP определяется пятью ключевыми словами:
§ Fast (Быстрый);
§ Analysis (Анализ);
§ Shared (Разделяемой);
§ Multidimensional (Многомерной);
§ Information (Информации).
Схематичное представление теста изображено на рисунке 1.1.2.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Рисунок 1.1.2 - Тест FASMI.
1. Fast (Быстрый)
OLAP-система должна обеспечить выдачу ответов на большинство запросов в пределах приблизительно 5 секунд. Для простых запросов этот показатель может быть 1 секунда, а для редкостных по сложности запросов он может достигать 20 секунд.
Исследования показывают, что если отклик не получен в течение 30 секунд, то пользователь перестает считать систему полезной. Он способен нажать комбинацию клавиш <Ctrl>+<Alt>+<Del>, если система не предупредит, что обработка данных требует большего времени.
Но даже если система предупредит пользователя о продолжительном времени обработки аналитического запроса, пользователь может отвлечься и потерять мысль, что негативно скажется на качестве анализа.
Такой скорости обработки нелегко достигнуть на огромных массивах данных, особенно если требуются нестандартные и сложные запросы, формируемые «на лету».
Для достижения данной цели разработчики OLAP-систем используют разные методы:
- динамическая предобработка данных;
- создание специальных программно-аппаратных решений;
- применение аппаратных платформ с большей производительностью.
Критерий скорости является наиболее критическим в определении принадлежности системы к классу OLAP.
2. Analysis (Анализ).
OLAP-система должна справляться с любым логическим и статистическим анализом, характерным для данной прикладной области.
Все требуемые функциональные возможности анализа должны обеспечиваться понятным для пользователя способом.
OLAP-система должна обладать гибкостью в выдаче графических результатов анализа и позволять формировать отчеты любым желаемым способом без необходимости программирования.
3. Shared (Разделяемой).
OLAP-система должна работать в многопользовательском режиме, в связи с чем особо встает вопрос обеспечения конфиденциальности информации и наличия в таких системах средств защиты информации (права доступа, авторизация доступа и т.д.).
4. Multidimensional (Многомерной).
OLAP-система должна обеспечивать многомерное представление данных. Речь не идет о числе измерений многомерной модели данных или размерах каждого измерения. Это зависит от конкретной прикладной области и решаемых аналитических задач.
5. Information (Информации).
OLAP-система должна обеспечивать получение необходимой информации в условиях реального приложения.
Мощность OLAP-системы определяется количеством входных данных, которые она может обработать. Способности OLAP-систем к обработке информации разнятся в 1000 раз, что определяется множеством факторов, включая требуемую оперативную память, использование дискового пространства, интеграцию с хранилищами данных и другими аналитическими компонентами.
Таким образом, в тесте FASMI сделан акцент на такие важные свойства OLAP-систем как скорость обработки, многопользовательский доступ, релевантность информации, наличие средств статистического анализа и многомерность, т.е. представление анализируемых фактов как функций от большого числа их характеризующих параметров.
- Введение
- 1 Обзор и анализ программных технологий разработки WEB-приложений для аналитической обработки данных
- 1.1 Технологии оперативной аналитической обработки данных
- 1.2 Технологии аналитической обработки данных Microsoft SQL Server
- 1.3 Технологии аналитической обработки данных в среде .NET
- 2. Постановка задачи дипломного проекта
- 3. Разработка многомерных моделей данных для построения OLAP-кубов по международному научно-техническому и образовательному сотрудничеству вузов России
- 3.1 Анализ инфологической модели базы данных
- 3.2 Анализ концептуальной схемы базы данных
- Реферат
- Им. В.И.Ульянова (Ленина)” (сПбГэту) ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯
- 8.3 Правообладатель
- 4 Разработка интерфейса web-приложения для аналитической обработки данных
- Лицензионный договор на использование программы для эвм
- 2 Постановка задачи дипломного проекта
- Минобрнауки россии
- Введение
- Активизация международного научно-технического сотрудничества
- 1.2 Научно-техническая информация