1.4 Анализ данных – основные принципы
Анализ информации является неотъемлемой частью ведения бизнеса и одним из важных факторов повышения его конкурентоспособности. При этом в подавляющем большинстве случаев анализ сводится к применению одних и тех же базовых механизмов. Они являются универсальными и применимы к любой предметной области, благодаря чему имеется возможность создания унифицированной программной платформы, в которой реализованы основные механизмы анализа.
Обычно анализ производят аналитики и эксперты предметной области предприятия. Они подготавливают данные к пригодному для анализа виду, применяют к ним различные методы анализа, приводят результаты к легко воспринимаемому виду. Результаты анализа необходимы лицам предприятия, принимающим решения, например, руководителям отделов, менеджерам.
Таким образом, требуется, с одной стороны, выделить и формализовать знание эксперта о предметной области, с другой, обеспечить возможность использовать эти знания человеком, не разбирающимся в особенностях использования механизмов анализа, т.е. решить проблему тиражирования знаний.
Любая организация в процессе своей деятельности стремится повысить прибыль и уменьшить расходы. В этом ей помогают новые компьютерные технологии, использование разнообразных программ автоматизации бизнес-процессов. Это учетные, бухгалтерские и складские системы, системы управленческого учета и многие другие. Чем аккуратнее и полнее ведется сбор и систематизация информации, тем полнее будет представление о процессах в организации.
Современные носители информации позволяют хранить десятки и сотни гигабайт информации, но без использования специальных средств анализа накопленной информации такие носители превращаются просто в свалку бесполезных сведений. Очень часто принятие правильного решения затруднено тем, что хотя данные и имеются, они являются неполными, или, наоборот, избыточными, замусорены информацией, которая вообще не имеет отношения к делу, несистематизированными или систематизированными неверно. Тогда прибегают к помощи программных средств, которые позволяют привести информацию к виду, который дает возможность с достаточной степенью достоверности оценить содержащиеся в ней факты и повысить вероятность принятия оптимального решения.
Есть два подхода к анализу данных с помощью информационных систем.
В первом варианте программа используется для визуализации информации - извлечения данных из источников и предоставления их человеку для самостоятельного анализа и принятия решений. Обычно данные, предоставляемые программой, являются простой таблицей, и в таком виде их очень сложно анализировать, особенно если данных много, но имеются и более удобные способы отображения: кросс-таблицы, диаграммы, гистограммы, карты, деревья. Этот вариант анализа данных реализован в OLAP технологии.
Второй вариант использования программного обеспечения для анализа – это построение моделей. Модель имитирует некоторый процесс, например, изменение объемов продаж некоторого товара, поведение клиентов и другое. Для построения модели необходимо сделать предобработку данных и далее к ним применять математические методы анализа: кластеризацию, классификацию, регрессию и т. д. Построенную модель можно использовать для принятия решений, объяснения причин, оценки значимости факторов, моделирования различных вариантов развития. Этот вариант анализа данных реализуется в системах Data Mining.
Рассмотрим пример. Предоставление скидки покупателям является стимулом для увеличения объемов закупок. Чем больше продается некоторого товара, тем больше прибыль. С другой стороны, чем больше предоставляется скидка, тем меньше наценка на товар и тем меньше прибыли приносят продажи этого товара. Пусть есть история продаж, представленная таблицей со столбцами: дата, объем продаж, скидка в процентах, наценка и прибыль. При проведении анализа «вручную» можно рассмотреть диаграмму.
На диаграмме видно, что при максимальной скидке прибыль минимальна. Максимум же прибыли достигается где-то посередине между минимальной и максимальной скидкой. Точный ответ об оптимальной скидке по этой диаграмме получить довольно трудно. Для этого можно воспользоваться другим подходом к анализу. Например, построить модель зависимости прибыли от скидки. По этой зависимости легко определить, что максимум прибыли достигается при скидке 22%.
Рисунок 1.1 – Графики для определения оптимальной скидки
Как визуализация, так и построение моделей осуществляются путем применения к данным базовых методов анализа. Это достаточно известные методы, и они используются в самых разнообразных сферах деятельности.
- Інформаційні системи та технології в управлінні методичні вказівки
- 1 Введення до систем підтримки прийняття рішень 4
- 2 Бізнес - прогнозування 25
- 3 Кластерний аналіз в бізнес-аналітиці 43
- 4 Вирішення задач класифікації
- 5 Література 120
- 1 Введение в Системы Поддержки Принятия Решений (сппр)
- 1.1 Определение сппр
- 1.2 Классификация сппр
- 1.3 Архитектура сппр
- 1.4 Анализ данных – основные принципы
- 1.5 Базовые методы анализа
- 1) Online Analytical Processing
- 2) Knowledge Discovery in Databases
- 3) Data Mining
- 1.6 Примеры задач, где применяются методы Data Mining
- 1.7 Программа Deductor – платформа для создания сппр
- 1.8 Контрольные вопросы
- 2 Корреляционный анализ
- 2.1 Теоретические сведения
- 2.3 Задание для самостоятельной работы
- 2.4. Контрольные вопросы
- 3 Бизнес - Прогнозирование
- 3.1 Теоретические сведения
- 3.2 Компьютерные пакеты для решения задач прогнозирования
- 3.3 Временные ряды
- 3.3.1 "Наивные" модели прогнозирования
- 3.3.2 Средние и скользящие средние
- 3.3.3 Моделирование временного ряда
- Ar(p) -авторегрессионая модель порядка p. Модель имеет вид:
- 3.3.4 Нейросетевые модели прогнозирования
- 3.3.6 Предобработка данных
- 3.4 Пример прогнозирования с помощью линейной регрессии
- 3.4.1 Импорт данных из файла
- 3.4.2 Настройка параметров столбцов
- 3.4.3 Расчет автокорреляции столбцов
- 3.4.4 Удаление аномалий
- 3.4.5 Сглаживание данных – удаление шумов
- 3.4.6 Преобразование данных к скользящему окну
- 3.4.7 Прогнозирование с помощью линейной регрессии
- 3.5 Прогнозирование с помощью нейронных сетей
- 3.5.1 Исходные данные
- 3.5.2 Удаление аномалий и сглаживание
- 3.5.3 Обучение нейросети (прогноз на 1 месяц вперед)
- 3.5.4 Построение прогноза
- 3.5.5 Результат
- 3.5.6 Выводы
- 3.6 Задание к лабораторной работе
- 3.7 Контрольные вопросы
- 4 Кластерный анализ в бизнес-аналитике
- 4.1. Теоретические основы
- 4.2 Меры близости в алгоритмах кластеризации
- 4.3 Алгоритмы кластеризации
- 4.4 Решение типовой задачи кластеризации в Deductor
- 4.4.1 Кластеризация
- 4.4.2 Выводы
- 4.6 Задания для самостоятельной работы
- 4.7 Контрольные вопросы
- 5 Методы решения задач классификации
- 5.1 Опис процесу класифікації
- 5.2 Оцінка якості моделі класифікації
- 5.3 Скоринговые модели для оценки кредитоспособности заемщиков – пример задачи классификации на основе логистической регрессии
- 5.3.1 Постановка задачи
- 5.3.2 Скоринговая карта на основе логистической регрессии
- 5.3.3 Построение модели в системе Deductor.
- 5.4 Классификация на основе дерева решений
- 5.4.1 Процесс конструирования дерева решений
- 5.4.2 Скоринговая модель на основе дерева решений
- 5.3.4 Интерактивное дерево решений
- 5. Задания к лабораторной работе
- 5.5 Контрольные вопросы
- 5 Литература