4.4.1 Кластеризация
Вначале необходимо осуществить импорт рассматриваемых данных из файла – p_лаб4.txt.
После этого выбираем и запускаем Мастер обработки "Кластеризация". При запуске Мастера необходимо настроить назначения столбцов, т.е. выбрать свойства, по которым будет происходить группировка объектов. Укажем столбцу "Предприятие" назначение "Информационное", а остальным столбцам – "Входное". (Рис. 4.4).
Рисунок 4.4 – Настройка столбцов входного файла
На следующем шаге Мастера необходимо настроить способ разделения исходного множества данных на тестовое и обучающее, а также количество примеров в том и другом множестве. Укажем, что данные обоих множеств берутся случайным образом, и определим все множество как обучающее (100%).
Следующий шаг предлагает настроить параметры кластеризации, определить на какое количество кластеров будет распределяться исходное множество. Нас интересует финансовая стабильность или нестабильность предприятия, поэтому выберем фиксированное количество кластеров равное двум.
Рисунок 4.5 – Определение способов отображения результатов
Для отображения полученных групп кластеров выберем в обработчике "Кластеризация" из списка визуализаторов способы отображения данных: "Что-если" для решения задачи классификации, отнесение нового предприятия к одному из кластеров, "Профили кластеров" для определения структуры формирования группы кластеров и "Куб" для наглядного просмотра полученных результатов.
Для настройки визуализатора "Куб" необходимо выбрать рассматриваемые свойства как факты, а номер кластера как измерение. Наиболее правильно в дальнейших настройках задать отображение фактов как среднее по рассматриваемой группе.
Общую структуру сформированных алгоритмом кластеров можно просмотреть в визуализаторе "Профили кластеров". В нем представлены все рассматриваемые свойства вместе с характером влияния их на состав кластера.
Рисунок 4.6 – Настройка полей куба
Далее нужно определить как в таблице располагать измерения и факты (рис. 4.7).
Рисунок 4.7 – Настройка размещения измерений
Для каждого факта выбираем вычисление среднего по рассматриваемой группе (рис. 4.8).
Рисунок 4.8 – Выбор фактов и функции агрегации
Основным определяющим состав кластера фактором является значимость свойств, выраженная в процентах. Общая значимость рассматриваемого поля определяется вариабельностью ее рассматриваемых параметров. Значимость для непрерывных и дискретных полей определяется по-разному. Значимость для непрерывных полей устанавливается в зависимости от отклонения среднего значения рассматриваемой группы кластеров от общего среднего всей выборки, чем больше выражено данное отклонение, тем больше его значимость. Значимость для дискретных полей определяется наличием индивидуальных различий, между рассматриваемыми группами, чем больше выражены различия, тем больше значимость. Для каждого рассматриваемого свойства в кластере вычисляется: доверительный интервал, среднее, стандартное отклонение и стандартная ошибка.
Рисунок 4.9 – Определение показателей кластеров
Алгоритм автоматически разбил предприятия на два кластера с разной поддержкой и разными процентами значимости свойств. Первый кластер содержит 8 предприятий, второй – 4.
Практически все из приведенных факторов являются значимыми для разделения предприятий на группы. Самым значимым для первого кластера является «Выручка от реализации», для второго «Оборотные активы».
Рисунок 4.10 – Таблица параметров кластеров
Результаты по сформированным кластерам наиболее удобно рассматриваются с помощью визуализатора "Куб", в котором встроена кросс-диаграмма, изображающая полученные кластеры в графическом виде, что существенно упрощает анализ (рис. 4.11).
При построении кросс-диаграммы на панели инструментов окна кросс-диаграммы нажмите кнопки «Нормализация, приведение графиков к единому масштабу».
Добавьте в кросс-диаграмму все параметры, по которым проводилась кластеризация, и легенду, которая укажет каким цветом какой параметр отображается.
Рисунок 4.10 – Кросс-диаграмма кластеров в графическом виде
Из диаграммы видно, что предприятия, попавшие во второй кластер имеют значительно лучшие показатели, чем предприятия из первого кластера. Поэтому можно сделать вывод о целесообразности выдачи кредитов предприятиям из второго кластера и отказе предприятиям из первого кластера.
- Інформаційні системи та технології в управлінні методичні вказівки
- 1 Введення до систем підтримки прийняття рішень 4
- 2 Бізнес - прогнозування 25
- 3 Кластерний аналіз в бізнес-аналітиці 43
- 4 Вирішення задач класифікації
- 5 Література 120
- 1 Введение в Системы Поддержки Принятия Решений (сппр)
- 1.1 Определение сппр
- 1.2 Классификация сппр
- 1.3 Архитектура сппр
- 1.4 Анализ данных – основные принципы
- 1.5 Базовые методы анализа
- 1) Online Analytical Processing
- 2) Knowledge Discovery in Databases
- 3) Data Mining
- 1.6 Примеры задач, где применяются методы Data Mining
- 1.7 Программа Deductor – платформа для создания сппр
- 1.8 Контрольные вопросы
- 2 Корреляционный анализ
- 2.1 Теоретические сведения
- 2.3 Задание для самостоятельной работы
- 2.4. Контрольные вопросы
- 3 Бизнес - Прогнозирование
- 3.1 Теоретические сведения
- 3.2 Компьютерные пакеты для решения задач прогнозирования
- 3.3 Временные ряды
- 3.3.1 "Наивные" модели прогнозирования
- 3.3.2 Средние и скользящие средние
- 3.3.3 Моделирование временного ряда
- Ar(p) -авторегрессионая модель порядка p. Модель имеет вид:
- 3.3.4 Нейросетевые модели прогнозирования
- 3.3.6 Предобработка данных
- 3.4 Пример прогнозирования с помощью линейной регрессии
- 3.4.1 Импорт данных из файла
- 3.4.2 Настройка параметров столбцов
- 3.4.3 Расчет автокорреляции столбцов
- 3.4.4 Удаление аномалий
- 3.4.5 Сглаживание данных – удаление шумов
- 3.4.6 Преобразование данных к скользящему окну
- 3.4.7 Прогнозирование с помощью линейной регрессии
- 3.5 Прогнозирование с помощью нейронных сетей
- 3.5.1 Исходные данные
- 3.5.2 Удаление аномалий и сглаживание
- 3.5.3 Обучение нейросети (прогноз на 1 месяц вперед)
- 3.5.4 Построение прогноза
- 3.5.5 Результат
- 3.5.6 Выводы
- 3.6 Задание к лабораторной работе
- 3.7 Контрольные вопросы
- 4 Кластерный анализ в бизнес-аналитике
- 4.1. Теоретические основы
- 4.2 Меры близости в алгоритмах кластеризации
- 4.3 Алгоритмы кластеризации
- 4.4 Решение типовой задачи кластеризации в Deductor
- 4.4.1 Кластеризация
- 4.4.2 Выводы
- 4.6 Задания для самостоятельной работы
- 4.7 Контрольные вопросы
- 5 Методы решения задач классификации
- 5.1 Опис процесу класифікації
- 5.2 Оцінка якості моделі класифікації
- 5.3 Скоринговые модели для оценки кредитоспособности заемщиков – пример задачи классификации на основе логистической регрессии
- 5.3.1 Постановка задачи
- 5.3.2 Скоринговая карта на основе логистической регрессии
- 5.3.3 Построение модели в системе Deductor.
- 5.4 Классификация на основе дерева решений
- 5.4.1 Процесс конструирования дерева решений
- 5.4.2 Скоринговая модель на основе дерева решений
- 5.3.4 Интерактивное дерево решений
- 5. Задания к лабораторной работе
- 5.5 Контрольные вопросы
- 5 Литература