5.3.4 Интерактивное дерево решений
До этого мы получали дерево, которое строилось автоматическим способом, то есть алгоритм на каждом шаге выбирал атрибут для разбиения по заданному критерию. Известно, что алгоритмы построения деревьев «жадные», поэтому не факт, что итоговое дерево будет наилучшим. В то же время иногда имеются экспертные знания, которые позволяют «вмешаться» в процесс формирования дерева и выбора атрибутов, а также порогов для разбиения. Возможно, это и не повысит точность модели, но правила станут более логичными, с точки зрения экспертов.
Кредитный скоринг представляет собой тот самый случай, когда банковские аналитики имеют определенные знания и хотят, чтобы в модели ветвление по атрибутам осуществлялось в определенном порядке. Например, если имеются атрибуты Наличие квартиры и Стоимость квартиры, то разумно сразу после первого рассмотреть второй. Еще пример: после суммы кредита сразу желательно проанализировать первоначальный взнос.
В аналитической платформе Deductor имеется возможность построения интерактивных деревьев решений. Зададимся целью построить скоринговую модель на прежней выборке, приняв во внимание следующие пожелания экспертов.
Первым атрибутом, по которому анализируют заемщика, должен быть атрибут Кредитная история.
Далее необходимо рассмотреть коэффициент О/Д. Всех клиентов нужно разбить на три категории: заемщики с низким О/Д (до 20 %), с умеренным (от 20 до 40 %) и высоким (от 40 %).
Добавьте в сценарий новый узел дерева решений и на пятом шаге мастера поставьте переключатель в позицию Интерактивный режим.
В результате открывшийся визуализатор Дерево решений не будет содержать ни одного узла. На панели инструментов нажмите кнопку Разбить текущий узел на подузлы..., откроется соответствующее окно (рис. 54.22).
Рисунок 5.22 – Окно выбора атрибута для разбиения в интерактивном режиме: первый шаг
Слева в списке выводятся все атрибуты вместе с рассчитанными значениями прироста информации Gain Ratio, а справа — диаграммы распределения классов по подузлам. По умолчанию предлагается атрибут с максимальным значением Gain Ratio, но его можно переопределить. В данном случае ничего делать не нужно, поскольку разбиение и так начнется по атрибуту Кредитная история. Нажатие кнопки Ок приведет к тому, что в дерево добавится три узла этого атрибута со значениями нет данных, отрицательная, положительная.
Продолжим разбиение дальше, выбрав узел
Кредитная история = нет данных (рис. 5.23).
Рисунок 5.23 - – Окно выбора атрибута для разбиения в интерактивном режиме: второй шаг
Здесь в качестве оптимального с точки зрения прироста информации предлагается атрибут Проживание. Переопределите его на ОД, %, указав в нижней части окна порог, равный 20. Затем для узла ОД, % >20 снова выберите разбиение по ОД, %, но уже с порогом 40, после чего нажмите кнопку Построить дерево, начиная с текущего узла. В результате ветвь дерева будет полностью готова (рис. 5.24).
Аналогичным образом достраивается дерево для оставшихся узлов. Качество классификации, как и прежде, можно оценивать через таблицы сопряженности.
Рисунок 5.24 – Дерево решений, построенное в интерактивном режиме
- Інформаційні системи та технології в управлінні методичні вказівки
- 1 Введення до систем підтримки прийняття рішень 4
- 2 Бізнес - прогнозування 25
- 3 Кластерний аналіз в бізнес-аналітиці 43
- 4 Вирішення задач класифікації
- 5 Література 120
- 1 Введение в Системы Поддержки Принятия Решений (сппр)
- 1.1 Определение сппр
- 1.2 Классификация сппр
- 1.3 Архитектура сппр
- 1.4 Анализ данных – основные принципы
- 1.5 Базовые методы анализа
- 1) Online Analytical Processing
- 2) Knowledge Discovery in Databases
- 3) Data Mining
- 1.6 Примеры задач, где применяются методы Data Mining
- 1.7 Программа Deductor – платформа для создания сппр
- 1.8 Контрольные вопросы
- 2 Корреляционный анализ
- 2.1 Теоретические сведения
- 2.3 Задание для самостоятельной работы
- 2.4. Контрольные вопросы
- 3 Бизнес - Прогнозирование
- 3.1 Теоретические сведения
- 3.2 Компьютерные пакеты для решения задач прогнозирования
- 3.3 Временные ряды
- 3.3.1 "Наивные" модели прогнозирования
- 3.3.2 Средние и скользящие средние
- 3.3.3 Моделирование временного ряда
- Ar(p) -авторегрессионая модель порядка p. Модель имеет вид:
- 3.3.4 Нейросетевые модели прогнозирования
- 3.3.6 Предобработка данных
- 3.4 Пример прогнозирования с помощью линейной регрессии
- 3.4.1 Импорт данных из файла
- 3.4.2 Настройка параметров столбцов
- 3.4.3 Расчет автокорреляции столбцов
- 3.4.4 Удаление аномалий
- 3.4.5 Сглаживание данных – удаление шумов
- 3.4.6 Преобразование данных к скользящему окну
- 3.4.7 Прогнозирование с помощью линейной регрессии
- 3.5 Прогнозирование с помощью нейронных сетей
- 3.5.1 Исходные данные
- 3.5.2 Удаление аномалий и сглаживание
- 3.5.3 Обучение нейросети (прогноз на 1 месяц вперед)
- 3.5.4 Построение прогноза
- 3.5.5 Результат
- 3.5.6 Выводы
- 3.6 Задание к лабораторной работе
- 3.7 Контрольные вопросы
- 4 Кластерный анализ в бизнес-аналитике
- 4.1. Теоретические основы
- 4.2 Меры близости в алгоритмах кластеризации
- 4.3 Алгоритмы кластеризации
- 4.4 Решение типовой задачи кластеризации в Deductor
- 4.4.1 Кластеризация
- 4.4.2 Выводы
- 4.6 Задания для самостоятельной работы
- 4.7 Контрольные вопросы
- 5 Методы решения задач классификации
- 5.1 Опис процесу класифікації
- 5.2 Оцінка якості моделі класифікації
- 5.3 Скоринговые модели для оценки кредитоспособности заемщиков – пример задачи классификации на основе логистической регрессии
- 5.3.1 Постановка задачи
- 5.3.2 Скоринговая карта на основе логистической регрессии
- 5.3.3 Построение модели в системе Deductor.
- 5.4 Классификация на основе дерева решений
- 5.4.1 Процесс конструирования дерева решений
- 5.4.2 Скоринговая модель на основе дерева решений
- 5.3.4 Интерактивное дерево решений
- 5. Задания к лабораторной работе
- 5.5 Контрольные вопросы
- 5 Литература