5.4.2 Скоринговая модель на основе дерева решений
Теперь воспользуемся другим инструментом — деревом решений. Используйте таблицу, в которой вы уже создали выходное поле Класс заемщика.
Добавьте в сценарий одноименный узел через Мастер обработки.
669
На следующем шаге в качестве желаемого способа построения дерева оставьте режим автоматического построения. Запустив его нажатием кнопки Пуск, пройдите по шагам мастера дальше и выберите нужные визуализаторы, отметьте флажками Дерево решений, Значимость атрибутов, Что-если, Таблица сопряженности.
В результате работы алгоритма было выявлено 18 правил. Точность классификации на обучающем множестве составила 85 %, на тестовом — 87 %. Визуализатор Дерево решений позволяет увидеть полученный набор правил в схематическом виде, а также выводит показатели достоверности и поддержки для каждого узла (рис. 4.19). Это и есть скоринговая модель. Она менее привычна, поскольку здесь не начисляются баллы за характеристики заемщика, но тоже объясняет результат классификации того или иного заемщика.
В принципе, достоверность каждого правила можно воспринимать как итоговый скоринговый балл с той оговоркой, что для плохих заемщиков он равен величине, полученной вычитанием из 100%-ного значения достоверности.
Рисунок 5.19 – Скоринговая модель – дерево решений
Теперь откройте таблицы сопряженности этого дерева решений.
Рисунок 5.20 – Таблицы сопряженности для рабочей и тестовой выборки
Оказывается, в сравнении с моделью на основе логистической регрессии здесь совершенно другая ситуация. Дерево решений значительно чаще одобряет неблагонадежных заемщиков, потому что его построение идет в условиях несбалансированности классов. В результате доля дефолтных кредитов на тестовом множестве равна BR = 51 / 475 • 100 % = 10,7 %, что в 3 раза выше этого же показателя в логрегресионной модели (правда, уровень одобрений вырастает до 87,6%). Что делать, если такая ситуация не устраивает? В логистической регрессии для решения этой проблемы мы варьировали порогом отсечения, а в дереве решений такой возможности нет.
Нам помогут специальные стратегии сэмплинга для уравновешивания обучающего множества: выборка с дублированием миноритарного класса (oversampling) и выборка с удалением примеров мажоритарного класса (undersampling). Поскольку примеров не так много (400 — с плохими клиентами и 1767 — с хорошими) и информация о каждом заемщике представляет ценность, имеет смысл использовать первый вариант — с дублированием. Пусть отношение издержек ошибочной классификации останется прежним: 1 :4. Тогда, согласно правилу, к обучающей выборке нужно добавить 3 • 400 = 1200 примеров, и общее число записей составит 3367, а доля плохих увеличится до 47 %.
Процедуру дублирования записей, принадлежащих к миноритарному классу, нужно осуществлять только на обучающем множестве.
Для этой операции снова привлечем несколько узлов из группы Трансформация данных. Фильтр и Слияние данных (рис. 5.21).
Построив дерево решений по сбалансированной выборке, убедитесь, что ситуация улучшилась: теперь на тестовом множестве модель чаще отказывает в выдаче хорошим заемщикам, нежели одобряет плохих. Эти результаты сравнимы с теми, которые выдает модель логистической регрессии.
Таким образом, мы получили несколько скоринговых моделей. Варьируя порогами отсечения и применяя специальные приемы борьбы с несбалансированностью классов, можно подобрать ту модель, которая отвечает заданным потребностям кредитного учреждения по уровню одобрений заявок и ожидаемой доле просроченной задолженности. Проверять новых клиентов можно при помощи обработчика Скрипт.
Рисунок 5.21 – Сценарий для построения скоринговой модели на основе дерева решений
- Інформаційні системи та технології в управлінні методичні вказівки
- 1 Введення до систем підтримки прийняття рішень 4
- 2 Бізнес - прогнозування 25
- 3 Кластерний аналіз в бізнес-аналітиці 43
- 4 Вирішення задач класифікації
- 5 Література 120
- 1 Введение в Системы Поддержки Принятия Решений (сппр)
- 1.1 Определение сппр
- 1.2 Классификация сппр
- 1.3 Архитектура сппр
- 1.4 Анализ данных – основные принципы
- 1.5 Базовые методы анализа
- 1) Online Analytical Processing
- 2) Knowledge Discovery in Databases
- 3) Data Mining
- 1.6 Примеры задач, где применяются методы Data Mining
- 1.7 Программа Deductor – платформа для создания сппр
- 1.8 Контрольные вопросы
- 2 Корреляционный анализ
- 2.1 Теоретические сведения
- 2.3 Задание для самостоятельной работы
- 2.4. Контрольные вопросы
- 3 Бизнес - Прогнозирование
- 3.1 Теоретические сведения
- 3.2 Компьютерные пакеты для решения задач прогнозирования
- 3.3 Временные ряды
- 3.3.1 "Наивные" модели прогнозирования
- 3.3.2 Средние и скользящие средние
- 3.3.3 Моделирование временного ряда
- Ar(p) -авторегрессионая модель порядка p. Модель имеет вид:
- 3.3.4 Нейросетевые модели прогнозирования
- 3.3.6 Предобработка данных
- 3.4 Пример прогнозирования с помощью линейной регрессии
- 3.4.1 Импорт данных из файла
- 3.4.2 Настройка параметров столбцов
- 3.4.3 Расчет автокорреляции столбцов
- 3.4.4 Удаление аномалий
- 3.4.5 Сглаживание данных – удаление шумов
- 3.4.6 Преобразование данных к скользящему окну
- 3.4.7 Прогнозирование с помощью линейной регрессии
- 3.5 Прогнозирование с помощью нейронных сетей
- 3.5.1 Исходные данные
- 3.5.2 Удаление аномалий и сглаживание
- 3.5.3 Обучение нейросети (прогноз на 1 месяц вперед)
- 3.5.4 Построение прогноза
- 3.5.5 Результат
- 3.5.6 Выводы
- 3.6 Задание к лабораторной работе
- 3.7 Контрольные вопросы
- 4 Кластерный анализ в бизнес-аналитике
- 4.1. Теоретические основы
- 4.2 Меры близости в алгоритмах кластеризации
- 4.3 Алгоритмы кластеризации
- 4.4 Решение типовой задачи кластеризации в Deductor
- 4.4.1 Кластеризация
- 4.4.2 Выводы
- 4.6 Задания для самостоятельной работы
- 4.7 Контрольные вопросы
- 5 Методы решения задач классификации
- 5.1 Опис процесу класифікації
- 5.2 Оцінка якості моделі класифікації
- 5.3 Скоринговые модели для оценки кредитоспособности заемщиков – пример задачи классификации на основе логистической регрессии
- 5.3.1 Постановка задачи
- 5.3.2 Скоринговая карта на основе логистической регрессии
- 5.3.3 Построение модели в системе Deductor.
- 5.4 Классификация на основе дерева решений
- 5.4.1 Процесс конструирования дерева решений
- 5.4.2 Скоринговая модель на основе дерева решений
- 5.3.4 Интерактивное дерево решений
- 5. Задания к лабораторной работе
- 5.5 Контрольные вопросы
- 5 Литература