logo search
ИС_і технол_управл_Лаб

5.4.2 Скоринговая модель на основе дерева решений

Теперь воспользуемся другим инструментом — деревом решений. Используйте таблицу, в которой вы уже создали выходное поле Класс заемщика.

Добавьте в сценарий одноименный узел через Мастер обработки.

669

Следующие два шага мастера аналогичны описанным ранее для узла Логистическая регрессия. Отметьте поля Код и Дата как информационные, а поля Просрочки и Тестовое множество – неиспользуемые. На четвертом шаге откроется окно выбора параметров алгоритма. Здесь не меняйте настройки, принятые по умолчанию, за исключением минимального количества примеров в узле, при котором будет создаваться новый. Задайте этот параметр равным примерно 1 % от объема обучающего множества (т.е. 20); меньшее значение может привести к появлению недостоверных правил, большее — к почти полному отсутствию таковых.

На следующем шаге в качестве желаемого способа построения дерева оставьте режим автоматического построения. Запустив его нажатием кнопки Пуск, пройдите по шагам мастера дальше и выберите нужные визуализаторы, отметьте флажками Дерево решений, Значимость атрибутов, Что-если, Таблица сопряженности.

В результате работы алгоритма было выявлено 18 правил. Точность классификации на обучающем множестве составила 85 %, на тестовом — 87 %. Визуализатор Дерево решений позволяет увидеть полученный набор правил в схематическом виде, а также выводит показатели достоверности и поддержки для каждого узла (рис. 4.19). Это и есть скоринговая модель. Она менее привычна, поскольку здесь не начисляются баллы за характеристики заемщика, но тоже объясняет результат классификации того или иного заемщика.

В принципе, достоверность каждого правила можно воспринимать как итоговый скоринговый балл с той оговоркой, что для плохих заемщиков он равен величине, полученной вычитанием из 100%-ного значения достоверности.

Рисунок 5.19 – Скоринговая модель – дерево решений

Теперь откройте таблицы сопряженности этого дерева решений.

Рисунок 5.20 – Таблицы сопряженности для рабочей и тестовой выборки

Оказывается, в сравнении с моделью на основе логистической регрессии здесь совершенно другая ситуация. Дерево решений значительно чаще одобряет неблагонадежных заемщиков, потому что его построение идет в условиях несбалансированности классов. В результате доля дефолтных кредитов на тестовом множестве равна BR = 51 / 475 • 100 % = 10,7 %, что в 3 раза выше этого же показателя в логрегресионной модели (правда, уровень одобрений вырастает до 87,6%). Что делать, если такая ситуация не устраивает? В логистической регрессии для решения этой проблемы мы варьировали порогом отсечения, а в дереве решений такой возможности нет.

Нам помогут специальные стратегии сэмплинга для уравновешивания обучающего множества: выборка с дублированием миноритарного класса (oversampling) и выборка с удалением примеров мажоритарного класса (undersampling). Поскольку примеров не так много (400 — с плохими клиентами и 1767 — с хорошими) и информация о каждом заемщике представляет ценность, имеет смысл использовать первый вариант — с дублированием. Пусть отношение издержек ошибочной классификации останется прежним: 1 :4. Тогда, согласно правилу, к обучающей выборке нужно добавить 3 • 400 = 1200 примеров, и общее число записей составит 3367, а доля плохих увеличится до 47 %.

Процедуру дублирования записей, принадлежащих к миноритарному классу, нужно осуществлять только на обучающем множестве.

Для этой операции снова привлечем несколько узлов из группы Трансформация данных. Фильтр и Слияние данных (рис. 5.21).

Построив дерево решений по сбалансированной выборке, убедитесь, что ситуация улучшилась: теперь на тестовом множестве модель чаще отказывает в выдаче хорошим заемщикам, нежели одобряет плохих. Эти результаты сравнимы с теми, которые выдает модель логистической регрессии.

Таким образом, мы получили несколько скоринговых моделей. Варьируя порогами отсечения и применяя специальные приемы борьбы с несбалансированностью классов, можно подобрать ту модель, которая отвечает заданным потребностям кредитного учреждения по уровню одобрений заявок и ожидаемой доле просроченной задолженности. Проверять новых клиентов можно при помощи обработчика Скрипт.

Рисунок 5.21 – Сценарий для построения скоринговой модели на основе дерева решений