5.3.3 Построение модели в системе Deductor.
Импортируйте файл с кредитными историями в Deductor. На втором шаге Мастера импорта в Представление значений укажите Истине - True и Ложь – False.
Скоринг представляет собой задачу бинарной классификации, которая относит заемщика к одному из двух классов — «плохой» или «хороший». Если заемщик «хороший» — кредит выдается, если «плохой» — выносится отрицательное решение. Разделение заемщиков на «плохих» и «хороших» осуществляется на основе качества обслуживания ими долга, проще говоря — наличия просрочек. В банковском деле существуют различные шкалы перехода от числа просрочек к классу заемщика, и это тема для отдельного обсуждения. Примем следующее правило: если у клиента была хотя бы одна просрочка свыше 60 дней, то он относится к классу неблагонадежных. Запустите Мастер обработки, в категории Прочие выберите Калькулятор. Щелкните дважды на слове Выражение в колонке Список выражений и поменяйте параметры вычисляемого поля, как указано на рис.5.7.
Рисунок 5.7 – Задание параметров вычисляемого поля
В следующей колонке запишите условие:
IF( COL12>0;"Плохой";"Хороший")
В результате появится новое вычисляемое иоле — Класс заемщика (рис. 5.8).
Далее с помощью визуализатора Статистика можно узнать, что имеется 500 записей с «плохими» кредитами, что составляет 18,5 % всех выданных кредитов. Это не так уж и мало: в практике кредитного скоринга число записей миноритарного класса может быть и меньше, вплоть до 1-3 %. Поэтому задача классификации заемщиков всегда решается в условиях сильной несбалансированности классов.
Таким образом, выходная бинарная переменная — Класс заемщика — у нас уже имеется. В качестве входных имеет смысл оставить все, кроме Код и Дата: очевидно, что они никак не влияют на кредитоспособность.
Поля Возраст и О/Д, % оставьте непрерывными.
Рисунок 5.8 – Создание нового поля «Класс заемщика»
Построим модель логистической регрессии, которая рассчитает соответствующие коэффициенты регрессии. Для этого вызываем обработчик Логистическая регрессия. Установите входные и выходные поля, как это показано на рис. 5.9.
В этом же окне нажмите кнопку Настройка нормализации. Для выходного поля Класс заемщика порядок сортировки уникальных значений (которых в логистической регрессии всегда два) определяется типом события: первое — отрицательное, второе — положительное (рис. 5.10). В скоринге принято, что чем выше рейтинг заемщика, тем выше кредитоспособность, поэтому значение «хороший» будет положительным исходом события (второе по счету), а «плохой» — отрицательным (первое по счету).
Для входных столбцов (кроме измерений ОД% и Возраст) укажите способ кодирования – комбинация битов.
В следующем окне мастера будет предложено настроить обучающие и тестовые множества. Поскольку у нас есть специальное поле, в котором хранится информация о разбиении на множества, укажем его, установив соответствующие настройки (рис. 5.11).
Рисунок 5.9 – Задание входных и выходных полей
Рисунок 5.10 – Задание типов событий выходного поля
Рисунок 5.11 – Настройка разбиения набора данных
На третьем шаге мастера предлагается изменить параметры алгоритма логистической регрессии. По умолчанию порог классификации равен 0,5. Пока оставьте все параметры без изменений.
На последнем шаге нажмите кнопку Пуск — будет построена модель и мастер предложит выбрать визуализаторы узла. Укажите следующие: ROC-анализ, Коэффициенты регрессии, Что-если, Таблица сопряженности, Таблица.
В визуализаторе Таблица видно, что добавились две новые колонки: Класс заемщика Рейтинг и Класс заемщика_OUT. Рейтинг представляет собой рассчитанное значение у по уравнению логистической регрессии, а второе поле определяет принадлежность к тому или иному классу в зависимости от порога округления.
Визуализатор Коэффициенты регрессии наглядно показывает рассчитанные коэффициенты логистической регрессии, которые являются прототипом скоринговой карты, и соответствующие им отношения шансов (рис. 4.12).
Проинтерпретируем отношение шансов для признака Стаж работы. Если стаж работы на последнем месте от 1 до 3 лет, то шансы стать благонадежным заемщиком при фиксированных значениях других переменных в OR = 1,71 раза выше по сравнению с тем, у кого стаж менее 1 года. А если стаж свыше 3 лет, то шансы увеличиваются в 2,67 раза.
Проинтерпретируем теперь отношение шансов для поля ОД, %: OR = 0,96. Оно меньше единицы, значит, увеличение кредитной нагрузки снижает итоговый скоринговый балл клиента. Рассмотрим потенциального заемщика А, у которого доля выплат по кредиту в структуре дохода на 10 % меньше, чем у заемщика Б.
Тогда можно сказать, что снижение ежемесячных выплат на 10% приводит к тому, что вероятность стать хорошим заемщиком вырастает в раза.
Визуализатор ROC-кривая выводит график ROC-кривой, на котором по умолчанию отображаются положение текущего порога отсечения, а также значения чувствительности и специфичности, показатель AUC и типы событий (рис. 4.13). Площадь под кривой равна 0,894 на обучающем множестве и 0,905 — на тестовом, что говорит об очень хорошей предсказательной способности построенной модели.
Однако оптимальная точка для данной модели не равна 0,5. Максимальная суммарная чувствительность и специфичность достигается в точке 0,78 (для расчета и отображения оптимальной точки необходимо в меню кнопки Тип оптимальной точки выбрать пункт Максимум). Для установки нового порога отсечения, равного 0,78, следует перенастроить узел-обработчик логистической регрессии. В этой точке Se = 85 %, Sp = 86 %, что означает: 85 % благонадежных заемщиков будут выявлены классификатором, а 100 — 86 = 14 % недобросовестных заемщиков получат кредит. На тестовом множестве наблюдается похожая картина: Se = 84 %, Sp = 86%.
Рисунок 5.12 – Коэффициенты логистической регрессии
В общем случае, проецируя определения чувствительности и специфичности на скоринг (и учитывая, что класс заемщика «хороший» соответствует положительному исходу), можно заключить, что скоринговая модель с высокой специфичностью соответствует консервативной кредитной политике (чаще происходит отказ в выдаче кредита), а с высокой чувствительностью — политике рискованных кредитов. В первом случае минимизируется кредитный риск, связанный с потерями ссуды и процентов и с дополнительными расходами на возвращение кредита, а во втором — коммерческий риск, связанный с упущенной выгодой.
Рисунок 5.13 – График ROC-кривой скоринговой модели
Это хорошо иллюстрирует визуализатор Таблица сопряженности (рис. 5.14), которая есть не что иное, как матрица классификации.
Рисунок 5.14 – Таблица сопряженности – рабочая выборка
Рисунок 5.15 – Таблица сопряженности – тестовая выборка
Из таблицы видно, что на обучающем множестве модель чаще отказывала в выдаче кредита «хорошим» заемщикам, чем выдавала кредит «плохим». Точность классификации составила 85 %. На тестовом множестве наблюдается примерно та же картина (точность классификации 84,7 %), а уровень одобренных кредитов (Approval Rate, AR) здесь составляет
AR = (387/542) • 100 % = 72 %
при уровне дефолтных кредитов (Bad Rate, BR) равном
BR = (14/ 387) • 100 % = 3,62 % .
Если такая ситуация не устраивает, можно снизить порог отсечения и добиться того, чтобы модель чаще выдавала положительное решение. Процент отказов уменьшится, но возрастет и кредитный риск. Поэтому выбор точки отсечения зависит от поставленных целей — снизить долю «плохих» кредитов или увеличить кредитный портфель, чаще вынося положительное решение по клиенту.
Предположим, нам известны издержки ошибочной классификации: , то есть выдача кредита недобросовестному заемщику обходится в 4 раза дороже, чем отказ добросовестному. Тогда мы можем, используя правило Байеса, оценить оптимальный скоринговый балл Р:
Р>1/(1 + ¼) = 0,80.
Визуализатор Что-если позволяет увидеть, как будет вести себя построенная модель при подаче на ее вход тех или иных данных. Иначе говоря, проводится эксперимент, в котором, изменяя значения входных нолей логистической регрессии, аналитик наблюдает за изменением значений на выходе. Возможность анализа по принципу «Что, если» особенно ценна, поскольку позволяет исследовать правильность работы системы, достоверность полученных результатов, а также ее устойчивость. Визуализатор Что-если включает табличное и графические представления, которые формируются одновременно (рис. 5.16).
В верхней части табличного представления отображаются входные поля, а в нижней — выходные и расчетные. Изменяя значения входных полей, аналитик дает команду выполнить расчет и наблюдает рассчитанные значения выходов логистической регрессии.
В графическом представлении визуализатора Что-если по горизонтальной оси диаграммы откладывается весь диапазон значений текущего поля выборки, а по вертикальной — значения соответствующих выходов модели. На диаграмме Что- если видно, при каком значении входа изменяется значение на соответствующем выходе. Если, например, во всем диапазоне входных значений выходное значение для данного поля не изменялось, то диаграмма будет представлять собой горизонтальную прямую линию. В нашем случае установлена графическая зависимость изменения кредитного рейтинга конкретного клиента от коэффициента О/Д (все остальные входы — константы). Видно, что с увеличением О/Д рейтинг практически линейно падает.
Рисунок 5.16 – Визуализатор «Что-если»
При желании от модели логистической регрессии несложно перейти к скоринговой карте, для чего нужно перевести коэффициенты логистической регрессии в линейную шкалу.
Подбирая порог отсечения, мы можем установить соотношение уровня одобрений AR и ожидаемой величины просроченной задолженности BR.
Чтобы сравнить несколько скоринговых карт между собой строят различные отчеты и графики. Например, подвергают анализу кривые распределения кумулятивных процентов для хороших и плохих кредитов. По оси ох откладывают диапазоны скорингового балла, а по оу — накапливающуюся долю плохих (хороших) кредитов.
Видно, что кривая для плохих кредитов проходит выше и обладает более крутым подъемом, чем кривая для хороших, поскольку в области низких значений сосредоточено больше плохих кредитов. Если скоринговая карта неэффективна, эти кривые будут похожи, а в пределе — налагаться друг на друга.
Рисунок 5.17 – Распределение кумулятивных процентов в скоринговой модели
Рисунок 5.18 – Сценарий построения скоринговой модели на основе логистической регрессии
- Інформаційні системи та технології в управлінні методичні вказівки
- 1 Введення до систем підтримки прийняття рішень 4
- 2 Бізнес - прогнозування 25
- 3 Кластерний аналіз в бізнес-аналітиці 43
- 4 Вирішення задач класифікації
- 5 Література 120
- 1 Введение в Системы Поддержки Принятия Решений (сппр)
- 1.1 Определение сппр
- 1.2 Классификация сппр
- 1.3 Архитектура сппр
- 1.4 Анализ данных – основные принципы
- 1.5 Базовые методы анализа
- 1) Online Analytical Processing
- 2) Knowledge Discovery in Databases
- 3) Data Mining
- 1.6 Примеры задач, где применяются методы Data Mining
- 1.7 Программа Deductor – платформа для создания сппр
- 1.8 Контрольные вопросы
- 2 Корреляционный анализ
- 2.1 Теоретические сведения
- 2.3 Задание для самостоятельной работы
- 2.4. Контрольные вопросы
- 3 Бизнес - Прогнозирование
- 3.1 Теоретические сведения
- 3.2 Компьютерные пакеты для решения задач прогнозирования
- 3.3 Временные ряды
- 3.3.1 "Наивные" модели прогнозирования
- 3.3.2 Средние и скользящие средние
- 3.3.3 Моделирование временного ряда
- Ar(p) -авторегрессионая модель порядка p. Модель имеет вид:
- 3.3.4 Нейросетевые модели прогнозирования
- 3.3.6 Предобработка данных
- 3.4 Пример прогнозирования с помощью линейной регрессии
- 3.4.1 Импорт данных из файла
- 3.4.2 Настройка параметров столбцов
- 3.4.3 Расчет автокорреляции столбцов
- 3.4.4 Удаление аномалий
- 3.4.5 Сглаживание данных – удаление шумов
- 3.4.6 Преобразование данных к скользящему окну
- 3.4.7 Прогнозирование с помощью линейной регрессии
- 3.5 Прогнозирование с помощью нейронных сетей
- 3.5.1 Исходные данные
- 3.5.2 Удаление аномалий и сглаживание
- 3.5.3 Обучение нейросети (прогноз на 1 месяц вперед)
- 3.5.4 Построение прогноза
- 3.5.5 Результат
- 3.5.6 Выводы
- 3.6 Задание к лабораторной работе
- 3.7 Контрольные вопросы
- 4 Кластерный анализ в бизнес-аналитике
- 4.1. Теоретические основы
- 4.2 Меры близости в алгоритмах кластеризации
- 4.3 Алгоритмы кластеризации
- 4.4 Решение типовой задачи кластеризации в Deductor
- 4.4.1 Кластеризация
- 4.4.2 Выводы
- 4.6 Задания для самостоятельной работы
- 4.7 Контрольные вопросы
- 5 Методы решения задач классификации
- 5.1 Опис процесу класифікації
- 5.2 Оцінка якості моделі класифікації
- 5.3 Скоринговые модели для оценки кредитоспособности заемщиков – пример задачи классификации на основе логистической регрессии
- 5.3.1 Постановка задачи
- 5.3.2 Скоринговая карта на основе логистической регрессии
- 5.3.3 Построение модели в системе Deductor.
- 5.4 Классификация на основе дерева решений
- 5.4.1 Процесс конструирования дерева решений
- 5.4.2 Скоринговая модель на основе дерева решений
- 5.3.4 Интерактивное дерево решений
- 5. Задания к лабораторной работе
- 5.5 Контрольные вопросы
- 5 Литература