logo search
ИС_і технол_управл_Лаб

5.3.3 Построение модели в системе Deductor.

Импортируйте файл с кредитными историями в Deductor. На втором шаге Мастера импорта в Представление значений укажите Истине - True и Ложь – False.

Скоринг представляет собой задачу бинарной классификации, которая относит заемщика к одному из двух классов — «плохой» или «хороший». Если заемщик «хороший» — кредит выдается, если «плохой» — выносится отрицательное решение. Разделение заемщиков на «плохих» и «хороших» осуществляется на основе качества обслуживания ими долга, проще говоря — наличия просрочек. В банковском деле существуют различные шкалы перехода от числа просрочек к классу заемщика, и это тема для отдельного обсуждения. Примем следующее правило: если у клиента была хотя бы одна просрочка свыше 60 дней, то он относится к классу неблагонадежных. Запустите Мастер обработки, в категории Прочие выберите Калькулятор. Щелкните дважды на слове Выражение в колонке Список выражений и поменяйте параметры вычисляемого поля, как указано на рис.5.7.

Рисунок 5.7 – Задание параметров вычисляемого поля

В следующей колонке запишите условие:

IF( COL12>0;"Плохой";"Хороший")

В результате появится новое вычисляемое иоле — Класс заемщика (рис. 5.8).

Далее с помощью визуализатора Статистика можно узнать, что имеется 500 записей с «плохими» кредитами, что составляет 18,5 % всех выданных кредитов. Это не так уж и мало: в практике кредитного скоринга число записей миноритарного класса может быть и меньше, вплоть до 1-3 %. Поэтому задача классификации заемщиков всегда решается в условиях сильной несбалансированности классов.

Таким образом, выходная бинарная переменная — Класс заемщика — у нас уже имеется. В качестве входных имеет смысл оставить все, кроме Код и Дата: очевидно, что они никак не влияют на кредитоспособность.

Поля Возраст и О/Д, % оставьте непрерывными.

Рисунок 5.8 – Создание нового поля «Класс заемщика»

Построим модель логистической регрессии, которая рассчитает соответствующие коэффициенты регрессии. Для этого вызываем обработчик Логистическая регрессия. Установите входные и выходные поля, как это показано на рис. 5.9.

В этом же окне нажмите кнопку Настройка нормализации. Для выходного поля Класс заемщика порядок сортировки уникальных значений (которых в логистической регрессии всегда два) определяется типом события: первое — отрицательное, второе — положительное (рис. 5.10). В скоринге принято, что чем выше рейтинг заемщика, тем выше кредитоспособность, поэтому значение «хороший» будет положительным исходом события (второе по счету), а «плохой» — отрицательным (первое по счету).

Для входных столбцов (кроме измерений ОД% и Возраст) укажите способ кодирования – комбинация битов.

В следующем окне мастера будет предложено настроить обучающие и тестовые множества. Поскольку у нас есть специальное поле, в котором хранится информация о разбиении на множества, укажем его, установив соответствующие настройки (рис. 5.11).

Рисунок 5.9 – Задание входных и выходных полей

Рисунок 5.10 – Задание типов событий выходного поля

Рисунок 5.11 – Настройка разбиения набора данных

На третьем шаге мастера предлагается изменить параметры алгоритма логистической регрессии. По умолчанию порог классификации равен 0,5. Пока оставьте все параметры без изменений.

На последнем шаге нажмите кнопку Пуск — будет построена модель и мастер предложит выбрать визуализаторы узла. Укажите следующие: ROC-анализ, Коэффициенты регрессии, Что-если, Таблица сопряженности, Таблица.

В визуализаторе Таблица видно, что добавились две новые колонки: Класс заемщика Рейтинг и Класс заемщика_OUT. Рейтинг представляет собой рассчитанное значение у по уравнению логистической регрессии, а второе поле определяет принадлежность к тому или иному классу в зависимости от порога округления.

Визуализатор Коэффициенты регрессии наглядно показывает рассчитанные коэффициенты логистической регрессии, которые являются прототипом скоринговой карты, и соответствующие им отношения шансов (рис. 4.12).

Проинтерпретируем отношение шансов для признака Стаж работы. Если стаж работы на последнем месте от 1 до 3 лет, то шансы стать благонадежным заемщиком при фиксированных значениях других переменных в OR = 1,71 раза выше по сравнению с тем, у кого стаж менее 1 года. А если стаж свыше 3 лет, то шансы увеличиваются в 2,67 раза.

Проинтерпретируем теперь отношение шансов для поля ОД, %: OR = 0,96. Оно меньше единицы, значит, увеличение кредитной нагрузки снижает итоговый скоринговый балл клиента. Рассмотрим потенциального заемщика А, у которого доля выплат по кредиту в структуре дохода на 10 % меньше, чем у заемщика Б.

Тогда можно сказать, что снижение ежемесячных выплат на 10% приводит к тому, что вероятность стать хорошим заемщиком вырастает в раза.

Визуализатор ROC-кривая выводит график ROC-кривой, на котором по умолчанию отображаются положение текущего порога отсечения, а также значения чувствительности и специфичности, показатель AUC и типы событий (рис. 4.13). Площадь под кривой равна 0,894 на обучающем множестве и 0,905 — на тестовом, что говорит об очень хорошей предсказательной способности построенной модели.

Однако оптимальная точка для данной модели не равна 0,5. Максимальная суммарная чувствительность и специфичность достигается в точке 0,78 (для расчета и отображения оптимальной точки необходимо в меню кнопки Тип оптимальной точки выбрать пункт Максимум). Для установки нового порога отсечения, равного 0,78, следует перенастроить узел-обработчик логистической регрессии. В этой точке Se = 85 %, Sp = 86 %, что означает: 85 % благонадежных заемщиков будут выявлены классификатором, а 100 — 86 = 14 % недобросовестных заемщиков получат кредит. На тестовом множестве наблюдается похожая картина: Se = 84 %, Sp = 86%.

Рисунок 5.12 – Коэффициенты логистической регрессии

В общем случае, проецируя определения чувствительности и специфичности на скоринг (и учитывая, что класс заемщика «хороший» соответствует положительному исходу), можно заключить, что скоринговая модель с высокой специфичностью соответствует консервативной кредитной политике (чаще происходит отказ в выдаче кредита), а с высокой чувствительностью — политике рискованных кредитов. В первом случае минимизируется кредитный риск, связанный с потерями ссуды и процентов и с дополнительными расходами на возвращение кредита, а во втором — коммерческий риск, связанный с упущенной выгодой.

Рисунок 5.13 – График ROC-кривой скоринговой модели

Это хорошо иллюстрирует визуализатор Таблица сопряженности (рис. 5.14), которая есть не что иное, как матрица классификации.

Рисунок 5.14 – Таблица сопряженности – рабочая выборка

Рисунок 5.15 – Таблица сопряженности – тестовая выборка

Из таблицы видно, что на обучающем множестве модель чаще отказывала в выдаче кредита «хорошим» заемщикам, чем выдавала кредит «плохим». Точность классификации составила 85 %. На тестовом множестве наблюдается примерно та же картина (точность классификации 84,7 %), а уровень одобренных кредитов (Approval Rate, AR) здесь составляет

AR = (387/542) • 100 % = 72 %

при уровне дефолтных кредитов (Bad Rate, BR) равном

BR = (14/ 387) • 100 % = 3,62 % .

Если такая ситуация не устраивает, можно снизить порог отсечения и добиться того, чтобы модель чаще выдавала положительное решение. Процент отказов уменьшится, но возрастет и кредитный риск. Поэтому выбор точки отсечения зависит от поставленных целей — снизить долю «плохих» кредитов или увеличить кредитный портфель, чаще вынося положительное решение по клиенту.

Предположим, нам известны издержки ошибочной классификации: , то есть выдача кредита недобросовестному заемщику обходится в 4 раза дороже, чем отказ добросовестному. Тогда мы можем, используя правило Байеса, оценить оптимальный скоринговый балл Р:

Р>1/(1 + ¼) = 0,80.

Визуализатор Что-если позволяет увидеть, как будет вести себя построенная модель при подаче на ее вход тех или иных данных. Иначе говоря, проводится эксперимент, в котором, изменяя значения входных нолей логистической регрессии, аналитик наблюдает за изменением значений на выходе. Возможность анализа по принципу «Что, если» особенно ценна, поскольку позволяет исследовать правильность работы системы, достоверность полученных результатов, а также ее устойчивость. Визуализатор Что-если включает табличное и графические представления, которые формируются одновременно (рис. 5.16).

В верхней части табличного представления отображаются входные поля, а в нижней — выходные и расчетные. Изменяя значения входных полей, аналитик дает команду выполнить расчет и наблюдает рассчитанные значения выходов логистической регрессии.

В графическом представлении визуализатора Что-если по горизонтальной оси диаграммы откладывается весь диапазон значений текущего поля выборки, а по вертикальной — значения соответствующих выходов модели. На диаграмме Что- если видно, при каком значении входа изменяется значение на соответствующем выходе. Если, например, во всем диапазоне входных значений выходное значение для данного поля не изменялось, то диаграмма будет представлять собой горизонтальную прямую линию. В нашем случае установлена графическая зависимость изменения кредитного рейтинга конкретного клиента от коэффициента О/Д (все остальные входы — константы). Видно, что с увеличением О/Д рейтинг практи­чески линейно падает.

Рисунок 5.16 – Визуализатор «Что-если»

При желании от модели логистической регрессии несложно перейти к скоринговой карте, для чего нужно перевести коэффициенты логистической регрессии в линейную шкалу.

Подбирая порог отсечения, мы можем установить соотношение уровня одобрений AR и ожидаемой величины просроченной задолженности BR.

Чтобы сравнить несколько скоринговых карт между собой строят различные отчеты и графики. Например, подвергают анализу кривые распределения кумулятивных процентов для хороших и плохих кредитов. По оси ох откладывают диапазоны скорингового балла, а по оу — накапливающуюся долю плохих (хороших) кредитов.

Сформируем такой отчет в Deductor. Нам понадобятся несколько узлов из группы Трансформация данных: Квантование, Группировка, Кросс-таблица, Замена данных и Калькулятор, а также визуализатор Диаграмма. На рис. 5.17 можно наблюдать график, отражающий кумулятивный процент хороших и плохих кредитов нашей скоринговой карты.

Видно, что кривая для плохих кредитов проходит выше и обладает более крутым подъемом, чем кривая для хороших, поскольку в области низких значений сосредоточено больше плохих кредитов. Если скоринговая карта неэффективна, эти кривые будут похожи, а в пределе — налагаться друг на друга.

Рисунок 5.17 – Распределение кумулятивных процентов в скоринговой модели

Рисунок 5.18 – Сценарий построения скоринговой модели на основе логистической регрессии