5.3.1 Постановка задачи
В коммерческом банке имеется продукт «Нецелевой потребительский кредит»: кредиты предоставляются на любые цели с принятием решения в течение нескольких часов. За это время проверяются минимальные сведения о клиенте, в основном такие, как отсутствие криминального прошлого и кредитная история в других банках.
В банке накоплена статистическая информация о заемщиках и качестве обслуживания ими долга за несколько месяцев. Руководство банка, понимая, что отсутствие адекватных математических инструментов, позволяющих оптимизировать риски, не способствует расширению розничного бизнеса в области потребительского кредитования, поставило перед отделом розничных рисков задачу разработать скоринговые модели с различными стратегиями кредитования, которые позволили бы управлять рисками, настраивая уровень одобрений, и минимизировать число безнадежных заемщиков.
Исходные данные. Информация о заемщиках – физических лицах и кредитных договорах хранится в банковской информационной системе. Там же содержатся графики и даты погашений кредита, сведения о просрочках, об их суммах, о процентах и т.д. Будем считать, что мы получили эту информацию в виде текстового файла.
Важным является вопрос, что понимать под параметрами заемщика. В банковской практике перед скорингом заемщик, как правило, проходит процедуру андеррайтинга – проверку на удовлетворение жестким требованиям: соответствие возрасту отсутствие криминального прошлого, наличие определенного дохода. При этом выдвигаются требования к минимальному уровню дохода и рассчитывается возможный лимит кредита. При его расчете участвует один из двух коэффициентов - либо О/Д.
Коэффициент «Платеж/Доход» (П/Д) – отношение ежемесячных платежей по кредиту заемщика к его доходу за этот период. Считается, что значительная величина этого коэффициента свидетельствует о повышенном риске как для кредитора так и для заемщика.
Коэффициент «Обязательства/Доход» (О/Д) – отношение ежемесячных обязательств заемщика к его доходу за тот же период с учетом удержаний налогов. В обязательства включаются расходы, связанные с выплатой планируемого кредита, а также имеющиеся другие долгосрочные обязательства. Считается, что размер ежемесячных обязательств заемщика не должен превышать 50-60% его совокупного чистого дохода.
Заявки клиентов, не прошедшие андеррайтинг, получат отказ и даже не попадут на скоринг. Поэтому на вход скоринговой процедуры выгоднее подавать не доход, а отношение О/Д или П/Д.
В нашей задаче представлены 2709 кредитов (файл loans.txt) с известными исходами платежей на протяжении нескольких месяцев после выдачи кредита. Набор данных уже разбит на два множества – обучающее (80%) и тестовое (20%) так, чтобы в каждом множестве доля плохих кредитов была примерно одинакова. Структура и описание полей текстового файла с кредитными историями приведены в таблице 5.2.
Таблица 5.2 - Данные по заемщикам
№ | Поле | Описание | Тип |
1 | Код | Служебный код заявки | Целый |
2 | Дата | Дата выдачи кредита | Дата/время |
3 | О/Д % | Коэффициент Обязательства/Доход | Веществен. |
4 | Возраст | Возраст заемщика на момент принятия решения о выдаче кредита | Целый |
5 | Проживание | Основание для проживания: собственник; муниципальное жилье; аренда. | Строковый |
6 | Срок проживания в регионе | Менее 1 года; от 1 года до 5 лет; свыше 5 лет. | Строковый |
7 | Семейное положение | Холост/не замужем; женат/замужем; разведен(-а)/вдовство; другое. | Строковый |
8 | Образование | Среднее; среднее специальное; высшее. | Строковый |
9 | Стаж работы на последнем месте | Менее 1 года; от 1 года до 3 лет; свыше 3 лет. | Строковый |
10 | Уровень должности | Сотрудник; руководитель среднего звена; руководитель высшего звена | Строковый |
11 | Кредитная история | Информация берется из бюро кредитных историй. Если имеется негативная информация о клиенте (просрочки по прошлым кредитам), то ему присваивается категория «отрицательная» | Строковый |
12 | Просрочки свыше 60 дней | Факт наличия просрочек свыше 60 дней: 0 – отсутствовали; 1 – имели место | Целый |
13 | Тестовое множество | Служебный признак, отвечающий за то, к какому множеству относится запись. TRUE соответствует тестовому множеству. | Логическ. |
- Інформаційні системи та технології в управлінні методичні вказівки
- 1 Введення до систем підтримки прийняття рішень 4
- 2 Бізнес - прогнозування 25
- 3 Кластерний аналіз в бізнес-аналітиці 43
- 4 Вирішення задач класифікації
- 5 Література 120
- 1 Введение в Системы Поддержки Принятия Решений (сппр)
- 1.1 Определение сппр
- 1.2 Классификация сппр
- 1.3 Архитектура сппр
- 1.4 Анализ данных – основные принципы
- 1.5 Базовые методы анализа
- 1) Online Analytical Processing
- 2) Knowledge Discovery in Databases
- 3) Data Mining
- 1.6 Примеры задач, где применяются методы Data Mining
- 1.7 Программа Deductor – платформа для создания сппр
- 1.8 Контрольные вопросы
- 2 Корреляционный анализ
- 2.1 Теоретические сведения
- 2.3 Задание для самостоятельной работы
- 2.4. Контрольные вопросы
- 3 Бизнес - Прогнозирование
- 3.1 Теоретические сведения
- 3.2 Компьютерные пакеты для решения задач прогнозирования
- 3.3 Временные ряды
- 3.3.1 "Наивные" модели прогнозирования
- 3.3.2 Средние и скользящие средние
- 3.3.3 Моделирование временного ряда
- Ar(p) -авторегрессионая модель порядка p. Модель имеет вид:
- 3.3.4 Нейросетевые модели прогнозирования
- 3.3.6 Предобработка данных
- 3.4 Пример прогнозирования с помощью линейной регрессии
- 3.4.1 Импорт данных из файла
- 3.4.2 Настройка параметров столбцов
- 3.4.3 Расчет автокорреляции столбцов
- 3.4.4 Удаление аномалий
- 3.4.5 Сглаживание данных – удаление шумов
- 3.4.6 Преобразование данных к скользящему окну
- 3.4.7 Прогнозирование с помощью линейной регрессии
- 3.5 Прогнозирование с помощью нейронных сетей
- 3.5.1 Исходные данные
- 3.5.2 Удаление аномалий и сглаживание
- 3.5.3 Обучение нейросети (прогноз на 1 месяц вперед)
- 3.5.4 Построение прогноза
- 3.5.5 Результат
- 3.5.6 Выводы
- 3.6 Задание к лабораторной работе
- 3.7 Контрольные вопросы
- 4 Кластерный анализ в бизнес-аналитике
- 4.1. Теоретические основы
- 4.2 Меры близости в алгоритмах кластеризации
- 4.3 Алгоритмы кластеризации
- 4.4 Решение типовой задачи кластеризации в Deductor
- 4.4.1 Кластеризация
- 4.4.2 Выводы
- 4.6 Задания для самостоятельной работы
- 4.7 Контрольные вопросы
- 5 Методы решения задач классификации
- 5.1 Опис процесу класифікації
- 5.2 Оцінка якості моделі класифікації
- 5.3 Скоринговые модели для оценки кредитоспособности заемщиков – пример задачи классификации на основе логистической регрессии
- 5.3.1 Постановка задачи
- 5.3.2 Скоринговая карта на основе логистической регрессии
- 5.3.3 Построение модели в системе Deductor.
- 5.4 Классификация на основе дерева решений
- 5.4.1 Процесс конструирования дерева решений
- 5.4.2 Скоринговая модель на основе дерева решений
- 5.3.4 Интерактивное дерево решений
- 5. Задания к лабораторной работе
- 5.5 Контрольные вопросы
- 5 Литература