ИС_і технол_управл_Лаб

5.3.4 Интерактивное дерево решений

До этого мы получали дерево, которое строилось автоматическим способом, то есть алгоритм на каждом шаге выбирал атрибут для разбиения по заданному критерию. Известно, что алгоритмы построения деревьев «жадные», поэтому не факт, что итоговое дерево будет наилучшим. В то же время иногда имеются экспертные знания, которые позволяют «вмешаться» в процесс формирования дерева и выбора атрибутов, а также порогов для разбиения. Возможно, это и не повысит точность модели, но правила станут более логичными, с точки зрения экспертов.

Кредитный скоринг представляет собой тот самый случай, когда банковские аналитики имеют определенные знания и хотят, чтобы в модели ветвление по атрибутам осуществлялось в определенном порядке. Например, если имеются атрибуты Наличие квартиры и Стоимость квартиры, то разумно сразу после первого рассмотреть второй. Еще пример: после суммы кредита сразу желательно проанализировать первоначальный взнос.

В аналитической платформе Deductor имеется возможность построения интерактивных деревьев решений. Зададимся целью построить скоринговую модель на прежней выборке, приняв во внимание следующие пожелания экспертов.

Первым атрибутом, по которому анализируют заемщика, должен быть атрибут Кредитная история.
Далее необходимо рассмотреть коэффициент О/Д. Всех клиентов нужно разбить на три категории: заемщики с низким О/Д (до 20 %), с умеренным (от 20 до 40 %) и высоким (от 40 %).

Добавьте в сценарий новый узел дерева решений и на пятом шаге мастера поставьте переключатель в позицию Интерактивный режим.

В результате открывшийся визуализатор Дерево решений не будет содержать ни одного узла. На панели инструментов нажмите кнопку Разбить текущий узел на подузлы..., откроется соответствующее окно (рис. 54.22).

Рисунок 5.22 – Окно выбора атрибута для разбиения в интерактивном режиме: первый шаг

Слева в списке выводятся все атрибуты вместе с рассчитанными значениями прироста информации Gain Ratio, а справа — диаграммы распределения классов по подузлам. По умолчанию предлагается атрибут с максимальным значением Gain Ratio, но его можно переопределить. В данном случае ничего делать не нужно, поскольку разбиение и так начнется по атрибуту Кредитная история. Нажатие кнопки Ок приведет к тому, что в дерево добавится три узла этого атрибута со значениями нет данных, отрицательная, положительная.

Продолжим разбиение дальше, выбрав узел

Кредитная история = нет данных (рис. 5.23).

Рисунок 5.23 - – Окно выбора атрибута для разбиения в интерактивном режиме: второй шаг

Здесь в качестве оптимального с точки зрения прироста информации предлагается атрибут Проживание. Переопределите его на ОД, %, указав в нижней части окна порог, равный 20. Затем для узла ОД, % >20 снова выберите разбиение по ОД, %, но уже с порогом 40, после чего нажмите кнопку Построить дерево, начиная с текущего узла. В результате ветвь дерева будет полностью готова (рис. 5.24).

Аналогичным образом достраивается дерево для оставшихся узлов. Качество классификации, как и прежде, можно оценивать через таблицы сопряженности.

Рисунок 5.24 – Дерево решений, построенное в интерактивном режиме

Содержание