(信贷风控十六)组合评分卡模型

组合评分卡模型

本篇文章主要总结以下内容

  • 组合模型的概念
  • 常见结构的评分组合模型
  • 单一模型选择需要什么条件
  • 串行结构组合模型实例
  • 并行结构组合模型实例

 

组合模型的概念

(信贷风控十六)组合评分卡模型_第1张图片

(信贷风控十六)组合评分卡模型_第2张图片

(信贷风控十六)组合评分卡模型_第3张图片

 

常见结构的评分组合模型

  • 串行结构组合模型实例

需要注意的是,一般工作中会把GBDT、神经网络、深度学习排在前面(因为精度高),逻辑回归、决策树放在后面

(信贷风控十六)组合评分卡模型_第4张图片

(信贷风控十六)组合评分卡模型_第5张图片

  • 并行结构组合模型实例

(信贷风控十六)组合评分卡模型_第6张图片

(信贷风控十六)组合评分卡模型_第7张图片

  • 混合结构组合模型实例(不易于解释,一般不在评分卡使用)

(信贷风控十六)组合评分卡模型_第8张图片

 

单一模型选择需要什么条件

(信贷风控十六)组合评分卡模型_第9张图片

(信贷风控十六)组合评分卡模型_第10张图片

为什么单一模型之间要保证错误率的相互独立?

因为组合模型基于原理就是错误率相对独立,多个单一模型组合会使得组合模型错误率趋于0,也就是如下图;假如单一模型之间都完全不独立的话,单一模型和组合模型预测一样

(信贷风控十六)组合评分卡模型_第11张图片

为什么单一模型的复杂度要适度?

因为我们知道组合模型的复杂度会大于单一模型的复杂度的,假如单一模型就很复杂了,组合模型的复杂度可想而知

其次,复杂度高一般就很难提高精度了,再想从组合模型提高精度,模型会越来越复杂

为什么单一模型不是越多越好?

因为在完全独立的情况下,随着单一模型数量的增多,组合模型的错误率降低的速率已经没有那么明显了,而且随着单一模型的增加,成本会增加。单一模型数量增加复杂度也会上升,响应时间会加长,在实际工作线上比如反欺诈模型要求时效性高要求毫秒级响应,所以数量并非越多越好。

 

根据模型的构成维度可以分为:并行组合、串行组合

根据单一分类器类型可以分为:同态组合、异态组合

所以就会有四种类型的组合模型模式

(信贷风控十六)组合评分卡模型_第12张图片

 

串行结构组合模型实例

  • 同态串行组合(一般不使用,同态串行组合错误率相互独立性弱,没有太大的提升效果)
  • 异态串行组合

精度高的模型排在前面

(信贷风控十六)组合评分卡模型_第13张图片

以多层神经网络和逻辑回归异态串行组合评分模型为例

(信贷风控十六)组合评分卡模型_第14张图片

(信贷风控十六)组合评分卡模型_第15张图片

神经网络模型不一定需要WOE编码,但是神经网络模型要求是数值型输入,我们也可以采用其他编码

(信贷风控十六)组合评分卡模型_第16张图片

单一逻辑回归与多层神经网络加逻辑回归得出的KS与AUC对比

 

KS

AUC

单一逻辑回归

36.0%

73.7%

多层神经网络+逻辑回归

36.2%

73.8%

我这里异态串行组合提升不明显的原因是神经网络没有经过一个仔细的调参以及输入节点太少

 

并行结构组合模型实例

(信贷风控十六)组合评分卡模型_第17张图片

图中融合器针对分类问题,可以

图中融合器针对回归问题,可以

 

  • 异态并行组合

(信贷风控十六)组合评分卡模型_第18张图片

为什么转换为log odds?方便分数的直接运算,因为分数的表达式如下,分数和分数就可以直接加权平均了

(信贷风控十六)组合评分卡模型_第19张图片

(信贷风控十六)组合评分卡模型_第20张图片

 

KS

AUC

单一逻辑回归

35.7%

73.7%

多层神经网络+逻辑回归并行

36.4%

74.0%

 

  • 同态并行组合

(信贷风控十六)组合评分卡模型_第21张图片

  • Bagging

(信贷风控十六)组合评分卡模型_第22张图片

(信贷风控十六)组合评分卡模型_第23张图片

 

KS

AUC

单一神经网络

34.6%

73.4%

Bagging

35.6%

74.7%

 

  • Boosting

(信贷风控十六)组合评分卡模型_第24张图片

  • RSM

(信贷风控十六)组合评分卡模型_第25张图片

 

 

 

你可能感兴趣的:(金融信贷风控的机器学习实战,信贷风控---评分卡)