一份风控模型性能提升秘籍奉上|附视频+实操(详版)

最近,番茄星球课堂为大家带来了一次主题为“信贷风控拒绝演绎实战”的直播课盛宴,内容充实,干货满满!
课程分为两次专题展开,分别为《拒绝推论场景描述、方法介绍与案例分享》、《银行信用卡风控拒绝推论的场景实操》,全方位讲解了风控拒绝推论思想的业务场景、解决方法、算法原理、模型实现等,让大家从业务、算法、实操三个重要维度掌握拒绝推论的应用,为各位小伙伴的数据分析或数据建模的实战能力进行充电!

1、业务场景介绍
在金融信贷场景的风控体系中,贷前环节往往是通过策略或模型的“决策”动作来防范风险的,无论是欺诈识别,还是信用评估,或者是精准营销等。当信贷客户群体进行信贷申请并发起进件时,必然会通过大数据风控系统的自动化“决策”审批,由于不同客群的资质能力存在差异,最终风控决策自然会产生“通过”和“拒绝”的结果。
在贷前风控的决策流程中,申请信用评分卡模型(A卡)应用非常广泛,而且在很多环节发挥着重要作用,包括风险识别、产品定价、客户分群等。A卡模型的构建是一类有监督模型,即根据存量用户在事件发起时点的申请信息,与事件结束时点的还款表现,采用有监督的机器学习算法(如逻辑回归、XGBoost等),来拟合训练模型,最终实现模型的线上部署与风控应用。这里需要说明的是,对于A卡模型,往往是基于有贷后表现的用户数据进行建模,而模型的实际应用是面向未来可能待通过和待拒绝的所有用户群体,这在很大程度上反映了模型训练的样本特征,与模型应用的样本特征存在较大差异,使得模型在实际应用过程中很有可能出现效果不佳的情况。
针对贷前模型的训练样本与应用样本的特征差异,拒绝演绎(拒绝推论)的思想可以使模型特征更贴近真实业务场景,有效降低建模样本差异的影响,从而优化模型拟合性能,提升模型应用的实际决策效果。因此,拒绝推论思想主要应用于贷前风控环节,其业务流程示意图具体如图1所示。
一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第1张图片
图1 拒绝推论场景

在实现拒绝推论模型的过程中,主要存在两个待解决的难点,分别是:
1、如何定义拒绝样本的目标变量?
2、如何确定拒绝样本的引入比例?
当有效解决了这两个核心问题,对于联合建模的任务就变得简单很多,只需要采用合理的数据分析方法,对样本数据有序地进行处理加工,然后根据相应机器学习算法来训练拟合模型,就可以得到我们最终期望的结果,这和我们数据建模的正常流程是一致的。其中,对于拒绝样本的引入比例,在实际业务中一般可以考虑拒绝样本数量约为通过样本数量的0.25~1倍。当然,具体比例选取务必要结合实际场景的数据情形与业务需求。

2、拒绝推论方法
对于拒绝样本的目标定义,这是拒绝推论数据分析的最关键点,下面我们介绍下在实际工作中最常用的几种方法,包括样本随机抽取法、模型赋值划分法、模型分组扩充法、模型分组扩充法、样本权重推断法、专家经验设定法,具体如图2所示。
虽然每种方法在处理流程、算法选择、业务理解等方面存在较大差异,但最终需要的目标是一致的,即更合理地对拒绝样本的好坏标签进行设定,然后通过有效的机器学习算法得到更符合实际业务的拒绝推论模型,接下来我们对每种处理方法的主要步骤进行描述说明。
一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第2张图片
图2 拒绝推论方法

(1)样本随机抽取法
Step1:明确通过样本的标签分布(0/1),标签1占比为pct;
Step2:对拒绝样本进行随机抽样,抽取比例为pct的2~4倍;
Step3:抽取样本的目标赋值为1,剩余样本的目标赋值为0;
Step4:通过样本与拒绝样本联合建模,得到拒绝推论模型。
(2)模型赋值划分法
Step1:根据通过样本构建评分模型;
Step2:利用通过样本模型对拒绝样本进行打分;
Step3:对拒绝样本评分进行排序,确定好坏标签划分阈值;
Step4:合并通过样本与拒绝样本,重新构建评分模型。
(3)模型分组扩充法
Step1:根据通过样本构建评分模型;
Step2:利用通过样本模型对通全量样本进行打分;
Step3:汇总不同评分区间的通过样本坏账率;
Step4:参照同分组的通过样本坏账率,设置拒绝样本坏账率pct;
Step5:对拒绝样本随机抽样pct设定坏样本,剩余样本为好用户;
Step6:通过样本与拒绝样本联合建模,得到拒绝推论模型。
(4)特征变量聚类法
Step1:对通过样本进行聚类分析,以目标变量分类确定中心点;
Step2:根据好坏样本的中心点,得到拒绝样本与中心点距离;
Step3:对比好坏距离大小关系,取距离较小对应的类簇标签;
Step4:通过样本与拒绝样本联合建模,得到拒绝推论模型。
(5)样本权重推断法
Step1:算出各特征变量在通过样本的平均值a;
Step2:算出各特征变量在全量样本的平均值b;
Step3:设定特征变量的更新权重ω=b/a;
Step4:对通过样本各特征进行加权ω,然后根据通过样本建模。
(6)专家经验设定法
Method1:根据自有数据的重要特征变量进行经验划分标签;
Method2:通过外部三方征信数据高价值变量划分阈值确定标签;
Method3:拒绝样本的客户画像描述分析判断用户价值标签。
当采用以上某种方法获取拒绝样本的好坏标签后,就可以按照数据建模的通用流程建立拒绝推论模型,建模主要环节如图3所示。当最终得到拒绝推论模型之后,同样需要评估模型的综合性能,常见指标包括KS、AUC、Accuracy、Recall等。此外需要注意的是,为了评估拒绝推论的效果,务必要验证下拒绝推论模型的应用效果,具体可以对比下通过样本与拒绝样本的坏账率分布、特征变量分箱IV值、验证数据集的模型性能等,这也是有效确保拒绝推论模型可以满足实际业务需求的重要环节,常用方法如图4所示。
一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第3张图片
图3 数据建模流程

一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第4张图片
图4 拒绝推论模型验证

3、拒绝推论实战
在我们第2次专题课中,围绕银行信用卡风控拒绝推论的业务场景,采样Python语言工具进行了具体案例实操,详细介绍了贷前申请信用拒绝推论模型的实现过程,并重点解读了拒绝推论的实现步骤,以及模型效果的验证逻辑。下面我们对整个案例场景进行简要描述,案例是通过模型赋值划分法来定义拒绝样本的目标变量,对应拒绝推论的原理过程如图5所示。

一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第5张图片
图5 模型赋值划分法原理

(1)样本数据概况
场景案例选用样本的数据量是14000条,含通过样本10000条、拒绝样本4000条,特征字段数量16个,其中X变量12个,数据样例与特征字典如图6、7所示。
一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第6张图片
图6 样本数据样例

一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第7张图片
图7 样本数据样例

通过样本数据的预测标签flag,是根据字段overdue(逾期天数)转换而来,结合场景实际业务表现采用pd3(逾期天数大于3天)来定义目标,具体可以通过滚动率分析、账龄分析等方法综合决定。

一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第8张图片
图8 样本数据样例

(2)通过样本建模
根据通过样本数据,建立二分类预测模型。在整个建模过程中,可以采用缺失值处理、异常值处理等方法对数据进行清洗,接着通过特征相关性、特征信息值、特征衍生、特征筛选等特征工程步骤,来具体分析特征变量的性能,其中特征相关性、特征衍生(部分)如图9、10所示。
一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第9张图片
图9 特征相关性分析

一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第10张图片
图10 特征衍生(部分)

通过一系列特征工程处理之后,采用决策树集成学习算法XGBoost来拟合训练模型,具体实现代码与模型性能分别如图11、12所示。
一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第11张图片
图11 通过样本模型训练

一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第12张图片
图12 通过样本模型性能

(3)拒绝样本建模
当得到通过样本的模型之后,便可以对拒绝样本进行评分,然后根据预测概率的排序结果,以某个阈值作为好坏标签的划分标准,实现过程如图13所示。其中,阈值的设定是根据拒绝样本划分后对应坏账率是通过样本坏账率的2~4倍而定,本案例的划分阈值为0.479772,这样得到的拒绝样本目标分布如图14所示,可以得知其坏账率为70.05%,是通过样本坏账率(33.55%)的2倍多(图8),这是满足我们预先设定需求的。
一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第13张图片
图13 拒绝样本目标定义


一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第14张图片
图14 拒绝样本目标分布

接着将通过样本与拒绝样本合并进行联合建模,其过程与通过样本建模流程类似,最终得到的拒绝推论模型性能如图15所示,可以看出对于常见评估指标KS、AUC等与通过样本模型性能(图12)相比有一定提升。当然,模型最终的性能表现可以通过模型调参方法不断优化,例如采用常见的网格搜索与交叉验证方法进行模型调优,以获取更好的模型效果。
一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第15张图片
图15 拒绝推论模型性能

为了验证拒绝推论模型的效果,在前边已简单描述过(图4),具体可以对比下通过样本与拒绝样本的预测目标坏账率分布、特征变量分箱IV值差异、验证数据集的模型性能等。下面我们通过特征IV值来简单分析下拒绝推论前后的变化,通过样本与全量样本(通过+拒绝)的特征IV值分布如图16所示。从结果可知,全量样本的特征IV值明显比通过样本的特征IV值要高,说明拒绝样本评分后标签赋值较为合理,且有效提高了特征字段的区分度,这对拒绝推论模型的拟合训练是非常有帮助的。此外,还可以在采用验证数据集的模型效果表现进行对比,即将通过样本一定比例的样本(例如30%)作为验证数据集,然后将通过样本模型与拒绝推论模型分别对其测试评估,根据最终模型的性能指标(如KS、AUC、Accuracy等)来评估模型的效果,如果拒绝推论模型表现的效果明显较好,说明拒绝推论模型在这个维度上分析是比较好的。
一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第16张图片
图16 拒绝推论前后特征IV值

以上内容便是我们番茄星球课堂近期推出的“信贷风控拒绝演绎实战”专题课程概要,全程内容干货尽显!由于文章内容有限,有兴趣的童鞋可继续关注:
一份风控模型性能提升秘籍奉上|附视频+实操(详版)_第17张图片
详细视频可见下篇

~原创文章

你可能感兴趣的:(番茄风控大数据公众号,机器学习,人工智能,算法)