【金融风控】信用评分卡模型

本文转载自公众号:大数据风控与机器学习

一、简介

所谓信贷评分卡指的是,将违约概率映射成得分的模型。最传统、应用最广泛的算法是逻辑回归。但是理论上,所有能输出概率的模型均可以做为评分卡。比如这几年工业界常用的集成模型、深度神经网络等。像一些无监督、弱监督算法,则通常用来辅助监督学习。

评分映射的好处主要有这几点:

1)更灵活,不是简单的通过与否。可以动态的调整通过策略和额度策略;
2)更好的向客户展示信用额度的动态变化;
3)更好的向领导说明客户被拒绝的原因。

二、主要应用场景

风控模型其中包含了A/B/C卡。

申请评分卡 Application Card /A卡 ,主要发生在贷前

行为评分卡 Behaviour Card /B卡,主要发生在贷中

催收评分卡 Collection Card /C卡,主要发生在贷后

模型算法之间可以没有显著区别,而是根据其发生的时间点不同而进行划分的(贷前/贷中/贷后),也就是y产生的方式不一样。通常信贷领域都是用逾期天数来定义y。A卡可以用客户历史逾期天数最大的天数。B卡则可以多期借款中逾期最大的一次。C卡因为用途不同有不同的建立方法。比如你们公司有内催,有外催。外催肯定是回款率低,单价贵的。那么就可以根据是否被内催催回来定义y。

三、建模流程

1、确定样本,定义好坏
2、特征工程
3、单变量分析,woe处理
4、建模与评分映射
5、模型评估
6、模型监控

1)确定样本、定义好坏

时间窗口:样本按照贷款日期进行排序。选取的样本落在的时间段,称为时间窗口。

确定样本:通常情形,样本应尽可能的多。但考虑到我们建模的本质,是使用历史数据对未来用户进行预测,历史数据的效果,会从热数据变为温数据,再变为冷数据,逐级递减。所以时间跨度尽可能和产品周期相结合考虑。信用建模本质是二分类问题,假设样本服从二项分布。需要考虑建模数据的平衡问题。尤其在金融场景下,坏样本永远都比较少。所以会使用过采样、欠采样、smoke、拒绝演绎、半监督学习等方法,扩充我们的坏样本。

定义好坏:使用逾期天数作为定义好坏的标准。比如产品周期30天,逾期超过15天为1(坏),15天以内为0(好)。通常我们还会去掉一部分灰色用户。比如逾期5~15天的客户不参与建模。因为我们的客户群体通常都是服从长尾分布,而非二项分布,我们会人为的去掉一部分,让样本分布和假设分布更逼近。

2)特征工程

数据清洗:“缺失值处理”,“数据类型转换”,“去除逻辑错误”,“去除业务无关变量”。

基础特征:数据质量和特征构造其实基本上决定了一个传统机器学习模型的上限。我们平时常说的数据挖掘,其实就是对更有效特征的挖掘。在数据源稳定的前提下,这是很多机构提高模型效果的主要方法。这一步可以做几百、几千维特征。

特征衍生:主要以上一步的特征为基础,通过一系列变换,能达到几十万、几百万维特征。

特征筛选:IV、stepdisc、stepwise、cor、VIF等。但是更要结合业务来考虑,比如考虑跨时间稳定性的时候可以使用不同时间段单特征值的PSI衰减来衡 量特征的跨时间稳定性。

特征变化:标准化、分类特征映射成数值特征。

3)单变量分析,woe处理

分箱:先等频分箱,后将不成线性关系的特征,通过箱之间的合并,处理成线性的。并将不能归并成线性的特征删掉。这样的特征拥有更强的鲁棒性,并且能为模型引入业务逻辑。

WOE变换:WOE表示的实际上是“当前分组中坏客户占所有坏客户的比例”和“当前分组中好客户占所有好客户的比例”的差异。正负号代表特征对模型的影响方向。绝对值的大小代表影响程度。所以,逻辑回归的系数必须大于0.

image

4)建模与评分映射

逻辑回归代码示例:

from sklearn.linear_model import LogisticRegression  

逻辑回归方程:

image

基础分500分;

好的概率是坏的概率的2倍时,加50分;

好的概率是坏的概率的4倍时,加100分;

好的概率是坏的概率的8倍时,加150分;

...

以此类推,得到分数换算公式:

image

5)模型评估

作为样本极度不均衡的典型场景。直接使用准确率、召回率等是不合适的。业内大多使用KSAUC作为评价指标。但是具体情况具体分析。比如考虑成本的话,准确率也可以作为参考。

ROC曲线:roc曲线上每个点反映着对同一信号刺激的感受性。

KS值:好客户与坏客户之间的最大差异。

image

6)模型监控

常规监控:通过率、贷后表现、PSI、客群分布、等等。

image

你可能感兴趣的:(【金融风控】信用评分卡模型)