银行信用评分卡建模原理

今天学习了一下评分卡的内容,博主自己也对这个不了解,由于业务的需求,今天自学了下相关的内容。我把自己学习的一些东西整理下,发到这个博客里面。

背景

1、先讲一下背景内容,什么是评分卡:其实评分卡呢,就是银行系统里面为了给客户进行一个风险评估的手段,它通过客户的信息来给客户打分,分越高的,说明信用越好,风险越低。信用评分卡又分为以下四种:
1)申请评分卡(A卡)
2)行为评分卡(B卡)
3)催收评分卡(C卡)
4)欺诈评分卡(F卡)

建模过程

2、接下来讲一下如何制作评分卡:首先,输入也就是制作评分卡需要的数据,有两个:一个是客户填写的信息,另外一个是客户是否违约的标签。

3、信用评分建模的基本流程?

制作评分卡需要大量客户所填的信息(特征矩阵X:包括人口特征、信用历史记录、交易记录等数据信息),以及该客户是否违约的信息(标签Y)。

(1)对特征矩阵X进行数据预处理。包括去除重复值,填补缺失值(仅有极少数样本缺失该特征可考虑直接删除该特征,可使用均值填补家庭人数,随机森林填补收入等),处理异常值(3∂原则,箱线图,散点图,基于距离,基于密度,基于聚类等一系列的方法进行离群点检测),数据一致性,数据分布特征,以及数据之间的关联性,处理样本不均衡问题(使用过采样和欠采样的方法),但是我们一般不对数据进行标准化处理(这是因为我们给出的评分卡是给业务人员看的,而客户所填信息天生就是量纲不统一的)。

(2)找出每个特征最佳分箱数和箱子边界。最佳分箱数就是使得该特征的IV值尽量在最佳IV值区间的箱子个数(尽量提高每个特征的重要性),并且使得该特征的箱内相似,箱间差异大。因此步骤是这样的:首先确定一个较大的分箱数,进行等频分箱,计算各箱证据权重(WOE)值和特征的IV值,然后依据卡方检验值合并相似箱子,再次计算各箱WOE值以及该特征IV值,直到箱子数量变为一个较小值。画出分箱数-IV值曲线,找出最佳分箱数和各箱边界。

(3)对各个特征依据最佳分箱边界进行分箱。分箱后得到特征的各箱边界以及WOE值。

(4)处理训练集和测试集的特征矩阵X。将特征矩阵中的值全部替换为对应箱子的WOE值。

(5)使用训练集进行建模,使用测试集计算模型得分,在信用评分卡建模中,用到最常用的方法就是逻辑回归(LR)。虽然是传统的模型,但是由于其自身特点,加上自变量进行了证据权重转换(WOE),Logistic回归的结果可以直接转换为一个汇总表,即所谓的标准评分卡格式,这对于区分好坏用户以及评分卡的建立非常适用。目前对于它的使用和部署上线等已经非常成熟,是很多企业的不二选择。除了LR外,神经网络,Xgboost等高级模型也会被使用,不过综合考虑LR目前能够满足大部分的需求且部署上线容易。

模型评估

(6)模型评估(对于离散型因变量)
针对信用评分卡应用的评估模型有很多,包括:ROC/AUC,KS,PSI,LIFT等一些评估方法,下面着重介绍两个ROC和KS值。

a、ROC曲线使用两个指标值进行绘制,其中x轴为1-Specificity,即负例错判率;y轴为Sensitivity,即正例覆盖率。ROC值一般在0.5-1.0之间。值越大表示模型判断准确性越高(曲线越偏左上方越好),即越接近1越好。ROC=0.5表示模型的预测能力与随机结果没有差别,AUC代表曲线下的面积,不依赖于阈值,AUC值越高,模型的风险区分能力越强。通常AUC在0.8以上时,模型基本可以接受了。

b、KS值表示了模型正负区分开来的能力。值越大,模型的预测准确性越好。一般,KS>0.4即可认为模型有比较好的预测准确性,KS值只能反映出哪个分段是区分最大的,而不能总体反映出所有分段的效果。一般选用最大的KS值作为衡量指标;KS=Sensitivity-(1-Specificity),通常KS>0.4即可认为模型有比较好的预测准确性。

参考资料

1、https://www.cnblogs.com/simpleDi/p/10227472.html
2、https://www.jianshu.com/p/4c55fa92a9ac
3、https://blog.csdn.net/lll1528238733/article/details/76601897
4、https://blog.csdn.net/u014033218/article/details/87798637
5、https://www.cnblogs.com/simpleDi/p/10227472.html
6、https://www.jianshu.com/p/4c55fa92a9ac
7、http://www.manongjc.com/article/51847.html
8、https://blog.csdn.net/htbeker/article/details/79697557
9、https://github.com/htbeker/Application_score_card
10、https://blog.csdn.net/q337100/article/details/80693548
11、https://github.com/LeronQ/score_logistic
12、https://blog.csdn.net/yilulvxing/article/details/87070624
13、https://blog.csdn.net/R18830287035/article/details/89329608
14、https://blog.csdn.net/lll1528238733/article/details/76602006

你可能感兴趣的:(评分卡模型,机器学习,算法)