1 基本风控信息

image.png

1.1 评分卡的分类：

A卡（Application score card）申请评分卡

A卡一般可做贷款0-1年的信用分析，A卡中常用的有逻辑回归，AHP

A卡用途：

是否批准
是否需要提供抵押物
贷款金额
贷款定价

B卡（Behavior score card）行为评分卡

B卡则是在申请人有了一定行为后，有了较大数据进行的分析，一般为3-5年。（多因素逻辑回归）

B卡用途：

审查信用重建
审查信用额度
制定清收策略
审查贷款定价与条件

C卡（Collection score card）催收评分卡

C卡则对数据要求更大，需加入催收后客户反应等属性数据。（多因素逻辑回归）
评分卡计算：在建立标准评分卡之前，我们需要选取几个评分卡参数：基础分值、 PDO（比率翻倍的分值）和好坏比。这里，我们取600分为基础分值，PDO为20 （每高20分好坏比翻一倍），好坏比取20。

评分卡计算过程

1.2 评分卡开发流程：

评分卡开发流程

2 数据获取与整合

2.1 变量类型

原始变量
衍生变量
分析变量（类似于模型分）

2.2 数据来源：

人口统计数据
征信机构数据与外部评分
交易纪录（申请纪录）：频率，汇总值

3 数据描述

3.1 单变量：

数据分布：众数，平均值，中位数，变化率，分位数，极值（直接最大最小值／线性拟合／聚类）
数据集中度检测
数据脏乱情况。缺失值（是否隐藏风险）、离群值、错误值、重复值，根据其是否符合业务逻辑，判断数据是否存在异常

如果极值占比较高，需要分析是否要分多类

3.1 相关性指标

皮尔逊系数
斯皮尔曼相关系数
皮尔逊卡方统计量
似然比检验统计量
f检验（连续变量与类别之间的关联性）
基尼方差
熵方差
信息值（iv）

iv值判断标准

小于 0.02: unpredictive
0.02 to 0.1: weak
0.1 to 0.3: medium
0.3 to 0.5: strong
大于 0.5: suspicious

pyi是这个组中响应客户（风险模型中，对应的是违约客户，总之，指的是模型中预测变量取值为“是”或者说1的个体）占所有样本中所有响应客户的比例，pni是这个组中未响应客户占样本中所有未响应客户的比例

woe：

iv：

等距分箱
卡方分箱
最优分箱：决策树分箱
这里应该是基于不同的指标会作出不同的分箱，基于ks的，或者给予gini系数，信息熵的。

3.2 样本抽样

分层抽样
随机抽样
对称抽样

3.3 数据预处理

关键词：特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
筛选变量的常用方法
- 随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。

好的特征需要具备哪些优势？
稳定性高，区分度高，差异性大，符合业务逻辑，具备可解释性。

缺失值补充

建立随机森林模型进行填补
删除
补0/补极小值

异常值处理

大于2倍方差的做删除

数据分布分析

查看是否符合高斯分布
特征之间是否有强关联性。

3.4 模型样本预处理

分层抽样
随机抽样
对称抽样

3.5 模型筛选

逻辑回归

优点：简单、稳定、可解释、技术成熟、易于监测和部署
缺点：一定不能有缺失数据；必须是数值型特征，需要编码；准确度不高

决策树

优点：对数据质量要求不高，易解释
缺点：准确度不高

其他元模型

组合模型

优点：准确度高，稳定性强，泛化能力强，不易过拟合
缺点：不易解释，部署困难，计算量大

3.5 模型评价方式：

psi

psi计算过程

其他稳定性指标：评分迁移矩阵、kendall 秩相关系数

其他：

ks（10等分）：
TP：真实为1且预测为1的数目
FN：真实为1且预测为0的数目
FP：真实为0的且预测为1的数目
TN：真实为0的且预测为0的数目
真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+ FN)，
另外一个是假正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN)

十等分之后的： ks=Max(TPR-FPR)

1、区分度：主要有KS和GINI指标，理解KS的定义及用法
2、准确性：主要有roc曲线和AUC指标，理解AUC的定义及用法
3、稳定性：主要有PSI指标，理解PSI的定义及用法

auc和ks的关系？
有人说auc是衡量整个模型的排序能力，KS是衡量某个分段的区分能力。

拿逻辑回归举例，模型训练完成之后每个样本都会得到一个类概率值（注意是类似的类），把样本按这个类概率值排序后分成10等份，每一份单独计算它的真正率和假正率，然后计算累计概率值，

用真正率和假正率的累计做为坐标画出来的就是ROC曲线，
用10等分做为横坐标，用真正率和假正率的累计值分别做为纵坐标就得到两个曲线，这就是KS曲线。

AUC值就是ROC曲线下放的面积值，而ks值就是ks曲线中两条曲线之间的最大间隔距离

ROC值一般在0.5-1.0之间。值越大表示模型判断准确性越高，即越接近1越好。ROC=0.5表示模型的预测能力与随机结果没有差别。
KS值表示了模型将+和-区分开来的能力。值越大，模型的预测准确性越好。一般，KS>0.2即可认为模型有比较好的预测准确性。

roc，auc，

纵轴：TPR=正例分对的概率 = TP/(TP+FN)，其实就是查全率
横轴：FPR=负例分错的概率 = FP/(FP+TN)

lift
洛伦兹曲线

评分卡刻度：

image.png

3.6 评分卡的监测与部署：

image.png

最简单的，把评分卡每个区间加多少分减多少分，怎么做映射的逻辑，讲给开发小哥，他会帮你在线上写 if else
生成一个pmml文件，给开发小哥调用
公司自己做的决策引擎，或者是租的，自己写变量逻辑上线
用flask或者Django自己写接口上线

验收：测试、等级划分、额度设计、风险定价、ABtest的设计等等

3.7 拒绝演绎：

仅适用于申请评分卡
建立申请评分卡的时候，

4. 风控模型与模型评价指标

粗略的看：

贷前阶段：欺诈检测，准入模型，授信模型，定价模型。
贷中阶段：额度管理，流失预警。
贷后阶段：失联人检测。

策略体系：

欺诈规则：
准入规则：
风险名单：黑名单，失信名单等
运营商规则：
网贷规则：多头，白户，共债

规则类型：

拒绝策略：中一条直接拒绝
申请评分卡：基于用户的资质好坏，区分用户的好坏基准卡
风险定价模型：不同的客群利率不同
收益评分模型：基于客户收益状况评分

5. 互金网络下风控系统体系：

策略体系：反欺诈规则、准入规则、运营商规则、风险名单、网贷规则
人工智能模型：包括欺诈检测模型、准入模型、授信模型、风险定价、额度管理、流失预警、失联修复。

6. 常见问题：

样本不均衡：
幸存者偏差：多类模型筛选过后导致，需要使用无偏样本进行修正。在该场景下，迁移学习、增量学习（Incremental Learning）、生成对抗网络（GenerativeAdversative Nets，GAN）、高斯聚类模型（GaussianMixture Model，GMM）、半监督学习等都有一定应用
网络挖掘：用于团伙识别与失联人找回

参考资料：
信用评分卡模型
信用风险与评分卡研究

开篇：风控评分卡知识总结

1 基本风控信息

1.1 评分卡的分类：

A卡（Application score card）申请评分卡

B卡（Behavior score card）行为评分卡

C卡（Collection score card）催收评分卡

1.2 评分卡开发流程：

2 数据获取与整合

2.1 变量类型

2.2 数据来源：

3 数据描述

3.1 单变量：

3.1 相关性指标

3.2 样本抽样

3.3 数据预处理

3.4 模型样本预处理

3.5 模型筛选

逻辑回归

决策树

其他元模型

组合模型

3.5 模型评价方式：

psi

其他：

评分卡刻度：

3.6 评分卡的监测与部署：

3.7 拒绝演绎：

4. 风控模型与模型评价指标

5. 互金网络下风控系统体系：

6. 常见问题：

你可能感兴趣的:(开篇：风控评分卡知识总结)