开篇:风控评分卡知识总结


1 基本风控信息

image.png

1.1 评分卡的分类:

A卡(Application score card)申请评分卡

A卡一般可做贷款0-1年的信用分析,A卡中常用的有逻辑回归,AHP

A卡用途:

  • 是否批准
  • 是否需要提供抵押物
  • 贷款金额
  • 贷款定价

B卡(Behavior score card)行为评分卡

B卡则是在申请人有了一定行为后,有了较大数据进行的分析,一般为3-5年。(多因素逻辑回归)

B卡用途:

  • 审查信用重建
  • 审查信用额度
  • 制定清收策略
  • 审查贷款定价与条件

C卡(Collection score card)催收评分卡

C卡则对数据要求更大,需加入催收后客户反应等属性数据。(多因素逻辑回归)
评分卡计算:在建立标准评分卡之前,我们需要选取几个评分卡参数:基础分值、 PDO(比率翻倍的分值)和好坏比。 这里, 我们取600分为基础分值,PDO为20 (每高20分好坏比翻一倍),好坏比取20。

评分卡计算过程

1.2 评分卡开发流程:

评分卡开发流程

2 数据获取与整合

2.1 变量类型

  1. 原始变量
  2. 衍生变量
  3. 分析变量(类似于模型分)

2.2 数据来源:

  • 人口统计数据
  • 征信机构数据与外部评分
  • 交易纪录(申请纪录):频率,汇总值

3 数据描述

3.1 单变量:

  • 数据分布:众数,平均值,中位数,变化率,分位数,极值(直接最大最小值/线性拟合/聚类)
  • 数据集中度检测
  • 数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常

如果极值占比较高,需要分析是否要分多类

3.1 相关性指标

  • 皮尔逊系数
  • 斯皮尔曼相关系数
  • 皮尔逊卡方统计量
  • 似然比检验统计量
  • f检验(连续变量与类别之间的关联性)
  • 基尼方差
  • 熵方差
  • 信息值(iv)

iv值判断标准

  • 小于 0.02: unpredictive
  • 0.02 to 0.1: weak
  • 0.1 to 0.3: medium
  • 0.3 to 0.5: strong
  • 大于 0.5: suspicious

pyi是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例

woe:

iv:

等距分箱
卡方分箱
最优分箱:决策树分箱
这里应该是基于不同的指标会作出不同的分箱,基于ks的,或者给予gini系数,信息熵的。

3.2 样本抽样

  • 分层抽样
  • 随机抽样
  • 对称抽样

3.3 数据预处理

  • 关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
  • 筛选变量的常用方法
    • 随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。

好的特征需要具备哪些优势?
稳定性高,区分度高,差异性大,符合业务逻辑,具备可解释性。

缺失值补充

  • 建立随机森林模型进行填补
  • 删除
  • 补0/补极小值

异常值处理

  • 大于2倍方差的做删除

数据分布分析

  • 查看是否符合高斯分布
  • 特征之间是否有强关联性。

3.4 模型样本预处理

  • 分层抽样
  • 随机抽样
  • 对称抽样

3.5 模型筛选

逻辑回归

优点:简单、稳定、可解释、技术成熟、易于监测和部署
缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高

决策树

优点:对数据质量要求不高,易解释
缺点:准确度不高

其他元模型

组合模型

优点:准确度高,稳定性强,泛化能力强,不易过拟合
缺点:不易解释,部署困难,计算量大

3.5 模型评价方式:

psi

psi计算过程

其他稳定性指标:评分迁移矩阵、kendall 秩相关系数

其他:

ks(10等分):
TP:真实为1且预测为1的数目
FN:真实为1且预测为0的数目
FP:真实为0的且预测为1的数目
TN:真实为0的且预测为0的数目
真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+ FN),
另外一个是假正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN)

十等分之后的: ks=Max(TPR-FPR)

1、区分度:主要有KS和GINI指标,理解KS的定义及用法
2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
3、稳定性:主要有PSI指标,理解PSI的定义及用法

auc和ks的关系?
有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。

拿逻辑回归举例,模型训练完成之后每个样本都会得到一个类概率值(注意是类似的类),把样本按这个类概率值排序后分成10等份,每一份单独计算它的真正率和假正率,然后计算累计概率值,

  • 用真正率和假正率的累计做为坐标画出来的就是ROC曲线,
  • 用10等分做为横坐标,用真正率和假正率的累计值分别做为纵坐标就得到两个曲线,这就是KS曲线。

AUC值就是ROC曲线下放的面积值,而ks值就是ks曲线中两条曲线之间的最大间隔距离

ROC值一般在0.5-1.0之间。值越大表示模型判断准确性越高,即越接近1越好。ROC=0.5表示模型的预测能力与随机结果没有差别。
KS值表示了模型将+和-区分开来的能力。值越大,模型的预测准确性越好。一般,KS>0.2即可认为模型有比较好的预测准确性。

roc,auc,

纵轴:TPR=正例分对的概率 = TP/(TP+FN),其实就是查全率
横轴:FPR=负例分错的概率 = FP/(FP+TN)

lift
洛伦兹曲线

评分卡刻度:

image.png
image.png

3.6 评分卡的监测与部署:

image.png
  • 最简单的,把评分卡每个区间加多少分减多少分,怎么做映射的逻辑,讲给开发小哥,他会帮你在线上写 if else
  • 生成一个pmml文件,给开发小哥调用
  • 公司自己做的决策引擎,或者是租的,自己写变量逻辑上线
  • 用flask或者Django自己写接口上线

验收:测试、等级划分、额度设计、风险定价、ABtest的设计等等

3.7 拒绝演绎:

仅适用于申请评分卡
建立申请评分卡的时候,

4. 风控模型与模型评价指标

粗略的看:

  • 贷前阶段:欺诈检测,准入模型,授信模型,定价模型。
  • 贷中阶段:额度管理,流失预警。
  • 贷后阶段:失联人检测。

策略体系:

  • 欺诈规则:
  • 准入规则:
  • 风险名单:黑名单,失信名单等
  • 运营商规则:
  • 网贷规则:多头,白户,共债

规则类型:

  • 拒绝策略:中一条直接拒绝
  • 申请评分卡:基于用户的资质好坏,区分用户的好坏基准卡
  • 风险定价模型:不同的客群利率不同
  • 收益评分模型:基于客户收益状况评分

5. 互金网络下风控系统体系:

  • 策略体系:反欺诈规则、准入规则、运营商规则、风险名单、网贷规则
  • 人工智能模型:包括欺诈检测模型、准入模型、授信模型、风险定价、额度管理、流失预警、失联修复。

6. 常见问题:

  • 样本不均衡:
  • 幸存者偏差:多类模型筛选过后导致,需要使用无偏样本进行修正。在该场景下,迁移学习、增量学习(Incremental Learning)、生成对抗网络(GenerativeAdversative Nets,GAN)、高斯聚类模型(GaussianMixture Model,GMM)、半监督学习等都有一定应用
  • 网络挖掘:用于团伙识别与失联人找回

参考资料:
信用评分卡模型
信用风险与评分卡研究

你可能感兴趣的:(开篇:风控评分卡知识总结)