什么是信用风险?
交易对手未能履行约定契约中的义务而造成经济损失的风险,即受信人不能履行还本付息的责任而使授信人的预期收益与实际收益发生偏离的可能性,它是金融风险的主要类型。
组成部分:
PD 违约概率
LGD 违约条件下的损失率
EAD 违约风险下的敞口暴露
RWA 风险权重资产
EL 期望损失
坏样本的定义
• M3&M3+逾期
• 债务重组
• 个人破产
• 银行主动关户或注销
• 其他相关违法行为
M0,M1,M2的定义
• M0:最后缴款日的第二天到下一个账单日
• M1:M0时段的延续,即在未还款的第二个账单日到第二次账单的最后缴款日之间
• M2:M1的延续,即在未还款的第三个账单日到第三次账单的最后缴款日之间
什么是评分卡
信贷场景中的评分卡
• 以分数的形式来衡量风险几率的一种手段
• 是对未来一段时间内违约/逾期/失联概率的预测
• 有一个明确的(正)区间
• 通常分数越高越安全
• 数据驱动
• 反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡
非信贷场景中的评分卡
• 推荐评分卡
• 流失评分卡
观察期与表现期
观察期
• 搜集变量、特征的时间窗口,通常3年以内
• 带时间切片的变量
表现期
• 搜集是否出发坏样本定义的时间窗口,通常6个月~1年
评分卡模型开发步骤
立项
数据准备与预处理
模型构建
模型评估
验证/审计
模型部署
模型监控
评分卡开发的常用模型
• 逻辑回归
优点: 简单,稳定,可解释,技术成熟,易于监测和部署
缺点: 准确度不高
• 决策树
优点: 对数据质量要求低,易解释
缺点: 准确度不高
• 其他元模型
• 组合模型
优点: 准确度高,不易过拟合
缺点: 不易解释;部署困难;计算量大
模型监控的指标
AR
KS
PSI
Kendall’ Tau
Migration Matrix
AR(Accuracy Ratio)
衡量分数预测能力的指标 ,需要一个完整的表现期。取值位于-1~1之间。
如果我们今天用AR来监控模型的好坏,那么只能是监控模型在一年(这里假定表现期为一年)之前的数据上表现的好坏。
先把样本按分数由低到高排序,X轴是总样本的累积比例,Y轴是坏样本占总的坏样本的累积比例。AR就是等于模型在随机模型之上的面积除以理想模型在随机模型之上的面积。计算中可以用梯形近似逼近曲线下面积来计算,AR越高说明模型区分效果越好。
下图公式中Xk,Yk代表分数的第K个分位点对应的累积总样本及相应的坏样本的比例。设总的坏样本的比例为Bo,令(Xk,Yk)=(0,0)
KS(Kolmogorov-Smirnov)
衡量分数区分能力的指标。
把样本按分数由低到高排序,X轴是总样本累积比例,Y是累积好,坏样本分别占总的好,坏样本的比例。两条曲线在Y轴方向上的相差最大值即KS。KS越大说明模型的区分能力越好。
Bad k和Good k分别表示为分数累积到第k个分位点的坏样本个数和好样本个数,KS计算公式:
PSI( Population Stablility Index)
衡量分数稳定性的指标
按分数对人群进行分组,令Ri是现在样本中第i组占总样本的百分比,Bi是一段时间后第i个分组占总样本的百分比。PSI取值越小说明分数的分布随时间变化越小。
Kendall’s Tau
正确有效的评分卡模型中,低分数的实际逾期率应该严格大于高分段的实际逾期率。我们将分数从低到高划分为10组,每组的实际逾期率记做r1,r2,r3,…,r10。对所有的(ri,rj)的组合,如果有ri< rj且i< j,或者ri> rj且i> j,则记做一个discordant pair,否则记做concordant pair。其计算公式如下:
Kendall’s Tau越接近1或者等于1,说明逾期率在分数上的单调下降性越明显,反之说明分数变化与逾期率的变化的一致性得不到保证。
Migration Matrix
迁移矩阵是衡量分数矩阵的指标,对相同的人群,观察在相邻两次监控日期(一周)分数的迁移变化。迁移矩阵中元素Mjk代表上次监控日期分数在第j组中的人群在当前迁移到第k组的概率。实际计算中可把分数平均分成10组,计算这10组之间的迁移矩阵。
申请评分卡的重要性和特性
互联网金融特性与产品
传统金融机构+非金融机构
传统金融机构: 传统金融业务的互联网创新以及电商化创新、APP软件等
非金融机构:利用互联网技术进行金融运作的电商企业
(P2P)模式的网络借贷平台
众筹模式的网络投资平台
挖财类(模式)的手机理财APP(理财宝类)
第三方支付平台等。
为什么要开发申请评分卡
风险控制
营销
资本管理
评分卡的特性
稳定性
区分性
预测能力
和逾期概率等价(即评分和逾期率呈相关性)
申请评分卡常用的特征
个人信息 : 学历 性别 收入
负债信息 : 在本金融机构或者其他金融机构负债情况
消费能力 : 商品购买纪录,出境游,奢侈品消费
历史信用记录 : 历史逾期行为
新兴数据 : 人际社交 网络足迹 出行 个人财务
非平衡样本问题的定义和解决方法
非平衡样本的定义
在分类问题中,每种类别的出现概率未必均衡
信用风险:正常用户远多于逾期/违约用户
流失风险: 留存客户多于流失客户
非平衡样本的隐患
降低对少类样本的灵敏性
非平衡样本的解决方案
过采样
优点: 简单,对数据质量要求不高
缺点: 过拟合
欠采样
优点: 简单,对数据质量要求不高
缺点: 丢失重要信息
SMOTE(合成少数过采样技术)
优点: 不易过拟合,保留信息
缺点: 不能对有缺失值和类别变量做处理