z变换判断稳定性和因果性_风控模型—特征稳定性指标(CSI)深入理解应用

z变换判断稳定性和因果性_风控模型—特征稳定性指标(CSI)深入理解应用_第1张图片

风控业务背景

在风控模型监控中,特征稳定性指标(Characteristic Stability Index,CSI)是一个非常重要的指标,能帮助我们理解入模特征变量对模型分数波动的影响,以及背后的客群分布偏移原因。这对风控模型不稳定时追溯定位原因具有重要意义。

本文将介绍评分卡变量区间赋分原理、CSI的计算方法、CSI与群体稳定性指标(Population Stability Index,PSI)的对比、业务指导意义等内容,希望能对大家有所帮助。

目录
Part 1. 评分卡中从WOE分箱到区间赋分
Part 2. 特征稳定性指标(CSI)计算方法
Part 3. PSI与CSI之间的区别和联系
Part 4. 风控模型不稳定时的排查方向
致谢
版权声明
参考资料

Part 1. 评分卡中从WOE分箱到区间赋分

在信贷风控实践应用中,评分卡呈现操作简单、直观、解释性强的形式,这也是其经久不衰的原因之一。如图1所示,是由2个维度的变量组成的评分卡。或许有些同学还不清楚如何由WOE变换得到最终评分卡的过程,其主要步骤为:

step 1. 自变量WOE分箱:《WOE与IV指标的深入理解应用》介绍了如何对变量做WOE分箱,以及内在的理论。 step 2. 评分卡分数转换:《信用评分卡模型分数校准》介绍了如何将LR模型概率分数转换为常见的整数信用分。 step 3. 自变量区间赋分:将各分箱WOE值转换为信用分值,从而更易于解释和评分计算。本节将介绍这一过程。 step 4. Reason Code:根据自变量的分箱区间和对应分值,设置相应的解释性代码,便于生成解释性报告。

z变换判断稳定性和因果性_风控模型—特征稳定性指标(CSI)深入理解应用_第2张图片
图 1 - 评分卡典型形式

为简化处理,我们只考虑一个自变量

,那么公式推导如下:

由此,我们就得到了自变量每个分箱对应的信用分数(partial score)。其主要由参数

、自变量权重系数
、自变量每个分箱对应的WOE值这三部分计算得到。因此:
变量间:如果自变量越重要(权重系数越大),相应的赋分对最终得分的影响也会越大。 变量内:如果自变量各分箱的WOE值曲线越陡峭,那么各分箱的赋分跳跃越明显。

另一方面,我们也更能理解WOE的一个作用,其把不同维度的变量对标到同一个尺度,从而可以非常方便地加减处理。

Part 2. 特征稳定性指标(CSI)计算方法

《群体稳定性指标(PSI)深入理解应用》介绍了PSI的计算和评估依据。类似地,CSI的计算公式为:

含义为:CSI = SUM( (每个分箱内实际占比 - 每个分箱内预期占比)* 分箱分值)

现以实际数据为例展示上述公式。如图2所示,最终CSI的计算结果为0.36,我们可以得到哪些信息呢?

1. 符号为正:表示当前样本相对于开发样本往高分段偏移。反之,说明往低分段偏移。
2. 绝对值大小:表示该特征维度的稳定性,数值越大,特征稳定性越差。

z变换判断稳定性和因果性_风控模型—特征稳定性指标(CSI)深入理解应用_第3张图片
图 2 - CSI的计算图示

这时,我们又会有一些疑惑 :

Q1. PSI有一个用于判断稳定性的 经验阈值,那么CSI是否有相应的评估标准?也就是说,上述结果CSI=0.36,特征稳定性是否良好? Q2. 不同特征变量的分箱不同、分箱分数不同,那么CSI在跨特征是否具有可比性?也就是说,特征
和特征
的CSI比较是否有意义?
Q3. 在评分卡模型中,计算CSI非常直接明确,那么在机器学习模型(如XGBoost、随机森林)中是否也可以计算CSI? Q4. CSI的绝对值较大时,代表特征稳定性变差,若引起模型不稳定,那么该如何去排查原因和优化调整模型?

对于Q1,目前并没有公开资料回答这一问题,也没有给出可参考的经验阈值。根据笔者理解,这其中的原因主要有2个方面:

1. 每个人(公司)在信用评分转换时所定义的三个参数(基准Odds、基准分数、PDO)不完全一样,所以计算得到的A和B存在差异。
2. 由于训练样本、自变量、目标变量等各异,自变量权重系数更是不一样。

这些因素导致每个变量每个区间赋分(partial score)完全不同,而这在CSI的计算公式中占有重要的作用,所以业内无法给出一个统一可参照的阈值标准。而PSI指标只是从信息熵角度来衡量开发样本分布和实际样本分布之间的差异,不依赖于具体数据,因此就有统一的经验阈值。

对于Q2。在上文中,我们理解了每个变量区间赋分的原理。由于不同变量所给出的分数存在差异,权重系数不同,因此跨变量比较CSI没有业务含义。但我们可以评估出单个变量对模型输出分数的影响。

对于Q3。我们可以理解CSI的一个意义在于解释输入变量变化对模型输出的影响。评分卡由于具有非常好的可解释性,因此在计算上很直观易懂。但在机器学习模型(如XGBoost、随机森林)中,由于引入大量的非线性因素导致解释性变差,无法计算CSI。目前机器学习模型可解释性研究也是一个非常热门的方向,出现很多新技术(如SHAP、LIME等)。

对于Q4。大家可以先思考下可以从哪些角度切入去分析,包括数据、模型、信息流等。

Part 3. PSI与CSI之间的区别和联系

群体稳定性指标(PSI)与特征稳定性指标(CSI)非常类似,都是在衡量稳定性。当然,PSI的名气远远大于CSI,以致于很多人都不清楚这一指标。两者的区别和联系大致可以总结如下:

群体稳定性报告(Population Stability Report是用模型分数层(score)来评估当前样本与开发样本之间的分布差异。目前业内有可以统一参考来判断稳定性的阈值标准。

特征稳定性报告(Characteristic Stability Report是从入模特征层(characteristic)来分析当前样本与开发样本之间的分数差异,以及对最终模型分数的影响。目前没有统一参考来判断稳定性的阈值标准。

在实践中,我们一般会先观察PSI,如果PSI显示模型分数不稳定,那么此时再去观察CSI,从特征级分析原因。因此,PSI偏于宏观,CSI偏于微观。

Part 4. 风控模型不稳定时的排查方向

当通过PSI指标发现模型不稳定时,我们该如何去排查原因?引起模型不稳定的因素是多种多样的,主要包括:

  1. 申贷客群变化:获客渠道一般决定了客群质量,我们只是从客群的有限特征维度来大致判断是否变化,但这只是有偏判断,因为无法完全获知用户画像。当然,在获客阶段也会做前置风控,预先筛选流量,以及保证客群的稳定。
  2. 数据源不稳定:先从CSI指标观察入模特征的分数漂移,对于影响较大和偏移较大的变量予以重点关注。再从数据源上确认采集是否可靠,比如数据服务商是否正常提供、接口是否正常工作、网关数据传输过程是否正常等。
  3. 特征逻辑有误:在模型上线时,特征逻辑可能没有确认清楚,导致上线后出现意想不到的问题。因此,需要将入模特征的逻辑再次予以Review。
  4. 其他相关原因:模型监控报表是否正确计算?线上依赖于离线T+1产出的数据是否正常调度?特征缺失值处理逻辑?

致谢

感谢参考资料的作者带给我的启发。本文尚有理解不当之处,在此抛砖引玉。

版权声明

欢迎转载分享请在文章中注明作者和原文链接,感谢您对知识的尊重和对本文的肯定。

原文作者:求是汪在路上(知乎ID)
原文链接: https:// zhuanlan.zhihu.com/p/86 559671

⚠️著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处,侵权转载将追究相关责任

参考资料

https://www.listendata.com/2015/05/population-stability-index.html​www.listendata.com https://insights.principa.co.za/what-is-scorecard-monitoring-and-why-is-it-so-critical​insights.principa.co.za

关于作者

在某互联网金融公司从事风控建模、反欺诈、数据挖掘等方面工作,目前致力于将实践经验固化分享,量化成长轨迹。欢迎交流

你可能感兴趣的:(z变换判断稳定性和因果性)