信用评分:第六部分 - 分群和拒绝推理(拒绝演绎)

信用评分:第六部分 - 分群和拒绝推理(拒绝演绎)

上一篇:信用评分:第五部分 - 评分卡开发

基本原理

信用评分:第六部分 - 分群和拒绝推理(拒绝演绎)_第1张图片
清理变量

“分群和拒绝推理,还是保持简单? - 这就是问题所在!” 本文探讨了在评分卡开发过程中经常需要解决的另外两个方面:分群和拒绝推理(Reject Inference, RI)。

分群

评分卡有多少?标准是什么?什么是最佳做法?- 我们在评分卡开发的早期尝试回答这些常见问题,首先从识别和证明评分卡数量的过程开始 - 称之为分群。


信用评分:第六部分 - 分群和拒绝推理(拒绝演绎)_第2张图片
图1.评分卡分段

初始分段预评估在业务洞察分析期间执行。在此阶段,应向业务部门通报任何已确定的异构人口群体,这些群体可能具有不同的特征,无法将其视为一个单独的群体,以便能够做出关于接受多个评分卡的早期业务决策。

分群的业务驱动因素是:(1)营销,例如产品供应或新市场;(2)不同客户群的不同处理,例如,基于人口统计,以及(3)数据可用性,这意味着不同的数据可能可通过不同的营销渠道获得,或者某些客户群可能没有可用的信用记录。

分群的统计驱动因素假设每个分群中有足够数量的观察,包括“好”和“坏”账户,并且每个分段包含交互效应,其中预测模式在各个分段之间变化。

通常,分群过程包括以下步骤:

  1. 使用有监督或无监督的分割来识别简单的分群方案。
  • 对于监督分割,决策树通常用于识别潜在的分段并捕获交互效应。或者,来自整体模型的残差可用于检测数据中的相互作用。
  • 无监督分割(例如聚类)可用于创建分段,但此方法不一定需要捕获交互影响。

2.为每个分群确定一组候选预测变量。
3.为每个分群构建单独的模型。
4.测试:

  • 如果分群模型具有不同的预测模式。未能识别跨段的新预测特征表明数据科学家应该搜索更好的分群拆分或构建单个模型。
  • 如果分群模型具有相似的预测模式,但在各个群上具有显着不同的幅度或相反的效果。
  • 如果分群模型在预测能力方面产生出色的提升,那么与建立在整个人口上的单一模型相比。

分群是一个迭代过程,需要不断判断以确定是使用单个还是多个群。从实践者的经验来看,分群很少会产生显着的提升,应该尽一切努力来制作单一的评分卡。避免分群的常用方法包括在逻辑回归中添加其他变量以捕获交互效应,或者识别每个群中最具预测力的变量并将它们组合到单个模型中。

单独的评分卡通常是独立构建的。但是,如果模型因素的可靠性是一个问题,父/子模型可能会提供另一种方法。在这种方法中,我们开发了关于共同特征的父模型,并使用模型输出作为其子模型的预测器,以补充子段中的独特特征。

多评分卡的主要目的是与单一评分卡相比,提高风险评估的质量。仅当分群评分卡为业务提供的重要价值超过更高的开发和实施成本,决策管理流程的复杂性,评分卡的额外管理以及更多IT资源的使用时,才应使用分群评分卡。

拒绝推理

如果建模仅基于具有已知性能的可接受人群,则申请评分卡具有自然发生的选择偏差。然而,由于其未知的表现,大量被拒绝的客户被排除在建模过程之外。为了解决选择偏差,申请评分卡模型应包括两个群体。这意味着需要推断出未知的拒绝表现,这是使用拒绝推理(RI)方法完成的。


信用评分:第六部分 - 分群和拒绝推理(拒绝演绎)_第3张图片
图2.接受和拒绝人口

要或者不要拒绝推理? - 有两种思想流派:那些认为RI是一个恶性循环的人,拒绝的推断表现将基于已批准但有偏见的人群,从而导致不太可靠的拒绝推断; 那些提倡RI方法论的人认为RI是一种有益于模型性能的有价值方法。

如果使用RI,在评分卡开发期间需要一些额外的步骤:

  1. 在接受人群上构建逻辑回归模型 - 这是base_logit_model
  2. 使用拒绝推理技术推断拒绝
  3. 将接受和推断的拒绝合并到一个数据集中(complete_population)
  4. 在complete_population上构建一个新的逻辑回归模型 - 这是final_logit_model
  5. 验证final_logit_model
  6. 根据final_logit_model创建记分卡模型
信用评分:第六部分 - 分群和拒绝推理(拒绝演绎)_第4张图片
图3.使用拒绝推理的评分卡开发

拒绝推断是一种缺失值处理,其结果是“不随意丢失”(MNAR),导致接受和拒绝人群之间的显著差异。有两种广泛的方法用于推断缺失的性能:分配和增强,每种方法都有不同的技术。两种方法中最流行的技术是比例分配,简单增强,模糊增强和打包。

信用评分:第六部分 - 分群和拒绝推理(拒绝演绎)_第5张图片
表1.拒绝推理技术

比例分配是将拒绝随机划分为“好”和“坏”帐户,其“坏”率比可接受的人口大两到五倍。

简单扩充假定使用base_logit_model对拒绝进行评分,并根据截止值将其分为“好”和“坏”帐户。选择截止值,使得拒绝中的“坏”率比接受中的“坏”率高两到五倍。

模糊扩充假设使用base_logit_model对拒绝进行评分。每个记录都有效地重复,包含加权的“坏”和加权“好”组件,两者都来自拒绝分数。在final_logit_model中使用这些权重以及所有接受的权重等于“1”。拒绝的“坏”率是接受的两到五倍,这是建议的策略。

打包是一种混合方法,包括简单的增强和比例分配。通过将使用base_logit_model生成的拒绝分数分类带到分数带中来创建包。比例分配适用于每个包,其“坏”率比接受人口的等效分数范围中的“差”率大两到五倍。

信用评分:第六部分 - 分群和拒绝推理(拒绝演绎)_第6张图片
图4.比例分配
信用评分:第六部分 - 分群和拒绝推理(拒绝演绎)_第7张图片
图5.简单扩充
信用评分:第六部分 - 分群和拒绝推理(拒绝演绎)_第8张图片
图6.模糊增强
信用评分:第六部分 - 分群和拒绝推理(拒绝演绎)_第9张图片
图7. 打包

上一篇:信用评分:第五部分 - 评分卡开发
下一篇:信用评分:第七部分 - 信用风险模型的进一步考虑

本文翻译转载自https://www.worldprogramming.com/blog/credit_scoring_pt6。

你可能感兴趣的:(信用评分:第六部分 - 分群和拒绝推理(拒绝演绎))