“策略+模型“评级流程详析(含数据字典)

编者:Joey

审核:Devin讲师

在前面两篇系列干货文章当中,小篇跟大家介绍了决策矩阵的场景及解决方案、原理与架构、如果没有看过文章的小伙伴可以点击下方链接回顾下精彩内容。关注“金科应用研院”,回复“CSDN”领取“风控资料合集”

上篇文章:

1) 大咖干货 | 矩阵分析的场景介绍及其解决方案(思路篇)

2) 矩阵在金融信贷风控中的策略应用(附代码)

相信大家对于决策矩阵的背后逻辑应该有了比较清晰的了解。带着这个逻辑,结合案例样本数据,我们来进一步探讨下矩阵中与策略、模型相关的分析。

本文干货内容索引:

1.如何分析样本数据?

2.如何对策略评级?

3.如何对模型评级?

如何分析样本数据?

对样本数据进行分析是任何数据分析任务之前必备且十分重要的一个前提步骤。在我们课程中,为了便于同学们理解,讲师选取了40000条样本数量、13个特征数量作为案例样本数据进行分析,同时也给出了特征字典。

这里提及一点,在整个信贷产品风控流程当中,无论是策略还是模型,对于数据字段加工(变量加工),尽量维度越多越好,这对模型策略效果会有明显提升,下面展示的特征字典汇总表都是在真实工作场景中具有一定的方向性和代表意义的,如在多头、消费、电信、银联、信用卡、欺诈、通行以及模型分数等,同时也可以了解对应的数据类型和业务类型。

“策略+模型“评级流程详析(含数据字典)_第1张图片

除了上述中从业务角度对样本数据进行分析,真正分析还需要对特征属性、样本量、特征含义、格式、类型、标签含义进行数据探索,再进行统计分析。做统计分析时会对不同的特征类型选用不同的方法,在课程案例中,讲师挑选的是numeric(数值型)的特征分布,从结果可以清晰看到每个字段相关的最大值、最小值、平均值等常用的统计值。

“策略+模型“评级流程详析(含数据字典)_第2张图片

细心的朋友可能会发现,上表缺失了“x06”(欺诈风险等级)、“x09”(消费价值类型)字段,原因就在于本堂课使用的是Python的Describe描述函数,该函数不能对字符型进行描述,因此在拿到特征字典时首先要明确字段类型,对于字符型的字段则使用其他语法做统计分布,包括每种字段的取值、取值数量等。

下图是对“x06”、“x09”字段通过案例实操后的结果:

“策略+模型“评级流程详析(含数据字典)_第3张图片

如何对策略评级?

在了解了数据相关特征分布之后,接下通过代码实操对策略体系和模型体系分别进行评级。

策略评级

策略评级三步骤:
① 定义规则评级的类型与逻辑
② 对策略规则集的单个规则依次评级
③ 策略最终评级,即取所有规则的最高风险等级

风控策略模块由多条规则构成,策略评级的前提是对规则集的单个规则进行评级。在本案例中样本数据有10条规则,所以就对10条规则进行评级。在实际的工作场景中,策略体系是包含多条规则,一般像围绕个人C端信贷产品有几百条规则,围绕B端中小企业可能有几十条规则。

其次,既然要做决策矩阵,就需要先对每个模块定义档次。一般地,规则评级划分5档:A、B、C、D、E,风险程度由低到高,每个等级类型的设置需根据特征分布的区间阈值、每区间占比大小、坏账表现、变化趋势、字段属性等综合分析决定。

“策略+模型“评级流程详析(含数据字典)_第4张图片

如何对规则进行评级,便于大家理解,分别说明一下。数值型字段分为连续型和离散型,对于连续型数值字段首先确定阈值划分,根据阈值确定每个区间的坏账率高低,再以坏账率高低和整个样本平均坏账率的对比来得到最后的ABCDE属于哪个等级,离散型原理同上,这就是整个规则评级的步骤。

最后,策略评级是由规则等级决定的,所以根据规则等级,取规则集的最高风险等级来作为策略等级。还是以上面的样本数据和特征字典为案例,下图为代码实操后的结果。10个规则最后会出现不同的规则等级,只需要选取里面的最风险等级,即“x04-D”、“x07-D”,最终该样本数据的策略等级就为D。

“策略+模型“评级流程详析(含数据字典)_第5张图片

(由于文章篇幅有限,具体的代码实操过程,讲师在课堂上进行了详细操作,这里不作赘述,感兴趣的小伙伴可以咨询我们课程顾问哦)

如何对模型评级?

模型评级

理解了策略评级的分析思路与方法之后,模型评级的业务逻辑基本与策略评级一致。为方便评级,同样的,将模型评级划分5档:A、B、C、D、E,风险程度由低到高,每个等级类型的设置需根据评分分布的区间阈值、占比大小、坏账表现等综合分析决定。

需要注意的是,一般情况下评分模型的区分效果是要比一般情况下评分策略的效果更好,由于模型分数体现的用户风险高度量化比某条规则更具体,所以划分区间时相对比策略规则更好一些。

按照上面的流程下来,就已经能够知道策略的规则x01-x10,模型为score,总共有11个特征字段,基于这个标准从而对策略&模型评级进行划分。

以上就是整个评级逻辑,对于风控人员来说,掌握底层逻辑是十分重要的。当然了,后边的带有真实数据的矩阵结果解读,也是最贴近业务视角“核心”内容,小伙伴们可以在看完前边思路理解的基础上,最后通过真实数据分布看待理解课程思想的应用。而且,在课程里边不仅解析了决策矩阵,而且还衍生出“子级矩阵嵌套”的思想方法,这个也是非常重要的哦,更能体现出决策矩阵的应用重要性。

你可能感兴趣的:(大数据与建模,人工智能,机器学习,python)