风控建模系列(六):催收评分卡卡跟贷前申请卡关于目标变量的定义

关注公众号“ 番茄风控大数据”,获取更多数据分析与风控大数据的实用干货。

  在评分卡的所有的开发流程里,我一直在强调最重要的就是关于Y变量的定义了。目标的定义是重中之重。定义一旦出错,之后的一切都白干了。

  在催收评分卡跟贷前评分卡里,目标变量的定义非常不一样。其实在信贷模型里,评分卡放置的位置不一样,哪怕是提前一个节点,模型的定义就需要稍微修改,起码有些数据就不能用了。比如在贷前卡里,反欺诈的强变量数据反而是不能用的。这些大家是否理解透?

  好的,下面我们就来关于A卡跟C的定义展开详细的讨论:

  当然我知道很多同学都看过A卡的定义,那C卡的定义,是否有了解过?

第一部分:先来介绍A卡:

  分析A卡前,需要看两个表vintage跟flow rateVintage表—账龄表

  这个是根据客群的资产表现做的一张表:
清洗步骤是:
1)先将每个月的booking的金额做一个统一的规整,得到一张booking金额表·
2)将每个月charge_off,逐一统计
3)最后将步骤2中的进行cumulative,得到一张表
4) 根据前三个步骤得到的值,进行一个汇总得到资产表现情况表
(下图依次对应步骤1、2、3)
风控建模系列(六):催收评分卡卡跟贷前申请卡关于目标变量的定义_第1张图片
风控建模系列(六):催收评分卡卡跟贷前申请卡关于目标变量的定义_第2张图片
风控建模系列(六):催收评分卡卡跟贷前申请卡关于目标变量的定义_第3张图片
  计算的方式是cumulative的charge_off跟每个月的booking的金额一一做商,最后根据资产表现,我们需要获取的信息有下面几点:
(先看一下资产表的趋势图)

  1. 理解下账期是多长时间的产品(产品周期)
  2. 这一波资产是在多长时间内趋于稳定(产品的稳定周期)
  3. 如何结合vingtage应用到建模的数据里(结合建模)
    风控建模系列(六):催收评分卡卡跟贷前申请卡关于目标变量的定义_第4张图片
    (思考:为什么要费这么大的周章做这样的一个vintage表?vintage是将所有的不同时期的放款的客群,公平拉回同一起跑线的处理方式)

flow rate:
  关于迁徙率的概率就不再叙述了,如果不太明白他计算原理,可以参考下之前的文章:催收字典。我们主要看一下在观察recovery的数在哪个时期,变成接近charge_off,也就是任凭人工怎么催收都不能回落在前一个状态。

  (Flow_rate是贷后催收的一个重要监控表格,添加官微获取数据联练习下。)

  说完业务逻辑,我们来看一下建模的要求:建模关于变量的定义需要明确的两个指标,观察期跟表现期:
风控建模系列(六):催收评分卡卡跟贷前申请卡关于目标变量的定义_第5张图片
  观察期就是我们观察的样本在这段时间内是否能作为我们数据建模历史数据的参考的时期,可以理解为X变量;表现期就是客群会发现出他的好坏状态的时间窗口,也就是Y变量。

  那这个跟vintage跟flow rate又有什么关系?
  1.观察vintage,一个是想看一下资产在什么时间窗口稳定,一般只有当一个产品表现趋于稳定,他的历史数据才具有统计意义,波动性太强的数据,压根是没有规律的,这在统计学上也是这样要求的;
  2.观察flow rate,是想从另一个方面观测表现期大概是需要多长时间的窗口

  另外更重要的是:
  1.观察vintage,大大缩短了我们选取样本的时间窗口,比如一个36期的产品,选择mob12作为观察期就行了,比如在上面我贴的那个例子中,压根不用等产品走完36个月,有时候等整个产品周期都跑完再来建模,黄花菜都凉了。当然对于某些现金贷产品,周期特别短的,观察期就不是这样的一个选择方式
  2.观察flow rate,同样大大缩短了选取样本的表现期的窗口,同样是上面的那个例子,压根不用等到坏账再来统计。
  3.观察期跟表现期是两个圈,他们有交叉或者叫重叠的时候。有些坏样本MOB12内就可以看到起表现期。
  4.所以基于上面的分析我们只要分析mob12里客群就行了,并charge—off只要坏账时间在2个月,就可以界定为坏样本了。

  (关于A卡时 间窗口的选择的样本,是否理解透了?如果有问题,要不在后台获取数据练习下?此部分知识点重要,也会在后期的视频中着重涉及)

第二部分:关于C卡的样本定义

  C卡同样有表现期跟观察期的概念,不同的是C卡的表现期的选择会更灵活些。下面将以迁徙率模型为例说明下:
  在迁徙率模型里,你要做的模型是为了预测客户从M0迁徙到DPD5+的状态的概率。
  之前我就说过,你需要把这段时间划分为两个窗口看待,一个是前一个period为M0,经近一期的催收后,在下一个period表现为DPD5+。

风控建模系列(六):催收评分卡卡跟贷前申请卡关于目标变量的定义_第6张图片
  在这里,观察期可以选取客群近一年的状态作为历史数据,也可以选择截取时间点前整个生命周期的作为历史数据;但是表现期是比较固定的,在你截取时间点的下一个period是什么状态直接关系他作为好样本or坏样本。

  在梳理好坏样本的步骤里,是需要把客户对于每一期的period展开,以此往里面填充各种维度的数据。比如关于DPD的数据,你最少清洗完应该是类似这样的数据:

风控建模系列(六):催收评分卡卡跟贷前申请卡关于目标变量的定义_第7张图片


  十年职场生涯,这个长期混迹在风控界和科技界,摸爬滚打的大叔,曾经就职于全国最大的固网运营商平台、国内最大的ERP软件公司和一家老牌的互金公司,如果你想了解他,欢迎加入一起学习一起聊!

你可能感兴趣的:(番茄公众号)