催收评分卡(二)关于催收评分卡的血泪史

关注公众号“ 番茄风控大数据”,获取更多数据分析与风控大数据的实用干货。

  因为之前开发这套催分模型的时候,走过了很多弯路,进行总结和归纳,真心希望大家少踩过一些坑。毕竟这些浪费的时间,够你去做许多事情。以下把踩过的坑做了些梳理:
  非常容易把y变量来预测y变量。贷后的数据,其实是自家公司的数据居多,也最能反映自家公司的客群的行为和质量的。因为最容易拿到源数据,所以在使用的过程中,就能做各种数据的时间切片。
  关于这个数据的取法,反而非常需要你仔细分析业务逻辑。比如在入模的变量里,经常需要用到近一期的作为一个时间切分的数据。
  如:近一期下P的数量。在训练样本中,一般都会将数据的完整度做每个期的切片,做完之后再将数据进行规整制。比如:
催收评分卡(二)关于催收评分卡的血泪史_第1张图片
  我们会将客户的还款时间表做一个横向的划分。做完这个之后时间切片后,就可以按照每一期的时间横向取数。
1.如果我卡的时间窗口,刚好不够一个period,那是否应该延长时间窗口?
  这个问题主要是针对建模样本的而言,一般来说都是需要保证每个建模的样本都有同样的时间表现窗口,这样处理后每个样本才有相同的周期可言。但有时候会发现卡的时间比较尴尬,总会导致某些客户之间的时间取值不公平。
  比如在上图中对A客户的,截止取数时间是6.2日,他的前一个dual_day是5.10日,如果对于B客户而言,前一个dual_day如果是5月30日。粗略计算都可以知道B客户会比A客户部分时间窗口。
  所以一般我们在处理数据时候,除了观察期、表现期,还需要一个时间缓冲期。
2.当我模型的坏样本不够的时候,一般实际的业务场景会怎么处理?
  这个问题在的建模的过程中是非常常见的,建模的人永远都怀疑自己的坏样本不够多。一般我们在建模的处理的时候,要不就采用上采样,就是在增大坏样本比例的时候,缩减好样本的个数,这种情况是在你数据量比较多的时候,才可以采样这样的方式处理。
  另一种方法是下采样,下采样是增大坏样本的比例,就是采用随机的方式增大怀样本的数量。原理是类似于采用类似欧几何距离的方式来增加怀样本。
  然而在这我们会介绍另一种更实用的方法,我在实际业务上就是这样处理的。在处理催收卡的样本时,我会按照按照时间切片的方式选取出一批客户,然后再按照上个时间切片来取出客群,最后再取出上上个时间切片的客群。一般会按照这样的方式处理三次样本。在处理的过程中,有一些在第一批取出来的客群,到了第二批取值的时候会变成怀样本。于是将这批标签标记为坏样本的这批客群留下来,放进到总样本池里,并且记为坏样本。紧接着,在第二次做的客群筛选的时候,就少了第一批是坏客群时候的客户,依然把这批客群的坏客户留下来,以备第三期时候的筛客群做准备。
  具体的思路是是这样:
催收评分卡(二)关于催收评分卡的血泪史_第2张图片
  为了取数方便,我们会设置一个总的样本池,来存放总的好坏样本数据。
  因为每一期的客群的数据,都会有些许变动。所以每一期的数据里,你都应该另外计算。
3.催收卡的分类
  催收模块,因为其业务的特殊性,其实分类主要有三种类型,分别失联模型、还款率模型、和迁徙率模型。对这三种模型的解释分别是;
 a.迁徙率模型
  迁徙率模型主要是预测客户从一个状态迁徙到另一种状态的概率;

催收评分卡(二)关于催收评分卡的血泪史_第3张图片
 b.还款率模型是预测客户是否会迁徙正常还款;
  预测经催收后,最终催收回的欠款的比率
 c.失联模型是预测一个用户失联的机会;

催收评分卡(二)关于催收评分卡的血泪史_第4张图片
4.当我公司还没有准备开发一张催收卡的时候,我该选择哪个
  如果你公司还没有一张卡,建议先开发一张迁徙率模型评分卡。


  十年职场生涯,这个长期混迹在风控界和科技界,摸爬滚打的大叔,曾经就职于全国最大的固网运营商平台、国内最大的ERP软件公司和一家老牌的互金公司,欢迎加他一起学习一起聊(暗号:fanqie666+个人名字)。

你可能感兴趣的:(催收评分卡(二)关于催收评分卡的血泪史)