一文彻底理解评分卡开发中——Y的确定(Vintage分析、滚动率分析等)

评分卡已经在各大银行和公司都实际运用于业务,也有很多前辈对它进行了详细的阐述。本文将从支付和信贷评分卡建立的角度,对比分析不同行业在建立评分卡时因变量Y确定的差异。让想了解评分卡的小伙伴,有一个更深刻的理解。并能举一反三,将评分卡应用于更多的行业。
  
一文彻底理解评分卡开发中——Y的确定(Vintage分析、滚动率分析等)_第1张图片
  
  

一、什么是评分卡?

  
在风控领域,评分卡是一种以分数的形式来衡量客户风险大小的手段。类似于大家熟悉的芝麻信用分,介于350 - 950分,分数越高,代表信用越好。
  
350 - 550分的用户,信用较差,很难享受到支付宝的福利。
  
550 - 600分的用户,信用中等,可以享受一些福利,比如无押住酒店、开通花呗服务等。
  
600 - 650分的用户,信用良好,可以享受更多的福利,除了之前提到的福利,还可以免押金使用一些出行服务。
  
650-700分的用户,信用优秀,可以享受到花呗、借呗的高额度待遇。
  
700-950分的用户,信用极好,在申请一些国家签证的时候可以获得便利。
  
本文着重阐述支付领域和信贷领域建立评分卡时如何确定Y,评分卡原理和python实现见评分卡原理及Python实现。

  
  

二、如何确定评分卡中的因变量Y?

  
不同行业对于评分卡建模中Y的定义有差异,也有相似点。本文以支付领域和信贷领域作为切入口,向大家介绍因变量Y的确定。

  

1 支付领域确定因变量Y

  
对于支付领域,因变量Y的定义相对简单。比如公司有1亿家商户的入网和交易数据,现在想建立一个模型,评估什么交易类型的商户存在赌博风险。在定义因变量Y时,可以把系统中历史关闭原因带“赌博”字样且目前商户状态是关闭的商户定义为1(坏样本)。
  
为什么要求商户状态一定是关闭的?原因在于有些商户的交易和赌博交易比较相似,会存在误稽核的情况。如果商户在被稽核为赌博后,进行了材料申诉,证实自己是正常经营的,且符合商户经营范畴。该商户账号就会进行重开,商户状态就会调整为正常。在坏样本数据足够多的情况下,有时为了计算方便,只截取最近两年被定义为赌博且关闭的商户为坏样本进行建模。
  
定义完了坏样本,那什么情况定义为0(好样本)?
  
可以有两种方式,一种是目前状态为正常的商户定义为0,另一种是目前状态为正常,且未被历史稽核为赌博的商户定义为0。一般正常商户的数据量过大,需根据坏样本的数量按比例、时间抽取一些正常样本来建立模型。

  

2 信贷领域确定因变量Y

  
对于信贷领域的欺诈模型,通常可以用还款第一期的逾期表现(首逾)来定义因变量Y。跟支付领域评分卡模型一样,定义相对简单。但是对于信贷领域的信用模型,因变量Y的确定相对复杂,一般要结合滚动率分析和vintage分析。
  
滚动率分析确定什么程度的逾期客户定义为坏,vintage分析确定有多久表现期的客户能纳入模型。为了让大家更清晰地理解因变量Y的确定,首先定义一些需要用到的名词。

  

一、名词定义

  
为了简单起见,以单个人为例。假设有一个人在2021年4月12日上午10点8分在网络平台上借了一笔1万元的信用贷款,以等额本息的方式在未来12个月进行偿还。为了更清晰地展示部分名词,把这些名词放到如下图中进行展示:

一文彻底理解评分卡开发中——Y的确定(Vintage分析、滚动率分析等)_第2张图片

  
1.观察点(obs_date): 客户贷款的时点(2021年4月12日上午10点8分)。我们用截止到贷款申请时点过去一段时间的数据去预测客户未来逾期的可能性。
  
2.观察期: 用来生成客户特征(自变量)的时间区间。
  
3.表现期: 用来定义客户好坏的时间区间。严格来讲,分期12期的客户只有在所有钱都还完后才能定义好坏。但是通过Vintage分析可以看出放款客户在经过多久后,该变坏的已经变坏,剩下的基本都能按时还款了,从而可以缩短表现期的时间,增加能进入建模的客户数量。
  
4.表现点: 截止到多长时点的客户能被定义成“好客户”和”坏客户“。
  
5.账龄MOB(Month on Book): 资产放款月份。
  
MOB0: 放款日至当月月底,例子中指2021年4月12日到2021年4月30日。
  
MOB1: 放款第二个月,例子中指2021年5月1日到2021年5月31日。
  
MOB2: 放款第三个月,例子中指2021年5月1日到2021年5月31日。
  
MOB3: 放款第四个月,例子中指2021年6月1日到2021年6月30日。
  
依此类推,
  
MOB12: 指放款第13个月,例子中指2022年3月31日到2022年4月30日。
  
如果产品是12期的,那么该资产的生命周期是12期,MOB最大到MOB12。如果产品是24期的,MOB最大到MOB24。
  
6.逾期: 客户未能在应还款日全额偿还当月应还款额,那么这个合同就产生了逾期。
  
7.逾期天数DPD(Days Past Due)
  
定义: 客户到了应还款日还未还款,逾期天数为应还日次日起到实还日(含)期间的日数,如客户当期未还款无实还日,则取数据统计日取代实还日。

表达方式: DPDN+表示逾期天数≥N天的客户,如DPD60+表示逾期天数≥60天的客户。
  
示例:
  
在这里插入图片描述
  
即客户在第一个还款日(2021年5月12日)未还款,那么2021年5月13日即为逾期一天,客户在5月17日还款,该客户首逾5天。

其他说明:

①分析时按需求可采用任何逾期天数,如逾期3天/7天/15天/30天等。

②分析时按逾期天数设定取决于入催方式及催回率。
  
8.逾期期数
  
计算方式: 以指定的逾期天数作为逾期一期,如逾期130天对应M1、逾期3160天对应M2、以此类推,则逾期期数和逾期天数有必然对应关系,可以通过逾期天数直接计算逾期期数(注:不同的机构划分可能会有差异)。
  
定义: 自应还日次日起到实还日(含)期间的期数,如客户当期未还款无实还日,则取数据统计日取代实还日。
  
表达方式:
  
M0: 正常资产,当前未逾期(也可用C来表示)。
  
M1: 逾期1-30天,逾期一期。
  
M2: 逾期31-60天,逾期二期。
  
M3: 逾期61-90天,逾期三期。
  
M4: 逾期91-120天,逾期四期。
  
M5: 逾期121-150天,逾期五期。
  
M6: 逾期151-180天,逾期六期。
  
Mn: 逾期30n-29~30n天,逾期N期。
  
类似的,
  
M3+: 逾期90天以上,逾期3期(不含)以上。
  
M4+: 逾期120天以上,逾期4期(不含)以上。
  
M6+: 逾期180天以上,逾期6期(不含)以上,也被称为呆账,会注销账户。
  
Mn+: 逾期3*n天以上,逾期n期(不含)以上。
  
9.逾期率
  
订单笔数口径: 逾期率=逾期订单笔数/总放贷订单笔数
  
金额口径: 逾期率=逾期剩余本金/总放贷本金。
  
  

二、滚动率分析

  
1.目的: 为了让风控模型有更好的区分能力,我们需要确定逾期多久的客户定义为1(坏客户)。因为有些逾期几天的客户很可能是忘记还款了,经过提醒就还了,并非没有还款意愿和还款能力。如果所有有逾期表现的客户都定义为1,会导致模型的坏客户定义不清晰,从而影响模型的区分能力。滚动率分析可以展示客户在不同时间段从一种状态向另一种状态转移的情况,从而可以分析不同逾期状态的客户发展变化情况。
  
2.定义: 从观察点1之前一段时间(观察期1)的最坏状态,向观察点1之后一段时间(观察期2)的最坏状态转移情况。
  

一文彻底理解评分卡开发中——Y的确定(Vintage分析、滚动率分析等)_第3张图片
  

3.滚动率分析具体步骤:
  
step1: 选择观察点1,以观察点1为截止时间,根据还款计划表统计客户在观察期1(如过去6个月)的最长逾期期数,按最坏逾期状态将客户分为不同层次,如C、M1、M2、M3、M4+等。
  
step2: 以观察点1为起始时间,统计客户在观察期2(如未来6个月)的最长逾期期数,按最坏逾期状态将用户分为不同层次,如C、M1、M2、M3、M4+等。
  
step3: 交叉统计转移矩阵中的客户数。
  
step4: 根据转移矩阵中的客户数统计占比。
  
step5: 选择不同的观察点,重复step1~step4,对比滚动率数值。
  
例如,选择观察点为2021年6月30日晚上12点,取20,000个客户作为观察对象,统计这些客户从观察期1到观察期2的最大逾期状态变化情况。首先统计出如下客户逾期状态的明细表(仅为理解业务需要,非真实数据):
  
一文彻底理解评分卡开发中——Y的确定(Vintage分析、滚动率分析等)_第4张图片
  

根据逾期状态明细表统计出如下滚动率分析矩阵:
  
一文彻底理解评分卡开发中——Y的确定(Vintage分析、滚动率分析等)_第5张图片
  
观察滚动率分析矩阵可知:
  
①观察期1中逾期状态为C(正常)的客户,在未来6个月里,有95.29%会继续保持正常状态,4.71%会转变为逾期客户。
  
②观察期1中逾期状态为M1的客户,未来有81.16%会回到正常状态,即从良率为81.86%,有11.96%依然是M1状态,6.88%会进一步恶化。
  
③观察期1中逾期状态为M2的客户,从良率为25.96%,有6.41%转化为M1状态,26.12%依然是M2状态,41.51%会进一步恶化。
  
④观察期1中逾期状态为M3的客户,从良率为19.77%,10.6%转化为M1和M2,11.46%依然是M3状态,58.17%会进一步恶化。
  
⑤观察期1中逾期状态为M3+的客户,从良率为3.36%,24.16%转化为M1、M2和M3,72.48%依然是M3+状态。
  
根据从良率数量来看,逾期状态为M3+的客户几乎不会从良,为了让风控模型有更好的区分能力,可以定义坏客户为逾期状态为M3+(逾期超过90天)的客户。
  
实际信贷建模时,由于业务规模、产品上线时间等约束,建模样本量可能较少,导致坏样本数量更少。有时会人为划定逾期n天以上的为1(坏样本),未逾期的客户定义为0(好样本),逾期n天以内的定义为灰样本(舍弃)。现在逾期多少天以上的客户定义为坏客户已经有了衡量的标准。需要确定有多久表现期的客户才能纳入评估。
  
假设一个产品的贷款期限是12期,我们是需要12期都走完才能定义一个客户是否为坏客户吗?严格来讲,确实如此。否则,我们只能说到目前为止,该客户不是坏客户,但并不能知道在未来几期会不会逾期变成坏客户。而且有些账户是在前几期就达到M3+,有些是在后几期才达到M3+。因此,我们只需确定一个合适的表现期能够覆盖足够多的坏客户即可。vintage分析就是确定表现期设定多久比较合适。

  

三、账龄(Vintage)分析

  
1.目的: 统计每个月新增放款后在每个MOB中的逾期情况,对比每月放款的逾期情况,判断策略、模型的有效性,分析客户的风险成熟期。
  
2.表现方式: Vintage曲线的横坐标是MOB,纵坐标是逾期率。逾期率可以计算金额维度的,也可以计算订单维度的。
  
3.逾期率计算及统计方式(金额):
  
逾期率=逾期剩余本金/总放贷本金。
  
分母是放款当月的总计本金,即合同金额,不随时间变动(不因结清或核销减少)。
  
分子是逾期达到Bad定义时的本金余额,假设Bad定义为M3+,分子有两种计算方式。
  
一文彻底理解评分卡开发中——Y的确定(Vintage分析、滚动率分析等)_第6张图片
  
4.逾期率计算及统计方式(订单笔数):
  
逾期率=逾期订单笔数/总放贷订单笔数
  
分母是放款当月的总计订单笔数,不随时间变动(不因结清或核销减少)。
  
分子是逾期达到Bad定义时的订单笔数,假设Bad定义为M3+,分子同样有两种计算方式。
  
一文彻底理解评分卡开发中——Y的确定(Vintage分析、滚动率分析等)_第7张图片
  
5.Vintage表建立
  
现假设有一款对客费率36%的现金贷产品,产品期限12期,件均2千元,月均放款笔数在1万笔左右,还款方式为等额本息。由滚动率分析可以得到逾期Mn+的客户几乎不会从良,从而可以定义坏客户为Mn+的客户。本文假设该产品通过滚动率分析后得到逾期状态为M3+的客户几乎不会从良。统计2021年3月到2022年5月(如今)该产品的放款表现,可得到如下表格:
  
一文彻底理解评分卡开发中——Y的确定(Vintage分析、滚动率分析等)_第8张图片
  
按MOB的维度,把不同放款月份的订单重新整理,可得到如下表格:
  
一文彻底理解评分卡开发中——Y的确定(Vintage分析、滚动率分析等)_第9张图片
  
把MOB维度的表绘制成折线图,可得到如下Vintage表:
  

一文彻底理解评分卡开发中——Y的确定(Vintage分析、滚动率分析等)_第10张图片
  
由vintage表知:
  
①横轴表明客户的生命周期,体现了客户成熟过程中发生的变化。
  
②纵轴体现了拥有相同账龄的客户随时间改变而发生的变化,展示了不同月份的违约率变化情况。
  
③由于产品期限为12期,所以MOB(账龄)最长为12个月,反之也成立。
  
④数据统计的是Ever M3+逾期率,所以账龄MOB1、MOB2的都为0。
  
⑤放贷月份从2021年3月到2021年11月账户的逾期率都在降低,说明资产质量在不断提升,有可能是风控对该产品风险维度有了更全面的认识,风控水平在不断提升。
  
⑥不同月份放款的客户在经过9个MOB后逾期率M3+趋于稳定,说明账户的成熟期是9个月。
  
⑦由于统计的是Ever M3+逾期率,所以单月的逾期率数值只增不减。从该Vintage表知,如果我们现在想要建立信用贷前评分卡模型(A卡),有完整表现(放款走完了12 期)的放款月份是2021年3月到2021年6月。
  
如果只以有完整表现的数据建模,样本只能从放款月份是2021年3月到2021年5月的客户中取。如果以账户成熟期9个月的数据建模,样本可以从2021年3月到2021年8月中取,多三个月的样本数据。由于该Vintage表的数据是虚造的,看起来比较清晰。现实中有些放贷数据可能突然在某一个月由于流量、外部环境、风控策略调整等因素导致逾期表现突增。

比如有一个电商客群贷,产品期限12期、件均5,000元、对客费率36%的现金贷产品,Vintage表现如下(数据经过处理):
  

一文彻底理解评分卡开发中——Y的确定(Vintage分析、滚动率分析等)_第11张图片
  
从该产品的Vintage表中可以看到2018年10月的放款逾期率相较于之前月份陡增,可能是由于由于流量、外部环境、风控策略调整等因素造成的。

  

四、因变量Y的确定

  
1.定义: 因变量Y即为客户好坏标签变量。
  
2.方法: 用滚动率分析定义客户的好坏程度,Vintage分析确定合适的表现期。
  
3.具体操作步骤:
  
step1: 利用滚动率定义坏客户,例如上文案例中定义:逾期率为M3+的客户是坏客户。
  
step2: 以M3+作为资产质量统计指标,统计Vintage数据表,绘制Vintage曲线,分析账户成熟期。例如上文案例确定:账户成熟期是9个月。
  
step3: 表现期大于成熟期的样本可以用于建模,表现期小于成熟期的样本无法准确定义Y变量,暂时舍弃。
  
4.结论: 根据上文案例知,表现期超过9个月,且M3+逾期的客户定义为1,表现期超过9个月,且未逾期的客户定义为0,其他客户舍弃。
  
至此,支付领域和信贷领域因变量Y的确定已分析完毕,欢迎分享给更多有需要的小伙伴图片。
  
参考文献

http://t.zoukankan.com/zjfjava-p-14213026.html
https://blog.csdn.net/eroswang/article/details/117735703
https://vip.kingdee.com/article/243694728837810944?productLineId=1
https://baijiahao.baidu.com/s?id=1703345218390615519&wfr=spider&for=pc

你可能感兴趣:
用Python绘制皮卡丘
用Python绘制词云图
用Python绘制520永恒心动
Python人脸识别—我的眼里只有你
Python画好看的星空图(唯美的背景)
【Python】情人节表白烟花(带声音和文字)
用Python中的py2neo库操作neo4j,搭建关联图谱
Python浪漫表白源码合集(爱心、玫瑰花、照片墙、星空下的告白)

长按(扫一扫)识别上方二维码学习更多Python和建模知识,让你的学习和工作更出彩。

你可能感兴趣的:(风控建模,人工智能)