智能风控读书笔记

1.1 信用与管理

信贷业务又称信贷资产或贷款业务,是商业银行和互联网金融公司最重要的资产业务和主要赢利手段,通过放款收回本金和利息,扣除成本后获得利润。对有贷款需求的用户,贷款平台首先要对其未来的还款表现进行预测,然后将本金借贷给还款概率大的用户。

信用管理主要包含两个概念——信用和管理。信用意味着先买后付,即使用信用值来预支金钱以购买相应服务。管理即通过用户信息对用户的信用度进行评估,并根据信用情况定制风险规避策略。所谓风险控制(简称风控),即对用户风险进行管理和规避的过程。

风险数据分析用于对用户的信用风险进行管理与规避。对于预测信用较差的人,贷款机构一般是不会向其放款的,即便放款,为了抵御风险,也会给予其较高的利息与较小的贷款金额。风险数据分析中最重要的技术手段就是风控建模。

数据分析,是对已发生现象的归纳和总结,其所有的预测能力皆源于对现有数据进行整理、归纳、抽取。对历史数据的信息使用相应的数学公式进行组合学习,即可得到模型,利用模型输出未来事件的期望轨迹。

风险建模,属于风险数据分析领域的分支之一,此外还有归因分析、策略挖掘等分析方法。

1.2 风控术语解读

  • 年度百分率(Annual Percentage Rate,APR)

  • 应收账款(Accounts Receivable,AR)

  • 账龄(Month Of Book,MOB)

  • 逾期天数 (Days Past Due, DPD)

  • 逾期期数(Bucket)

  • 逾期阶段(Stage)

  • 即期指标(Coincidental)

  • 递延指标(Lagged)

  • 留存率(Retained Rate)

  • 提现率(Withdrawal Rate)

  • 额度使用率(Credit Utilization Rate)

  • 复借率(Reloan Rate)

  • 延滞率(Delinquent Rate)

  • 不良率(Bad Rate)

  • 转呆账率(Write-Off,WO)

  • 净损失率(Net Credit Loss,NCL)

  • 负债比(Debit Burden Ratio,DBR)

  • 风险等级(Risk Grade)

  • 命中率(Hit Rate)

  • 可用余额(Open To Buy,OTB)

  • 迁徙率(Flow Rate)

  • 首次还款逾期(First Payment Deliquency)

  • 预期损失(Expected Loss,EL)

  • 收入负载(Debt To Income,DTI)

1.3 企业信贷风控架构

风险的管控并非由一个模型或一条策略就能完成,通常需要多方人员配合,通过多环节把控,才能有效控制风险并最大化收益。常见的准入模型、额度管理模型、营销模型、流失预警模型、催收模型等,仅仅作为相应板块的风险管控手段,嵌入在该板块的策略系统中使用。

首次贷款用户会经历申请、四要素验证、授信与额度利率定价、多层审批、用户提款等多个环节。不符合申请资质要求的用户,在其中的多个环节都有可能被拒绝。而对于还款后再次贷款的复贷客户,平台通常会给予更好的信用评估结果,并根据历史还款表现对其进行额度管理。

首次贷款用户需要依次通过反欺诈引擎、信用评估引擎、人工审核的审批。信用评估引擎主要包括政策规则筛选、信用规则筛选、申请评分卡评分等步骤。政策规则包含用户年龄、身份是否满足法定贷款要求;信用规则通常由风险分析方法得到相应的策略规则;申请评分卡是用户授信的主要依据,建模人员根据用户的征信数据以及统计模型,对用户未来的还款情况进行预估。在部分书籍中,申请评分卡属于信用规则的子集,因为信用评分最终是用于构成部分策略的组件,并与其余策略共同部署在决策引擎之上。

审批通过的客户中,部分客户由于未提款而导致流失,这部分客户是流失召回系统的主要客群之一。当用户提款成功后,如未在约定时间内还款,即产生逾期,通常会通过催收人员实施相应的处置手段。失联客户通常需要根据关系网络寻找多度联系人,但部分平台由于不具有相关的社交数据,因此会选择使用第三方提供的失联补全服务。逾期时间较长或拒绝还款的用户将被列入黑名单,无法再次借款。催收评分卡通过预测用户的催收处置难度,将用户划分为平台催收和外部第三方催收。

首次还款周期结束且未列入黑名单的客户,平台允许其再次贷款。由于用户历史还款行为较好,因此该类客户属于优质客户。如果用户未再次贷款,则属于优质客户流失。因此,在流失召回的过程中,需要对此类客户加以关注。当用户再次申请贷款时,通常使用信用评分卡对用户进行额度管理。如果历史表现较好,即使申请评分卡得分较低导致其额度较低,仍会通过行为评分卡进行升额调控,反之亦然。

外部征信数据是申请评分卡中用户的主要数据。由于复贷客户具有历史平台表现,因此行为评分卡通常不会再次查询客户的外部数据,而是只使用历史平台表现作为主要数据开发模型,以节约成本。而催收评分卡同样不会再次查询客户的外部征信数据,而是主要使用历史贷款过程中,催收人员记录的用户表现作为主要数据。

2.1 评分卡概念

信用评分卡,即专门用来评估用户信用的一张刻度表。评分卡的种类已非常多。根据其针对客群、用途的不同,冠以不同的名称。

2.1.1 适用客群

  • 通用评分卡(Generic Score Card):基于全行业数据,利用数据分析或经验判断开发的评分卡,通常应用于市场营销、申请审批、账户管理、催收回收、欺诈验证等场景。
  • 定制评分卡(Customized Score Card):又称信用局部评分卡,通常是由具体机构根据自身数据及场景需求定制的评分卡。
  • 子评分卡(Children Score Card):由于各机构不只有一个产品,且单一产品中可能呈现出不同的样本分布,通常会在定制评分卡后的细分方向上建立子评分卡。

2.1.2 用途

  • 申请评分卡(Application Card):申请评分卡通常用于贷前客户的进件审批。
  • 行为评分卡(Behavior Card):为了根据贷款期间产生的数据动态调整用户的额度。
  • 催收评分卡(Collection Card):催收评分卡一般用于贷后管理,主要使用催收记录作为数据进行建模。根据用户的催回难度,合理配置资产处置资源。
  • 流失预警评分模型:预测平台现有存量客户在未来某时间节点后流失的概率。覆盖审批通过后未提款客群、还款成功后不再复贷客群等。
  • 营销评分模型:目标客群收到平台营销后,申请贷款服务的概率。
  • 欺诈评分模型:一种用来预测用户的借款目的不正当程度的评分模型。

2.2 建模流程

模型的本质是对现有业务问题的抽象理解。有一个事实是,凡是工业界所建立的模型,其背后都有实际的需求。因此,需要先提出问题,然后由建模人员将其抽象为可量化的数学模型。

  • 模型设计:业务问题模式化、因变量设计(标签定义)、数据集及时间段设计、样本选取(数据集收集)。
  • 模型开发:特征构造、特征变换、特征筛选、模型评估、模型部署。
  • 模型监控:通过多维度的指标监控保持对线上模型的持续追踪,以确保模型的效果和稳定性。当模型的某方面性能出现问题时,会通过模型迭代(Refit)或模型重构(Rebuild)对模型进行更新。

2.3.1 业务问题转化

因变量设计,是指将不可解问题转化为近似可解问题。

2.3.3 数据集切分

数据集在建模前需要划分为3个子集:开发样本(Develop)、验证样本(Valuation)、时间外样本(Out Of Time,OOT)。其中开发样本与验证样本使用分层抽样进行划分,以保证两个数据集中的负样本占比相同。通常开发样本与验证样本的比值为6:4。而时间外验证样本通常使用整个建模样本中时间切片最后的一段样本。

2.3.4 样本选择

  • 代表性(Representativeness):样本必须能充分代表总体
  • 充分性(Adequacy):样本集的数量必须满足一定数量要求。
  • 时效性(Timeliness):在满足样本量充足的前提下,通常要求样本的观测期与实际应用时间节点越接近越好。
  • 排除性(Exclusions):虽然建模样本需要具有代表整体的能力,但某些法律规定不满足特定场景贷款需求的用户不应该作为样本。

2.3.5 采样与加权

由于负样本通常较少,因此只对正样本进行欠采样处理。常见的欠采样方法包括如下几种。

  • 随机欠采样(Random Subsampling):直接将正样本随机欠采样至预期比例。通常将正样本欠采样至正负样本比例相等,即正样本量与负样本量的比值为1:1。等比例抽样属于特殊的随机欠采样。

  • 分层抽样(Stratified Sampling):保证抽样后,开发样本、验证样本、时间外验证样本中的正负样本比例相同。

  • 算法采样:通过使用聚类(Clustering)算法,将样本点聚类得到符合预期个数的簇,再使用簇中样本的平均值代表整个簇。

3.2.3 极大似然估计

最大似然估计的本质就是让当前场景出现的值,在理论上出现的概率得到最大化。

3.3.4 标准化

  • 离差标准化(Min-max Normalization)是根据变量的最大值与最小值,对原始数据进行线性变换,将变量整体取值约束为0~1之间。

  • 标准差标准化(Zero-mean Normalization)对数据进行处理。这种方法是基于原始数据的均值(Mean)和标准差(Standard Deviation)进行数据的标准化。

  • 分位数标准化(Quantile Normalization),它会根据中位数或者四分位数去中心化数据。

  • 对于非正态分布,我们可以通过box-cox变换将其转化为正态分布。

  • WOE

3.4.2 混淆矩阵与衍生指标

P-R曲线:根据模型的预测结果对记录进行排序,按此顺序逐个将记录作为正样本进行预测,计算出当前召回率、精确率。开始是精确率高,因为设置的阈值很高,只有第一个样本(分类器最有把握是正类)被预测为正类,其他都是负类,所以精确率高,几乎是1。而召回率几乎是0,仅仅找到1个正类。

  • 精确率(查准率):表示实际为正被分类器预测为正的概率
  • 召回率(查全率):表示被分类器预测为正实际为正的概率

智能风控读书笔记_第1张图片

接收者操作曲线(Receiver Operating Characteristic,ROC)的横坐标是假正例率(False Positive Rate,FPR),纵坐标是真正例率(True Positive Rate,TPR)。曲线下面积(Area Under Curve,AUC)定义为,坐标系中ROC曲线下的覆盖面积。当模型ROC曲线有交叉时,AUC大的模型性能优于AUC小的模型。

  • 真正例率(True Positive Rate,TPR) 表示正类中被分类器预测为正类的概率,刚好就等于正类的召回率。
  • 假正例率(False Positive Rate,FPR)表示负类中被分类器预测为正类的概率,它等于1减去负类的召回率。

3.4.4 业务评价

  • 群体稳定性指标(Population Stability Index,PSI)是一种用于衡量不同数据集上分布差异的指标。
  • 模型PSI值可以直接反映当前月份模型预测分布与初始月份模型预测分布的差异。
  • 单变量PSI是在特征筛选时使用的指标之一,专门用来衡量每一个特征的稳定性。通常当单变量PSI值大于0.02时,我们应当考虑对该特征做一些调整,或者直接删除该特征。
  • 捕获率(Capture Rate)指的是在分数较低的几个客群上,可以捕捉到当前样本集中的负样本的百分比。

3.5 上线部署与监控

  • PSI值

  • 分数分布

  • 线上、线下分数对比

  • 模型显著性:直接反映模型显著性的指标有前文提到的KS值和AUC值。

4.1 辛普森悖论分群

辛普森悖论(Simpson’s Paradox)即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。换言之,变量在不同子空间中可能和目标变量形成完全不同的相关趋势。分群方法分为经验分群与技术分群。基于经验的分群方法,主要是将客群按照常识进行划分。技术型分群方法通常分为基于监督模型分群和基于无监督模型分群。

4.2 监督分群

监督分群是通过监督学习方法进行模型预测,将客群分为多个子集的方法,其中最常用的监督学习模型是决策树(Decision Tree)。

4.2.1 决策树原理

基于有监督模型分群,即将量化后的用户信息带入决策树模型,自动挖掘有区分度的变量,并根据相关变量将客群划分为多个子群。这种分群方法利用了样本的标签信息,因此属于有监督的分群方法。常见的决策树算法有ID3、C4.5、CART分类树、CART回归树等。

4.2.3 生成拒绝规则

4.3 无监督分群

基于无监督模型分群,即通过人为判断,将主观认为差异性较大的变量放入无监督模型,通过聚类将不同客群区分开,如根据不同渠道、不同收入、不同学历、不同年龄段、不同产品类型等。这种方法不使用样本的标签,因此属于无监督的分群方法。常用的无监督分群方法有K均值聚类和混合高斯模型(Gaussian Mixture Model,GMM)等,其中GMM利用多个高斯分布对数据集进行拟合,在实践中有更好的表现。

4.3.1 GMM原理

GMM是工业界使用最多的一种聚类算法。它本身是一种概率式的聚类方法,假定所有的样本数据X由K个混合多元高斯分布组合成的混合分布生成。GMM可以看作是由K个单高斯模型组合而成的模型,这K个子模型是混合模型的隐变量。一般来说,一个混合模型可以使用任何概率分布,这里使用GMM是因为高斯分布具有很好的数学性质及良好的计算性能。

4.4 用户画像与聚类分析

4.4.2 K均值聚类

K均值(K-means)聚类是一种迭代的聚类算法。K均值聚类要求在建模初期确定聚类簇(Cluster)的个数。研究表明,当簇的形状为超球面(例如二维空间中的圆、三维空间中的球)时,K 均值算法性能良好。

4.4.3 均值漂移聚类

均值漂移(Mean Shift)聚类通过感兴趣区域内的数据密度变化计算中心点的漂移向量,从而移动中心点进行下一次迭代,直到到达密度最大处(相当于只改变中心点的位置,而不会选择其他点作为中心点)。从每个数据点出发都可以进行该操作,在这个过程,统计出现在感兴趣区域内的数据的次数,该参数将在最后作为分类的依据。

4.4.4 层次聚类

层次聚类是一种能够构建有层次的簇的算法。在K均值聚类中,由于最初随机地选择簇,多次运行算法得到的结果可能会有较大差异,而层次聚类的结果是可以复现的。层次聚类不能很好地处理大数据,而 K 均值聚类可以。原因在于 K 均值算法的时间复杂度是线性的,而层次聚类的时间复杂度是平方级的。然而,K 均值算法抗噪声数据的能力很差,而层次聚类可直接使用噪声数据进行聚类分析。并且很直观的观察到数据的父簇与子簇,从而灵活地进行决策。

4.4.5 t-SNE聚类

t分布随机邻居嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)是一种可视化的无监督学习方法,以高概率用邻近的点对相似的对象进行建模,而用相距较远的点对不相似的对象进行建模。

4.4.6 DBSCAN聚类

带噪声的基于密度的空间聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)是一种基于密度的聚类算法。这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本,他们之间是紧密相连的,也就是说,在该类别任意样本周围不远处一定有同类别的样本存在。

4.4.7 方差分析

计算全局方差与簇内方差的差异,并使用全局方差做标准化。

5.1 探索性数据分析

探索性数据分析(Exploratory Data Analysis,EDA)数据集的探索性数据分析是针对当前数据集中的每一维度变量的探索性数据分析过程,是正式实施模型开发的第一步。建模人员需要通过该过程对当前建模的数据集进行细致地分析。数据集的挖掘思路通常来源于该过程。模型中的变量通常有两种类型,分别是连续型变量与离散型变量。连续型变量是指,变量为观测样本所得的实际数值,有序且数值之间的大小差异具有实际含义,并且没有经过分组处理。离散型变量是指质性变量,如字符或不具有数学意义的其余表现形式。

5.2 特征生成

5.2.1 特征聚合

第一种特征构造方法叫作特征聚合,即通过对每个样本的变量进行各种运算,将单个特征的多个时间节点取值进行聚合。特征聚合是传统评分卡建模的主要特征构造方法。本节将介绍实用效果较好的35种基于时间序列进行特征聚合的方法。

5.2.2 特征组合

特征组合(Feature combination)又叫特征交叉(Feature crossing),指不同特征之间基于常识、经验、数据挖掘技术进行分段组合实现特征构造,产生包含更多信息的新特征。

5.3 特征变换

将原始特征衍生后,我们获得了更高维度的数据。在实际建模中,为保证模型的稳定性以及模型中每个特征的取值样本数能满足统计要求,通常会对特征值进行分箱(Binning)处理。常见的分箱方法可分为卡方分箱、决策树分箱、等频分箱、聚类分箱等。通常使用双变量图(Bivariate graph)来评价分箱结果。注意,信贷风险分析中的双变量图(以下简称为Bivar图),纵轴固定为负样本占比。

5.3.1 卡方分箱

5.3.2 聚类分箱

5.3.4 箱的调整

卡方分箱可以将变量的Bivar图中负样本占比趋势调整为单调趋势,然而部分情况下,仍会有特殊值需要手动调整。

5.3.5 两种特殊的调整方法

U型变量和缺失值。

6.1 特征初步筛选

特征的初步筛选通常从3个角度进行:1)缺失率;2)信息量;3)特征之间的相关度。通常初步筛选需要重复多次,因为随着变量的精细化调整,其部分指标有可能增大至超过國值。如变量相关性可能随着分箱的个数减少而显著増大。由于特征变换过程涉及缺失值处理,通常初步筛选过程要先于特征变换过程,否则统计缺失率将失去意义。

6.1.1 缺失率

特征缺失率,即训练样本在当前特征上的缺失占比。由于缺失较多的特征在该维度的特征空间中没能携带充分的信息,通常需要对缺失率较高的特征进行清洗。

6.1.2 信息量

信息量(Information Value,IV)定义为特征WOE编码的加权求和。业内通常认为,当IV小于0.02时,该特征不具有有效信息;当IV在0.02至0.5之间时,该特征具有有效信息,IV越大,模型效果越好;然而当IV大于0.5时,该特征非常显著,因此应单独取出作为规则。也就是说,期望模型中尽可能使用区分度相对较弱的特征,将多个弱特征组合,得到评分卡模型作为决策依据之一。

6.1.3 相关性

6.2 逐步回归

逐步回归(Stepwise Regression)是一种线性回归模型自变量选择方法,其基本思想是,贪心地遍历所有变量最优组合,以保证最终模型的变量组合为最优。该过程涉及多次F检验。

6.2.1 F检验

F检验又称联合假设检验(Joint Hypotheses Test),它认为,在零假设(Null Hypothesis,H0)之下,统计值应该服从F分布。F检验通常用来分析多参数的统计模型,以判断该模型中的部分参数是否适合用来估计总体样本分布。

然后比较得到的F值与查表得到的F标准值。如果F< F 标准 F_{标准} F标准​,代表两个分布无显著差异;F≥ F 标准 F_{标准} F标准​,代表两个分布有显著差异。在逐步回归的特征筛选过程中,通过将F检验显著的变量逐渐引入模型,或将F检验不显著的变量逐渐剔出模型,使得最终模型的变量整体显著性较强。

6.2.2 常见逐步回归策略

·前向选择(Forward Selection):初始情况下,模型中只有一个F检验显著性最高的变量,之后尝试加入另一个F检验显著性最高的变量。上述过程不断迭代,直至没有变量满足放入模型的条件。

·后向消除(Backward Elimination):与前向选择相反。首先将所有变量同时放入模型,然后将其中F检验显著性最低的变量从模型中剔除。上述过程不断迭代,直至没有变量满足剔出模型的条件。

·双向消除(Bidirectional Elimination):将前向选择与后向消除同时进行。模型中每加入一个自变量,可能使得某个已放入模型的变量显著性减小。当其显著性小于阈值时,可将该变量从模型中剔除。双向消除即每增加一个新的显著变量的同时,检验整个模型中所有变量的显著性,将不显著变量剔除,从而得到最优的变量组合。双向消除集成了前向选择与后向消除两种策略的优点,在实践中通常有更好的效果,因此,本书推荐使用这种方法。

6.2.3 检验标准

用于评价模型拟合优良性的指标有两种:赤池信息准则(Akaike Information Criterion,AIC)和贝叶斯信息准则(Bayesian Information Criterion,BIC)。

AIC是衡量统计模型拟合优良性的一种标准,由日本统计学家赤池弘次在1974年提出,它建立在熵的概念上,提供了权衡估计模型复杂度和拟合数据优良性的标准。其中,k是模型参数个数,L是似然函数。从一组可供选择的模型中选择最佳模型时,通常选择AIC最小的模型。

A I C = 2 k - 2 l n ( L ) AIC=2k-2ln(L) AIC=2k2lnL

BIC与AIC相似,主要用于模型选择。训练模型时,增加参数数量,也就是增加模型复杂度,会增大似然函数,但是也会导致过拟合现象。针对该问题,AIC和BIC均引入了与模型参数个数相关的惩罚项,BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。其中,k为模型参数个数,n为样本数量,L为似然函数。kln(n)惩罚项在维数过大且训练样本数据相对较少的情况下,可以有效避免出现维度灾难现象。

B I C = k l n ( n )- 2 l n ( L ) BIC=kln(n)-2ln(L) BIC=klnn)-2lnL

6.3 稳定性

在实际业务中,建模人员对模型稳定性的重视程度甚至超过模型的区分能力。通常风控领域使用群体稳定性指标(Population Stability Index,PSI)衡量特征及模型的稳定性。其基本含义为:计算同一指标在两个不同数据集上的分布差异,作为当前指标的稳定性指标。

6.4 负样本分布图

智能风控读书笔记_第2张图片

7.1 偏差产生的原因

风险分析的本质是使用部分样本分布估计总体分布。在风险建模的过程中,普遍存在着一个问题——幸存者偏差(Survivorship Bias)。其含义为,使用局部样本代替总体样本时,局部样本无法充分表征总体样本的分布信息,从而得到错误的总体估计。

在风控架构体系中,多次涉及样本被拒绝或客户流失等问题。由于风险分析得到的结果认为部分样本的预估表现较差,因此该部分样本无法获取有效的贷后信息,即无法参与未来的模型训练。缺少该部分低分人群的信息,对全局样本表示模型的影响非常大。因为当模型经过多次迭代后,其重要特征可能被逐渐弱化,甚至呈现出与原模型完全相反的负样本分布趋势。因此需要使用相应手段进行处理。

拒绝推断(Reject Inference)是一种对拒绝用户进行推理归纳,从而得到该部分样本标签分布的方法。常见的拒绝推断方法分为三种:数据验证、标签分裂、数据推断。

7.2 数据验证

数据验证,又称为下探,即从拒绝样本中选取部分样本进行放款。以获得该部分样本的真实标签,从而带入评分卡模型进行监督学习。数据验证是最有效且实施起来非常简单的一种拒绝推断方法。通常为获取较为丰富的拒绝样本标签,可以将当前模型打分低于通过阈值的客群,按照预测分值排序后等频划分为10箱,然后从中分别抽取部分拒绝样本进行放款实验。

7.3 标签分裂

通常评分卡模型的标签定义方式较为统一,如历史最大逾期天数等。标签分裂(Label Split)方法期望将标签定义方法,拆分为多个和原始标签定义方法强相关的子方法。常见的标签分裂方法包括如下两类。

·同生表现(Cohort Performance):利用当前产品的拒绝原因、平台其他产品线的贷后表现,或其余机构的标注信息定义拒绝样本的伪标签。

·多规则交叉(Multiple Rule Cross):由于规则制定通常使用IV较高的变量,其对负样本的挑选精准度较高。

7.4 数据推断

·已知好坏标签(Know Good Bad,KGB)样本:准入模型允许通过的样本集,已知标签。由KGB样本训练的模型又叫KGB模型。

·未知标签(Inferred Good Bad,IGB)拒绝样本:准入模型拒绝的样本集,未知标签。由于IGB样本没有标签,通常不会用于训练模型。在部分方法中可能会生成伪标签,从而参与建模过程。

·全量(All Good Bad,AGB)样本:包含KGB和IGB两部分的全量样本集。由该部分数据训练得到的模型又称AGB模型。

7.4.1 硬截断法

一种常见的思路是,直接使用KGB模型在拒绝样本上做预测,并将低分样本(如分数最低的20%样本)认为是负样本,带入模型进行估计,其余拒绝样本全部视为灰色样本,不予考虑。这种推断方法就叫作硬截断法(Hard Cutoff)。硬截断法假设“逾期”与“放款”之间相互独立。

7.4.2 模糊展开法

模糊展开法(Fuzzy Augmentation),同样假设“逾期”与“放款”之间相互独立。模糊展开法将每条拒绝样本复制为不同类别、不同权重的两条。假设当前有一个拒绝样本,KGB模型预测其为负样本的概率为0.8,为正样本的概率为0.2,则分别生成两条新样本。第一个样本标签为负(‘bad_ind’=1),权重为0.8;第二个样本标签为正(‘bad_ind’=0),权重为0.2。将两条样本分别带入 AGB 模型进行训练。

7.4.3 重新加权法

重新加权法(Reweighting)。与前面的两种方法不同,重新加权法不使用拒绝样本进行学习,而仅利用其样本分布特点,调整原KGB数据集分布权重。

7.4.4 外推法

外推法(Extrapolation)根据KGB模型在拒绝样本上的预测结果,通过人工指定经验风险因子,获取不同分组上的负样本占比。然后按照正负样本的比例,为无标签拒绝样本随机赋值为0或1。

7.4.5 迭代再分类法

迭代再分类法(Iterative Reclassification)是一种通过多次迭代,保证模型结果有效且收敛的拒绝推断方法。其基本思想是,先使用硬截断法为拒绝样本的标签赋值。随后将具有“伪标签”的样本加入原KGB模型进行学习,得到部分标签失真的AGB模型。接着使用AGB模型获取拒绝样本的逾期概率。之后再次使用硬截断法,不断重复上述过程,直至某个指标收敛。迭代再分类法的思路是启发式的,可以使用任何指标作为判断模型是否收敛的依据。

8.1 模型校准的意义

模型校准的本质是:建模人员通过一系列变换,使得当模型预测样本属于类A的概率是x时,在当前样本集中认为该样本属于该类的置信度(confidence level)亦为x。即当模型预测样本属于某一类的概率为x时,样本集内等于该分数的样本,确实有占比为x的样本标签显示为该类。

可靠性图(Reliability diagram)是一种基于模型输出的概率分布进行绘制的曲线图,可以对模型的偏离程度进行评价。该图的横坐标为将模型输出的0~1之间负样本概率值,等距分为n箱,纵坐标为每一个n等分箱中的负样本占比。曲线越贴合图像的对角线,代表模型被校准得越好。

智能风控读书笔记_第3张图片

8.2.1 通用校准

为了让决策者更好地使用模型输出结果,并使每个客户更好地理解其信用分数的含义,通常都期望信用评分可以满足以上四条规则。对此,业内主要使用一种比率缩放的评分映射方法,对模型的输出结果进行校准。该比率缩放方法称作通用校准方法。

用如下例子来解释。首先期望一个用户的基础分为650分,当这个用户:

·非逾期的概率是逾期的概率的2倍时,加50分;

·非逾期的概率是逾期的概率的4倍时,加100分;

·非逾期的概率是逾期的概率的8倍时,加150分。

8.2.2 多模型校准

平台审批策略通常非常依赖外部数据。如果某天外部数据突然被切断,对业务的影响将非常大,需要立刻使用存有的数据开发新模型,以保持业务正常运转。因此在面对不稳定数据源的场景下,需要重新思考如何进行数据源与模型变量的配置。针对对外部数据有依赖同时又担心数据源不稳定的业务,部分平台使用一种基于模型组合的动态模型融合方法,防患于未然。

8.2.3 错误分配

由于在模型训练的过程中,存在采样等改变标签分布的优化操作,其直接导致的结果之一就是,在真实场景应用时,模型输出的概率值与真实概率有偏差。在完美的假设情况下,有偏采样是一种破坏样本分布的操作。然而在解决实际问题时,却对最终模型的优化有较大帮助。由样本分布变化导致的模型偏移叫作错误分配(Misassignment)。

8.2.4 权重还原

在本书第2.3.5节中提到,样本通常需要进行采样处理。由于采样破坏了样本分布与真实场景分布的一致性,最终模型的概率也会有偏差。如果期望得到真实的概率值,即使是在逻辑回归模型中,同样也需要进行校准。

8.3 决策与应用

评分模型的建立过程除数据选取外大体相同。在应用功能上可分为信用评分、风险评分、响应评分、分期转化率评分等。根据不同的评分,策略人员可执行差异化决策,如确定不同分数阈值来判断是否通过、是否拒绝、确定不同的年化利率、给予不同的额度、用户体验是否需要简化等。

8.3.1 最优评分切分

在不考虑利率和额度的情况下,可以只使用负样本占比作为决策的评分指标。较为常用的方法是使用KS值作为评价指标。寻找KS值最大的分数作为cut-off。由于该cut-off的KS值最大,当分数继续上升时拒绝部分的负样本占比将上升。因此,该方法可以保证cut-off以下的样本集中,负样本占比期望最大。

8.3.2 交换集分析

KS值最大的分数虽然可以保证拒绝样本中的负样本最大化,但可能导致申请通过率较低。此外,第3章给出了理论上模型开发所应具备的完整流程。事实上,新版模型开发完成后,并不一定会进行上线部署,通常需要模型的效果有显著提高,才会耗费人力进行部署。因此,需要评估新版模型与旧版模型之间的性能差异。如果相比旧模型,新模型的性能没有显著的提升,甚至还不如旧模型,那也就没有重新上线部署的必要了。

在新旧模型更替过程中,需要调整风控策略,使得新模型的价值最大化。这个分析过程称为交换集分析(Swap Set Analysis)。交换集分析的本质是,利用通过率与坏账率之间的关系来分析模型的好坏。同样,也可以根据通过率与坏账率寻找合理的cut-off值。

交换集分析首先需要分别为新旧两个模型设置cut-off,两个模型可以将开发样本细分为3个子客群,分别为:

·被旧模型拒绝但被新模型接受的样本集,记为Swap-in。

·被旧模型接受但被新模型拒绝的样本集,记为Swap-out。

·同时被新旧模型拒绝或接受的样本集,记为No-change。该部分样本审批状态没有差异,也不是分析的重点。

利用Swap-in和Swap-out两个样本集,可以从通过率和坏账率两个维度评估模型在业务中的实际表现。对于信贷业务来说,通过率与坏账率是两个需要综合考量的指标。不能盲目追求放款量,亦不能只追求逾期客户占比的最小化。由于各家平台的收益率不同,因此两个指标没有统一的比较公式。在实际使用中,有以下3种常见的处理方法。

·保持通过率一致,减少坏账率。对于迭代后的新模型,在其部署时,通常需要在保证通过率不发生明显变化的前提下,同时期望拒绝客群中的负样本占比明显上升。此时需要按照历史通过率不变设置cut-off,如历史通过率为80%,则需要找到开发样本集分数的20%分位点作为拒绝阈值。

·提高通过率,保持坏账率一致。由于平台所处的发展周期不同,业务的需求也有所不同。当平台处于高速发展时期,其关注点并不在于总收益,而是需要迅速扩增规模,此时新的模型分数的主要用途并不在于降低坏账率,而是在保持坏账率稳定的情况下,提高通过率。通常将开发样本按照分数升序排列并计算每个分数累计坏账率,选择坏账率与历史坏账率相同的分数作为阈值。

·提高通过率,同时减少坏账率。当模型调整后,其结果有较大提升时,可以同时满足通过率和坏账率两者的需求。此时需要绘制决策曲线,横轴为通过率,纵轴为坏账率。通过观察曲线走势,选择合理的cut-off,其形式如图8-6所示。
一致,减少坏账率。对于迭代后的新模型,在其部署时,通常需要在保证通过率不发生明显变化的前提下,同时期望拒绝客群中的负样本占比明显上升。此时需要按照历史通过率不变设置cut-off,如历史通过率为80%,则需要找到开发样本集分数的20%分位点作为拒绝阈值。

·提高通过率,保持坏账率一致。由于平台所处的发展周期不同,业务的需求也有所不同。当平台处于高速发展时期,其关注点并不在于总收益,而是需要迅速扩增规模,此时新的模型分数的主要用途并不在于降低坏账率,而是在保持坏账率稳定的情况下,提高通过率。通常将开发样本按照分数升序排列并计算每个分数累计坏账率,选择坏账率与历史坏账率相同的分数作为阈值。

·提高通过率,同时减少坏账率。当模型调整后,其结果有较大提升时,可以同时满足通过率和坏账率两者的需求。此时需要绘制决策曲线,横轴为通过率,纵轴为坏账率。通过观察曲线走势,选择合理的cut-off。

你可能感兴趣的:(人工智能)