1、风控系统部分
1.Blaze
blaze是FICO公司产品,用于规则管理,是模型ABC卡开发的前身。信贷公司开始放贷时,数据量少,申请用户少,难以建立模型。因此前期一般会用到专家经验判断好坏客户,然后通过风控决策管理系统进行高效作业,其中blaze就是一款应用多年,效率较高风控决策管理系统。但blaze属于商业产品,一般多应用于大银行,捷信等大型消费金融公司,收费可高于100万RMB每年,如果需要更多定制业务,收费更高。
1.1 A card
释义:Application scorecard 申请评分卡,对授信阶段提交的资料赋值的规则。
举例:“进件”是传统银行的说法,指申请单。评分卡是对一系列用户信息的综合判断。随着可以收集到的用户信息变多,授信决策者不再满足于简单的if、else逻辑,而是希望对各个资料赋予权重和分值,根据用户最后综合得分判断风险,通过划定分数线调整风险容忍度,评分卡应运而生。评分卡是逻辑回归算法的一种衍生。
1.2 B card
释义:Behavior scorecard 行为评分卡,对贷后可以收集到的用户信息进行评分的规则。
举例:与 A 卡类似,B卡也是一套评分规则,在贷款发放后,通过收集用户拿到钱后的行为数据,推测用户是否会逾期,是否可以继续给该用户借款。例如用户在某银行贷款后,又去其他多家银行申请了贷款,那可以认为此人资金短缺,可能还不上钱,如果再申请银行贷款,就要慎重放款。B卡模型中,有很多存量管理的子模型,包括激活沉默客户模型,找出价值较高客户,增加贷款额度模型等等。
1.3 C card
释义:Collection Scorecard 催收评分卡,对已逾期用户未来出催能力做判断的评分规则。
举例:催收评分卡是行为评分卡的衍生应用,其作用是预判对逾期用户的催收力度。对于信誉较好的用户,不催收或轻量催收即可回款。对于有长时间逾期倾向的用户,需要从逾期开始就重点催收。逾期天数越多,催收难度越大。
催收一般分为多个坐席,M1,M2,M3等不同坐席员工经验和业务能力相差甚大。AI人工智能常用于前期自动化催收。
申请评分卡、行为评分卡和催收评分卡常合并称为“ABC卡”,应用在贷前、贷中和贷后管理。
。。。。。。。
释义:账龄分析。显示各期至观察点为止的延滞率,其特点为结算终点一致,把分散于各个月的放贷合并到一个观察时间点合并计算逾期比率。
释义:统计每个月新增放款在之后各月的逾期情况,同样也是账龄分析。与aging analysis不同,vintage以贷款的账龄为基础,观察贷后N个月的逾期比率。也可用于分析各时期的放贷后续质量,观察进件规则调整对债权质量的影响。举例:Deliquency Vintage 30+:表现月逾期30+剩余本金/对应账单生成月发放贷款金额。风控中英文术语手册(银行_消费金融信贷业务)_v4_术语手册
释义:C和M是描述逾期期数bucket的专有名词。M0为正常资产,Mx为逾期 x 期,Mx+为逾x期(含)以上。无逾期正常还款的bucket为M0,即C,M1即逾1期(1-29天) 。M2+即逾2期及以上(30+) 。M2和M4是两个重要的观察节点,一般认为M1为前期,M2-M3为中期,M4以上为后期,大于M6的转呆账。
释义:逾期率/延滞率。评价资产质量的指标,可分为Coincident和Lagged两种观察方式。
释义:即期指标。用于分析当期所有应收账款的质量,计算延滞率。计算方式是以当期各bucket延滞金额除以本期应收账款(AR)总额。Coincident是在当前观察点总览整体,所以容易受到当期应收账款的高低导致波动,这适合业务总量波动不大的情况下观察资产质量。举例:常看的一个指标Coincident DPD 30+
释义:递延指标。与coincident相同也是计算延滞率的一个指标,区别是lagged的分母为产生逾期金额的那一期的应收账款。Lagged观察的是放贷当期所产生的逾期比率,所以不受本期应收账款的起伏所影响。举例:Lagged DPD 30+$(%)= Lagged M2+Lagged M3+Lagged M4+Lagged M5+Lagged M6 月末资产余额M1(1-29天): 统计月份月末资产中满足 1≤当前逾期天数≤29 的订单剩余本金总和,当前逾期天数为订单当前最大逾期天数,不包含坏账订单。Lagged M1 =月末M1的贷款余额/上个月底的贷款余额(M0~M6) 风控中英文术语手册(银行_消费金融信贷业务)_v4_风控_02
例如FPD1,SPD7,TPD30…前面的字母,F:first,表示第一期逾期,同理 S,T,Q分别表示二 三 四, 后面会用数字表示。如5PD30。后面的数字, 指逾期天数,如果一个客户身上有FPD30的标记,那必然有FPD1 FPD7等小于30的标记。dpd(days past due)逾期天数,贷放型产品自缴款截止日(通常为次一关账日)后一天算起。4期中,任意一期逾期天数超过30天就算坏客户 需注意的一点,PD类指标通常互斥,也就是说一个人如果有了FPD标志就不会有SPD标志,SPD表示第一期正常还款但是第二期才出现逾期的客户。
释义:Days Past Due 逾期天数,自还款日次日起到实还日期间的天数。举例:DPD7+/30+,大于7天和30天的历史逾期。业内比较严格的逾期率计算公式为:在给定时间点,当前已经逾期90天以上的借款账户的未还剩余本金总额除以可能产生90+逾期的累计合同总额。其分子的概念是,只要已经产生90天以上逾期,那么未还合同剩余本金总额都视为有逾期可能,而分母则将一些借款账龄时间很短的,绝对不可能产生90+逾期的合同金额剔除在外(比如只在2天前借款,无论如何都不可能产生90天以上逾期)。
释义:First Payment Deliquency,首次还款逾期。用户授信通过后,首笔需要还款的账单,在最后还款日后7天内未还款且未办理延期的客户比例即为FPD 7,分子为观察周期里下单且已发生7日以上逾期的用户数,分母为当期所有首笔下单且满足还款日后7天,在观察周期里的用户数。常用的FPD指标还有FPD 30。举例:假设用户在10.1日授信通过,在10.5日通过分期借款产生了首笔分3期的借款,且设置每月8日为还款日。则11.08是第一笔账单的还款日,出账日后,还款日结束前还款则不算逾期。如11.16仍未还款,则算入10.1-10.30周期的 风控中英文术语手册(银行_消费金融信贷业务)_v4_银行_03 FPD7的分子内。通常逾期几天的用户可能是忘了还款或一时手头紧张,但FPD 7 指标可以用户来评价授信人群的信用风险,对未来资产的健康度进行预估。与FPD 7 类似,FPD 30也是对用户首笔待还账单逾期情况进行观察的指标。对于逾期30天内的用户,可以通过加大催收力度挽回一些损失,对于逾期30天以上的用户,催收回款的几率就大幅下降了,可能进行委外催收。如果一段时间内的用户FPD 7较高,且较少催收回款大多落入了FPD 30 内,则证明这批用户群的non-starter比例高,借款时压根就没想还,反之则说明用户群的信用风险更严重。
cpd用于催收模型,是催收指标,还款表现第四个月月末时点逾期是否超过30天,不包括历史
四个观察期(月)内,逾期是否超过30天,包括历史
放款后的月份举例:MOB0,放款日至当月月底 MOB1,放款后第二个完整月份 MOB2,放款后第三个完整月份 mob3-3个月为短观察期,mob6-6个月为长观察期
释义:迁徙率。观察前期逾期金额经过催收后,仍未缴款而继续落入下一期的几率。举例:M0-M1=M月月末资产余额M1 / 上月末M0的在贷余额 8月M0-M1 :8月进入M1的贷款余额 / 8月月初即7月月末M0的在贷余额 补充信息:宏观经济中 短期风险可以使用FDP,SPD,TPD进行衡量;中期风险可以使用30+@MOB4;长期风险使用90+@MOB6等 To measure the short-term risk, FPD,SPD,TPD could be used; To measure the middle-term risk, 30+@MOB4 could be used; To measure the long-term risk, 90+@MOB6 could be used; 不同产品应用不同指标 Fpd30(现金贷产品) maxdpd30_mob4 (存量客户) Cpd30mob4(催收客户) 汽车贷坏客户定义(仅做参考) 风控中英文术语手册(银行_消费金融信贷业务)_v4_银行_04 说明:由于场景细分,不同场景差异化较大,以上指标说明仅做参考。
3.1 Benchmark
释义:基准。每个版本的新模型都要与一个线上的基准模型或规则集做效果比对。
3.2 IV
释义:information value 信息值,也称VOI,value of information,取值区间(0,1)。该值用来表示某个变量的预测能力,越大越好。金融风控筛选变量阈值为0.02。如果变量的iv低于0.02,那么变量就会被踢除。我作为模型专家提醒大家,iv值不能死记硬背,需要根据自己场景数据分布特点来定制阈值。不同场景变量iv值分布差异可能较大,例如放贷,车贷和现金贷。
3.3 K-S value
释义:K-S指klmogrov-smirnov,这是一个区隔力指标。所谓区隔力,是指模型对于好坏客户的区分能力。K-S值从0-1,越大越好,越小越差。真实场景中风控领域的模型ks能超过0.4的很少。
3.4 PSI
释义:population stability index,稳定度指标,越低越稳定。用于比较当前客群与模型开发样本客群差异程度,评价模型的效果是否符合预期。PSI越接近0,模型稳定性越好。当PSI小于0.1时表示模型比较稳定,当psi在0.1和0.25之间时模型稳定性出现波动,需要检查模型,如果必要,需要重新开发模型。
3.6 Logloss
释义:对数损失函数
当预测概率接近1时,对数损失缓慢下降。但随着预测概率的降低,对数损失迅速增加。对数损失值越大时,模型精确度越差,反之亦然。
3.7 Training Sample
释义:建模样本,用来训练模型的一组有表现的用户数据。配合该样本还有off-time sample(验证样本),两个样本都取同样的用户维度,通常要使用建模样本训练出的模型在验证样本上进行验证。
3.8 WOE
释义:weight of ecidence,证据权重,取值区间(-1,1)。违约件占比高于正常件,WOE为负数。绝对值越高,表明该组因子区分好坏客户的能力越强。评分卡模型的数据需要把原始数据转换为woe数据,从而减少变量的方差,使其平滑。IV值也是由woe值转换而来。由于woe在评估变量时有一定缺陷,因此一般用iv值评估变量重要性。
3.9 Bad Capture Rate
释义:坏用户捕获率。这是评价模型效果的一个指标,比率越高越好。
举例:Top 10% Bad Capture Rate是指模型评估出的最坏用户中的前10%用户,在样本中为坏用户的比率。
3.10 Population
释义:All Population,全体样本用户,包含建模样本与验证样本。
3.11 Variable
释义:变量名。每个模型都依赖许多的基础变量和衍生变量作为入参。变量的命名需要符合规范,易于理解和扩充。建模前变量是需要筛选的。大数据模型中,百分之90%以上变量是噪音变量。真正有用变量是其中极少部分。
3.12 CORR
释义:相关系数。Corr的绝对值越接近1,则线性相关程度越高,越接近0,则相关程度越低。相关系数计算要看数据分布,如果数据呈现正太分布,用皮尔森方法准确率较高;反之用斯皮尔曼方法更合适。
3.13 混淆矩阵confusion matrix
sensitivity:真阳性条件下,测试也是阳性
specificity:真阴性条件下,测试也是阴性
FALSE positive:真阴性条件下,测试却是阳性
FALSE negative:真阳性条件下,测试却是阴性
3.14 模型算法
逻辑回归(logistic regression)
logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。如果L是logistic函数,就是logistic回归,如果L是多项式函数就是多项式回归。
logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。
评分卡模型(scorecard model)
评分卡模型是逻辑回归算法的一个衍生算法。应用woe分箱和分数拉伸技术,把逻辑回归概率分转换为标准分。标准分类似FICO分数或芝麻信用分数,范围从300分-900分。下图为评分卡计分模式
评分卡相关教程:https://edu.csdn.net/course/detail/30611
支持向量机(Support Vector Machine, SVM)
支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。SVM被提出于1964年,在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法,在人像识别、文本分类等模式识别(pattern recognition)问题中有得到应用。支持向量机算法在小样本数据效果较好,训练大数据时耗时较长。
逻辑性的思维是指根据逻辑规则进行推理的过程;它先将信息化成概念,并用符号表示,然后,根据符号运算按串行模式进行逻辑推理;这一过程可以写成串行的指令,让计算机执行。然而,直观性的思维是将分布式存储的信息综合起来,结果是忽然间产生的想法或解决问题的办法。这种思维方式的根本之点在于以下两点:1.信息是通过神经元上的兴奋模式分布存储在网络上;2.信息处理是通过神经元之间同时相互作用的动态过程来完成的。
注意:计算机神经网络和人脑生物神经网络运作原理是不同的。
有点:处理大数据高效,可处理复杂和多维数据,灵活快速
缺点:数据需要预处理
XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。它在 Gradient Boosting 框架下实现机器学习算法。XGBoost提供并行树提升(也称为GBDT,GBM),可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop,SGE,MPI)上运行,并且可以解决数十亿个示例之外的问题。xgboost是集成树算法,由陈天奇发明,该算法在kaggle竞赛多次夺冠
lightgbm
Light Gradient Boosted Machine,简称LightGBM,是一个开源库,提供了梯度提升算法的高效实现,微软公司开发算法,综合性能优于xgboost。
LightGBM 通过添加一种自动特征选择以及专注于具有更大梯度的提升示例来扩展梯度提升算法。这可以显着加快训练速度并提高预测性能。
与其他 boosting 相关框架相比,它具有以下优势——
在不影响效率的情况下更快地训练速度。
内存使用率也很低。
它提供了更好的准确性。
它支持并行和GPU两种学习方式。
它具有处理大规模数据的能力。
catboost
俄罗斯搜索巨头Yandex宣布,将向开源社区提交一款梯度提升机器学习库CatBoost。它能够在数据疏的情况下“教”机器学习。特别是在没有像视频、文本、图像这类感官型数据的时候,CatBoost也能根据事务型数据或历史数据进行操作。
catboost特点:
少量或无需调参,默认参数效果非常好
支持分类变量
支持GPU
catboost相关教程:https://edu.csdn.net/course/detail/30742
4.1 APR
释义:Annual percentage rate,年度百分率,一年一次复利计息的利率。nominal APR名义利率,effective APR实际利率。
4.2 AR
释义:accounts receivable,当期应收账款。
4.3 Application fraud
释义:伪冒申请
4.4 Transaction fraud
释义:欺诈交易
4.5 Balance Transfer
释义:余额代偿,即信用卡还款业务。
4.6 Collection
释义: 催收。根据用户入催时间由短到长,分为Early collection(早期催收)、Front end(前段催收)、Middle range(中段催收)、Hot core(后段催收)Recovery(呆账后催收/坏账收入)这几个阶段,对应不同的催收手段和频率。
4.7 DBR
释义:debit burden ratio,负债比。通常债务人的在各渠道的总体无担保负债不宜超过其月均收入的22倍。
4.8 Installment
释义:分期付款
4.9 IIP
释义: 计提的坏账准备
4.10 PIP
释义:资产减值损失
4.11 NCL
释义:net credit loss,净损失率。当期转呆账金额减去当期呆账回收即为净损失金额。
4.12 Loan Amount
释义:在贷总额
4.13 MOB
释义:month on book 账龄
举例:MOB0,放款日至当月月底。MOB1,放款后第二个完整月份
4.14 Non-starter
释义:恶意逾期客户
4.15 Payday Loan
释义:发薪日贷款。无抵押的信用贷款,放款速度快,额度低,期限短但利率高。额度低和高利率是该模式的必要条件。
4.16 Revolving
释义:循环信用。提钱乐信用钱包给用户的就是循环额度,相对应的还有医美、教育类的专项额度。
4.17 WO
释义:Write-off ,转呆账,通常逾期6期以上转呆账。
4.18 AR
AR授信通过率=SUM(贷款申请通过账户)/SUM(申请账户)
4.19 DR
DR违约率=SUM(发生违约账户)/SUM(使用授信账户)
4.20 EAD
EAD授信敞口=SUM(C0+M1+M2+…+M6+)
4.21授信转化率
授信转化率=SUM(使用授信账户)/SUM(申请账户)
4.22延滞率/递延率(flow through%)
计算可分为coincidental及lagged两种方式,除了各bucket延滞率之外,也会观察特定bucket以上的延滞率。如M2+lagged%及M4+lagged%等指标,以M2+lagged%为例,分母为两个月前应收账款,分子为本月M2(含)以上尚未转呆账的逾期金额。在消费金融风险管理上,M2及M4是两个重要的观测点,原因是客户可能因为太忙或者忘记造成的账款逾期,但是经过M1催收后依旧落入M2以上,可确认为无力缴款或蓄意拖欠。
4.23****不良率(bad%)
bad的应用除了一般的风险分析外,信用评分模型的建置也需要实现确定bad定义。
一般bad的定义除了逾期户、高风险账户等,当前以逾期户为主。
4.24****转呆账率(write-off%)
简写为wo%,当月转呆账金额/逾期开始月的应收账款。经过年化之后,月转呆账率转换为年损失率。
4.2****5净损失率(NCL)
其定义为:当期转呆账金额-当期呆账回收,亦即为净损概念。就整体风险管理绩效观点来看,呆账后回收亦为以重要一环,所以NCL%与WO%常常一并显示。
4.26拨贷率
又称拨贷比,是指拨备占总贷款的比例,拨贷率越高,说明该银行的防御坏帐风险能力越强。计算公式为:拨备余额/贷款总额=拨备覆盖率*不良贷款率。
4.27拨备覆盖率
也称拨备充足率,实际上是银行贷款可能发生的呆、坏帐准备金的使用比例,拨备覆盖率是实际计提贷款损失准备对不良贷款的比率,该比率最佳为100%。计算公式为:贷款损失准备金/不良贷款余额。
4.28不良贷款率
指金融机构不良贷款占总额贷款余额的比重。不良贷款指在预估隐含贷款质量时,把贷款按风险基础分为正常、关注、次级、可疑和损失5类,其中后3类合称为不良贷款。计算公式:不良贷款率=(次级类贷款+可疑类贷款+损失类贷款)/各项贷款*100%=贷款拨备率/拨备覆盖率*100%。贷款拨备率和不良贷款率、拨备覆盖率是商业银行业资产质量的三个基本指标。
4.29负债比(DBR)
负债比(debit burden ratio,DBR)是银行关注的主要指标衡。量借款人还款压力的常用指标,总无担保债务归户后的总余额(信用卡、现金卡、信用贷款)/平均月收入。
4.30 恶意延滞率(non-starter%)
原始定义为“贷后从未缴款客户”,主要目的为找出恶性欺诈的案件。
4.31命中率(hit%)
用于信用卡的中途授信及早期预警报表,所谓命中率意指控管后一定期间内客户发生延滞的几率。命中率过低可能表示浮滥或风险判断方向有误。
4.32 可用余额(OTB)
常与命中率指标一同出现,计算方式为先找出证实控管命中的客户,再会整这些客户遭控管时的信用卡可用余额,此数字可视为银行因控管而减少的损失。
4.33呆账回收率
本期呆账回收率=本期呆账回收/本期转呆账金额
本期总呆账回收率=本期呆账回收/前期呆账总余额
本年呆账回收率=本年度呆账总回收金额/本年度平均呆账余额
近12期呆账回收率=近12期呆账回收总金额/近12期平均呆账余额
转呆账后12期回收率=转呆账后12期总回收金额/转呆账后12期平均呆账
余额
5.数据字典
client_no:客户账户
apply_time:申请时间
gender:性别
age:年龄
income_range:收入范围
education:教育程度;
carreer:工作;
credit_score:信用分数;
credit_score_range:信用分数范围;
if_approved:是否通过;
prob_df:可能违约概率;
if_due:是否逾期;
used_time:贷款使用次数;
credit_approved:授信通过金额
5.金融风控建模实战经典教****学案例
5.1 德国银行信用数据集(German credit)
5.2 kaggle模型竞赛give me some credit数据集
5.3江苏城投企业信用评级
5.1-5.3相关教程:https://edu.csdn.net/course/detail/30611
5.4 美国金融科技公司lendingclub信贷数据集
5.5 消费者人群画像—信用智能评分
举办单位福建省数字福建建设领导小组办公室 & 福建省工业和信息化厅 & 福州市人民政府 & 中国电子信息产业发展研究院 & 数字中国研究院 & 中国互联网投资基金
5.4-5.5相关教程:https://edu.csdn.net/course/detail/30742
6.1tradingeconomics****
官网https://tradingeconomics.com/,包含世界各国数百个经济指标,包括GDP,CPI,PPI,负债率,大宗商品价格指数等等。
6.2 FRED economic data
官网https://fred.stlouisfed.org/,金融数据查询
6.3 日本银行
https://www.boj.or.jp/
6.4 wind数据库
官网:https://www.wind.com.cn/Default.html,中金公司金融行业数据库
6.5 纸黄金
黄金价格和交易量查询,有具体数据下载http://www.zhijinwang.com/etf/
6.6股票/债券市场舆情分析和预警相关网站
万得(https://www.wind.com.cn/)
东方财富网(https://www.eastmoney.com/)
和讯数据(http://data.hexun.com/)
彭博(https://www.bloomberg.net/)
6.7反洗钱调查
FATFhttp://www.fatf-gafi.org/
反洗钱金融行动特别工作组 。西方七国为专门研究洗钱的危害、预防洗钱并协调反洗钱国际行动而于1989年在巴黎成立的政府间国际组织,是目前世界上最具影响力的国际反洗钱和反恐融资领域最具权威性的国际组织之一。目前包括36个成员管辖区和2个区域组织,代表全球各地的大多数主要金融中心。其制定的反洗钱四十项建议和反恐融资九项特别建议(简称 FATF 40+9项建议),是世界上反洗钱和反恐融资的最权威文件
6.8企业理财公告信息智能提取,助力银行客户经理营销
巨潮资讯网(http://www.cninfo.com.cn/new/index)
银行家年鉴(https://accuity.com/)
道琼斯(https://www.dowjones.com/)
版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。