在信贷风控领域,随着大数据、计算机集群技术、网络技术和人工智能的发展,越来越多的金融机构将传统的策略风控手段转向依赖机器学习模型等量化手段。信贷环节中的审批、预警、催收以及营销等诸多场景也适合机器学习模型的应用。机器学习模型的发展离不开数学、统计、概率、计算机理论等基础知识。本课程将从较为基础的统计和概率入手,展现如何从从基础知识入门进而掌握较为先进的机器学习模型,从而构建简单但实用的风控模型。 此外,编程能力也是风控模型搭建中必不可少的能力。本系列课程将实用功能强大、入门简单的Python语言。在Python中既有丰富的开源包可以使用,也可以定制化地开发有针对性的模块来构建风控模型。
在金融贷款机构中,风控部门是核心部门之一。风控体系的好坏直接决定机构盈利能力和存活能力。本课程将介绍数据分析技术如何应用在互联网金融行业风控部门涉及到的信贷违约预测和催收还款预测。课程中将使用贴近真实业务场景的数据,并且给出切实可行的解决方法。
在文中,我们将实用真实的业务数据介绍信贷机构在信用风控领域常用的三种风险预测模型,从而帮助学员了解贷前审核、贷中预警、逾期催收的风控量化途径。同时学员也能掌握目前评分卡模型最前沿的技术。
1.什么是信用违约风险?
信用风险又称违约风险,是指借款人、证券发行人或交易对方因种种原因,不愿或无力履行合同条件而构成违约,致使银行、投资者或交易对方遭受损失的可能性。银行存在的主要风险是信用风险,即交易对手不能完全履行合同的风险。这种风险不只出现在贷款中,也发生在担保、承兑和证券投资等表内、表外业务中。如果银行不能及时识别损失的资产,增加核销呆账的准备金,并在适当条件下停止利息收入确认,银行就会面临严重的风险问题。
信用违约风险(CreditDefaultRisk)是指在商业交易中由于交易一方的违约,使交易另一方得到的预期现金流量现值减少而遭受的风险。
交易对手未能履行约定契约中的义务而造成经济损失的风险,即受信人不能履行还本付息的责任而使授信人的逾期收益与实际收益发生偏离的可能性,它是金融风险的主要类型。
2.组成部分:
PD 违约概率(表现期)
LGD 违约条件下的损失率
EAD 违约风险下的敞口暴露
RWA 风险权重资产
EL 期望损失
违约概率(probability of default, PD),是指借款人在未来一定时期内发生违约的可能性。违约概率是实施内部评级法的商业银行需要准确估计的重要风险要素,无论商业银行是采用内部评级法初级法还是内部评级高级法,都必须按照监管要求估计违约概率。违约概率的估计包括两个层面:一是单一借款人的违约概率;二是某一信用等级所有借款人的违约概率。
违约损失率(LGD,loss given default),违约损失率是指债务人一旦违约将给债权人造成的损失数额,即损失的严重程度。违约损失率也是国际银行业监管体系中的一个重要参数。违约损失率LGD是指债务人一旦违约将给债权人造成的损失数额,即损失的严重程度。从贷款回收的角度看,LGD决定了贷款回收的程度,因为,LGD=1-回收率,回收率之定义为回收金额除以放款金额。此处的回收金额,定义为该帐户违约,宣告无法偿债后,因拍卖担保品,强制执行借款人存款或其他催收方式所得回之金额。因此,通常除非有担保品,回收比率大部份非常低。也就是说违约损失率之大小,会取决于担保品的特性。
构成一个完整风险概念的两个基本要素是损失的可能性和一旦损失发生后的损失规模,即损失的严重程度。因此,LGD是除违约概率PD以外反映信用风险水平的另外一个重要参数,两者结合在一起才能全面反映信用风险水平。显然,PD既定的情况下,LGD越高,信用风险越大。**预期损失率(Expected Loss, EL)**是反映信用风险的一个指标,它是LGD和PD的乘积。
其中**EAD(Exposure at Default)**是指违约发生时债权人对于违约债务的暴露头寸。在经济学中,EAD是违约风险敞口之意。英文全称是:Exposure At Default。就是可能发生违约风险的资金额度。
PD和LGD都是反映债权人面临债务人违约的信用风险的重要参数,因此,两者都受到债务人信用水平的影响,然而,从性质上看,两者又有重要的区别。总的来说,PD是一个交易主体相关变量,其大小主要由作为交易主体的债务人的信用水平决定;而LGD具有与特定交易相关联的特性,其大小不仅受到债务人信用能力的影响,更受到交易的特定设计和合同的具体条款,如抵押、担保等的影响。因此,对于同一债务人,不同的交易可能具有不同的LGD,如对于同一债务人的两笔贷款,如果一笔提供了抵押品,而另一笔没有,那么前者的LGD将可能小于后者的LGD。因此,对PD和LGD的分析应有不同的着眼点。
除了上述交易项目相关特性以外,西方在LGD方面的研究和实践表明LGD还具有以下一些特点:LGD概率分布呈现双峰分布的特征;LGD与PD呈正相关的关系;LGD与破产法等法律制度密切相关;LGD波动幅度大,影响因素多,且研究历史短,数据稀少,因而量化难度大。
在经济学中,EAD是违约风险敞口之意。英文全称是:Exposure At Default。就是可能发生违约风险的资金额度。
风险加权资产RWA(risk-weighted assets)是指对银行的资产加以分类,根据不同类别资产的风险性质确定不同的风险系数,以这种风险系数为权重求得的资产。银行业的总资产有很多资产是0风险权重的,有很多风险权重则很高。这个要看每个银行的资产负债结构的配置,一般来说风险权重高的收益也更高。具体的风险权重列表需要查询央行和银监会关于银行资本充足率管理办法。举例来说,国债就是0风险权重的,外国国债评级在AA-以下的则是100%,评级在AA-以上的国家的企业债务风险权重则为50%。
**预期损失(Expected Loss,EL)**是商业银行预期在特定时期内资产可能遭受的平均损失。预期损失是比较确定的,实际发生的损失一般围绕平均值波动。因此在管理上,可以把平均损失值看成是相对确定的,以准备金的形式计入商业银行经营成本,可通过定价转移在产品价格中得到补偿。现代商业银行将预期损失视为风险成本,作为总成本的一部分。
3.信用违约风险的控制手段
从最早的有抵押无规则→无抵押有规则→数据模型,形成了目前在风控领域的基本风控脉络;现今主要采用基于数据驱动建立的风控模型,主要就是目前应用最广泛最多的评分卡模型,评分卡模型主要由分为四种,即:
其中最重要的就是金融申请评分卡,目的是把风险控制在贷前的状态;也就是减少交易对手未能履行约定契约中的义务而造成经济损失的风险,里面由包括了个人违约、公司违约(包括债券违约)、主权违约(对外国家违约),这里仅仅只讲到个人违约;
4.个人违约
个贷中常用的违约定义
5.行业内的一些案例
趣店CEO罗敏:“凡是过期不还的,我们这里就是坏账,我们的坏账,一律不会催促他们来还钱。电话都不会给他们打。你不还钱,就算了,当作福利送你了”
这方面就反应了趣店对自己的贷前风控非常有把握,同时也说明在前期趣店的利率较高,另外一个方面,因为目前的消费贷场景上,一般贷款的金额较少,追贷成本高,必须要把风控争取控制在贷前。
陆金所CEO表示在2015年11月,行业的坏账率大概在15%-20%之间,2016年1月,已经下降到了13%-17%。
1.评分卡模型主要有以下这么几个概念:
主要的评分卡模型在互联网金融方面的表现形式是:申请评分卡、反欺诈评分卡、行为评分卡、催收评分卡。 其中申请评分卡、反欺诈评分卡使用在申请环节,行为评分卡使用在监控环节,催收评分卡使用在逾期管理环节。
2.申请评分卡
申请评分卡用在申请环节,以申请者在申请当日及过去的信息为基础,预测未来放款后的逾期或者违约的概率。
开发申请评分卡的目的有:
我们一般预测未来放款后的逾期,这个未来的时间段,在我工作经历当中,一般是一年左右,时间更长就是用行为评分卡,或许在银行等大型机构,因为收集的信息更全面,在评分方面的要求不一样,可能对未来的预测时间也不一样,或许时间会更长。
3.申请评分卡的特性
优秀的评分卡应该具备的特性:
稳定性:当总体逾期/违约概率不变,分数的分步也应该没有改变
预测能力:低分人群的违约率更高
和逾期概率等价:评分应该可以精准地反应违约/逾期概率,反之亦然
4.评分卡模型开发步骤:
5.评分卡开发的常用模型:
1.申请评分卡常用的特征即申请评分卡一般需要的字段
2.这里我提供一份数据,其中字段如下:
字段 | 名称 |
---|---|
member_id | ID |
loan_amnt | 申请额度 |
term | 产品期限 |
int_rate | 利率 |
emp_length | 工作期限 |
home_ownership | 是否有自有住宅 |
annual_inc | 年收入 |
verification_status | 收入核验状态 |
desc | 描述 |
purpose | 贷款目的 |
title | 贷款目的描述 |
zip_code | 联系地址邮政编码 |
addr_state | 联系地址所属州 |
delinq_2yrs | 申贷日期前2年逾期次数 |
inq_last_6mths | 申请日前6个月咨询次数 |
mths_since_last_delinq | 上次逾期距今月份数 |
mths_since_last_record | 上次登记公众记录距今的月份数 |
open_acc | 征信局中记录的信用产品数 |
pub_rec | 公众不良记录数 |
total_acc | 正在使用的信用产品数 |
pub_rec_bankruptcies | 公众破产记录数 |
earliest_cr_line | 第一次借贷时间 |
loan_status | 贷款状态—目标变量 |
数据来源:Lending Club公司
1.评分卡经常遇到的问题
在评分卡模型中,经常遇到的问题就是非平衡样本的问题。在一个样本里面,坏的样本很少或者好的样本很少,导致了数据的不平衡。
2.在处理数据不平衡样本中,一般有三种办法:
SMOTE算法原理:
版权声明:
笔者博客文章主要用来作为学习笔记使用,内容大部分来自于自互联网,并加以归档整理或修改,以方便学习查询使用,只有少许原创,如有侵权,请联系博主删除!