关于数据型信贷风控的知识储备

本文简要给些做信贷风控模型的思路,当然最理想的个人风控模型:央行征信报告+市场响应模型+申请评分模型+行为模型+催收评分模型+收益模型➕反欺诈模型的组合体【当然设计风控模型一定要匹配相应的金融产品和场景,划分好目标受众,否则都是在扯淡】。而对于企业的风控模型,从业务模式上只要是能以供应链金融为场景依托,能够对核心企业有相应的穿透型数据的支撑,风控建模也会水到渠成。说到供应链要注重:从供应企业-研发企业-生产制造企业-经销企业-终端客户的整体链条,考虑业务流、资金流、物流、增值流的全部环节才能做好供应链金融的产业核心风控。
本文讨论的风控模型的建立,主要针对的还是信用类融资申请的方向,对于以有担保方、质(抵)押品、信用保障保险或其他实物或股票等抵押作为第二还款来源的模式不在范围内。
【另外不要小看贷款目的用途这一项,针对不同人群,不同企业,这是重要的风险识别标准之一,虽然没有明确的量化指标,但是让客户产生贷款意愿的真实目的是影响还款意愿的重要成分。笔者曾经对3000名实际贷款人的数据进行过跟踪测试,其中用作真实消费用途的用户的实际违约率近2.25%,而用来偿还信用卡的用户的实际违约率竟然高达9.05%】


实际分析过程中,考量因素(以电商为核心的中小企业为例)
贷前:【信用品质】营销指引、准入规则、渠道控制、外部数据检查、申请资格审查、平台交易数据;
贷中:【信用品质】身份核实、婚姻状况、逻辑检查、评分卡及策略、征信、黑名单反欺诈、过往贷款历史记录
贷后:【信用品质】身份变化/司法刑事责任/信用品质恶化/企业主及主要股东声誉/个人风险信用预警/客户交易信用水平/欺诈交易/平台惩罚信息

贷前:【还款能力】收入状况、货物周转率、盈利状况、行业标准对比
贷中:【还款能力】平台收入合适、平台交易历史比对、最低收入、贷款期限金额利率
贷后:【还款能力】店铺经营下降情况、交易量下降情况、客户履约变化程度、逾期状况、

贷前:【押品】经营时间准入、客户违约成本核算、抵押品管理及准入
贷中:【押品】最大/小抵押品评估价值
贷后:【押品】店铺所有权/经营权变更情况、与店铺相关的重大事件、抵押品变更/清偿障碍

贷前:【资产财务状况】资产情况调查、负责情况调查、杠杆率、当前居住情况、当前职业及稳定性、收入情况
贷中:【资产财务状况】资产负债表/利率、现金流量表、业务或主要股东报告期存借款、线上线下交易流水
贷后:【资产财务状况】店铺交易变动、线上交易异动(防刷单)

贷前:【经营状况】具体贷款用途、企业偿债能力、贷款背调、设备运转率或开工率、核心技术水平、前置审批条件
贷中:【经营状况】成品仓库的出入库、供应商/销售商情况、预计资金来源及使用情况、项目建设进度及生产运营计划
贷后:【经营状况】回访异常跟踪、管理层关键技术人员变化、关键的限制性条款变化、行业变化及政策性影响


当然在建模前,必要做的就是数据的整理及清洗(在实际我们进入到银行的项目中,发现数据处理占了整体建模的40%的时间,分析实际的占比大概在10%,试算及模型占了40%),同时针对不同的业务模式及资产特性,要完成必要的分析,主要的分析方法:统计学(均值、占比、方差、分位数),基于统计假设的校验、聚类算法和判别分析、回归分析、模拟分析和预测分析,这些方法看似理论但是在发现数据关系及做入场的前期准备过程非常之重要的方法。比如在针对某款企业借款过程中对企业市场推广及营销费用使用情况与企业自身的经营状况的匹配度的判别,在现实生活中,很少能找到一个纯粹正态分布的场景,这就需要我们的风控分析人员借助F检验、T检验去辨别差异的指标,再利用均值、方差、偏度、峰度来综合考虑,切记即便选择的维度是线性输入的正态分布,最终分析结果不一定就遵循正太分布。这时候各种分类方法就派上了用场,因为除了数据源质量及来源这个主要外部因素外,建模过程中,分类方法与数据源交叉的状况、变量数量、残差被认为是对模型解释起到决定性的主要因素。在我们的实际工作中(主要针对互联网为依托的信用贷款场景及以电商为依托的小微或个体工商户借款),最终我们的违约率预测模型中的变量在18个左右,太多或太少都有可能产生过拟合。虽然可以用ROC和KS值来帮助监测分析过程中的模型使用情况,但是实际上差别比我们想象中的要小(比如针对信贷业务同样的逻辑过程,使用LR,DT,SVM,朴素贝叶斯四种方法)。另外,不是说经验主义都不好,在模型试算时或前期分析的过程中,相信一些有经验的信贷老兵的意见,能够减少很多计算资源的消耗,切莫大量尝试不同的算法对同样的数据集的反复尝试,笔者曾经浪费大量时间在算法及统计学分析方法上,很多决策(在变量筛选时,在特征工程过程中)是要符合社会发展和人性的一般规律的。(下面是个反欺诈建模过程的例子)


关于数据型信贷风控的知识储备_第1张图片
image.png

整体的过程流程如下:


关于数据型信贷风控的知识储备_第2张图片
image.png

到底信用风控过程中得有多少模型才算够,比如:反欺诈、风险定价、信用评分、增信、行为评分、风险预警、账龄滚动、催收、失联模型等构成,有这些基本就够了,如果再细粒度去进行分那么每一个都可以拆成决策分析评分和模型评分两个部分。实操过程一定让金融产品的同事参与建模的过程,哪怕只是知晓,因为哪怕是产品中还款方式的变化对模型的结果影响都是很大的。

最后简要展示一下我们的系统架构


关于数据型信贷风控的知识储备_第3张图片
image.png

这张图尽量给的模糊点,但是基本可以看出一个真实的信贷风控系统中,建模也只是其中的一个部分,整体的工作流程必须可配置且易输出,比如打包成PMML文件给金融机构内部的平台进行结合等,工作流的过程中,保证决策流程的可分解,有些可以全自动化完成,有些可以自动➕人工审核完成。

你可能感兴趣的:(关于数据型信贷风控的知识储备)