如何“谨慎”使用“数据驱动”的风控模型

人工智能时代来临,今年“数据驱动”在整个信贷生态圈热度陡增,无论是金融机构、助贷机构、征信机构、大数据厂商等,无不在各大论坛、峰会、沙龙、融资中宣传各自“数据驱动”的理念。而银监会的121号文则给大大小小的机构泼了一盆冷水,“谨慎”使用“数据驱动”的风控模型,字字珠玑。笔者认为,监管层的意图无需过度解读,但无疑监管层已深刻洞察行业鱼龙混杂,充斥着以“数据驱动”为名、实以高利率覆盖高坏账的玩家。笔者也在与各大信贷机构的风控从业人员、风控解决方案提供商的交流过程中,发现对“数据驱动”理念一知半解的大有人在,更别谈“谨慎”使用了。笔者总结认为至少存在以下误区:

Ø  对接了外部征信数据就认为是“数据驱动”或者是“大数据风控”

Ø  过度依赖大厂或权威资源,例如芝麻分、人行征信等等,缺乏自主风控能力

Ø  算法至上,认为风控模型解决一切,KS值多高、坏账率控制的多低,云云

人工智能的发展离不开数据,作为未来消费金融行业的重要着力点,如何正确搭建“数据驱动”的风控模型,并“谨慎”使用呢?

首先谈理念,这里需要将讨论的范围从狭义的风控模型扩展到风控体系,限于篇幅,仅介绍小额消费信贷的风控审核场景,应对欺诈风险及信用风险,不包括操作风险、流动性风险及系统性风险。大额度的消费信贷或小微企业融资,以目前的征信数据条件人工参与风控是必不可少的,此处不再赘述。数据驱动(风控)的关键理念包括:

ü  理解你的客户,不同的客户群体、消费场景、产品设计所面临的风险点是不同的,没有一套风控体系(风控模型)可以包打天下;

ü  数据为先,有用的数据、高质量的数据是成功的关键,如同没有上好的食材,给个米其林三星大厨也没用;

ü  风控体系搭建非一日之功,数据驱动也非一针见效的灵丹妙药,需要不断的迭代、优化,小步快跑,早期建议先进行小范围、短周期试验,除非公司不在乎钱;

ü  风控的目的不是杜绝坏账,而是基于盈利的预期,平衡风险与收益,取得利润最大化;

ü  紧盯你的数据表现,切勿盲目乐观,新的风险往往从未知之处悄然而至,如果你的风控体系能越快识别、应对、抵御这些风险,遭受的损失就会越少。

铺垫了这么多,终于可以切入主题了。谨慎使用“数据驱动”的风控体系,需要“数据+ 决策 + 监控”的动态闭环。动态,意味着整个体系需要不断的演进,通过持续的A/B测试,不断发现新的规律、新的变量,使风控体系越来越健壮。

数据篇

风控数据包括了基础数据与衍生数据,基础数据包括产品采集的用户基本信息、设备指纹、消费场景相关的交易信息,以及外部征信数据;衍生数据是按照风控决策的需要,对基础数据加工后的变量。

如何管好数据,用好数据,保证数据质量与高可用性,或者保证数据的准确性不会影响风控的决策,是项极其复杂的系统性工程。数据的重要性,如何强调都不为过。

首先是理解数据,外部征信数据很多,内部数据也很多,衍生变量可以更多,但数据并不是越多越好,过多的无关数据会干扰决策(在决策篇中会提到)。举个栗子,设备指纹数据与反欺诈高度相关,而多头借贷、失信被执行人等数据则与信用风险更相关,性别、年龄、地域、学历等则是信用风险的相对弱相关数据,通常组合在一起作为评分卡使用。数据的适用性,除了专家经验外,也可以通过历史数据验证的方式来核实。

其次是动态数据质量管理,需要管理者付出大量精力保证数据的完整性、规范性、一致性、准确性、唯一性。举个栗子,运营商通话详单数据中关于“漫游”,各地运营商各有“漫游”、“国内漫游”、“省内漫游”、 “异地通话”等不同的定义,甚至还包括空值或异常数据的情况。这就需要设定一个统一的口径,制定数据转换规则,并通过程序自动化实现。数据质量管理是个持续完善的过程,历史遗留问题、引入新的外部征信数据、或原有的外部征信数据升级改版,都需要花费时间去解决。管理者应把握好“二八法则”,优先解决覆盖面广、重要性高、重复出现的问题。

最后是监控与保障机制。如何监控异常数据的出现,出现了怎么处理?如何监控数据采集、清洗程序有没有正常运行?外部征信数据源出现质量波动或突然断了,能不能自动切换主备线或采取其他的备用机制?当出现任何异常时,如何保障风控决策不出现问题,持续服务?一句话,程序自动化。

决策篇

风控决策的管理并不是简单的规则引擎或评分卡模型,还应包括模拟验证、冠军/挑战者(A/B测试)、版本管理等举措,甚至纳入人工审核环节进行全面、体系的管理。

狭义上,风控决策就是一组规则的集合,各个子决策以流程的方式组合而成,子决策包括一系列决策步骤,决策步骤内嵌规则集(可以将评分卡也看作是一套规则集)。每一个产品场景都应独立对应一套风控决策,某些决策作为通用步骤,可以被不同的产品场景共用或继承。例如,失信被执行人命中、存在严重逾期或银行卡四要素错误作为强规则,不仅适用于电商分期产品,也适用于信用卡代偿产品。

决策如何合理编排、高效管理,不妨参考以下原则:

ü  强规则命中直接拒绝,不必执行后续规则(强规则指Catch Rate极高的规则,如存在严重逾期历史、手机使用少于3个月等欺诈嫌疑极高的规则;或者是不符合借款条件,如不满18岁;强规则早期大部分来源于专家规则,后续随着数据的积累也能总结出新规则);

ü  无成本/低成本规则优先于高成本规则执行,如自有黑名单规则优先于外部调用的黑名单规则;

ü  风控决策能够独立于代码版本,实现热发布,决策版本可回溯;

ü  发布之前,利用历史数据模拟,分析该决策组合的通过率、捕获率、潜在ROI,是否优于原来的决策组合;

ü  同样,历史数据模拟也可以用来验证外部征信数据或人工审批的有效性,是否使用,放在哪一步决策使用,如何互相替代。

           再来谈谈冠军/挑战者模式(A/B测试)。尽管历史数据的模拟表现很优异,并不代表新的决策可以经住实战的考验,基于“谨慎”的原则,新决策最好按较低的比例与老决策同步运行。运行一段时间后,如新决策的表现优于老决策,可以逐步将新决策的线上运行比例调高,直至完全替代老决策。为了提高效率,多个新决策可以同时执行冠军/挑战者。

最后稍微谈一下评分卡模型。评分卡模型应该是由相对弱相关数据组成,具备高区分度的决策组合。由于评分卡高度依赖客群与产品特征、历史数据表现,不建议在没有历史数据积累的情况下盲目使用评分卡,除非有幸得到了基于相同客群、场景的评分卡,才建议冷启动。

评分卡模型的核心思路在于分类。拍脑袋也能分类、使用各类数据挖掘或机器学习的算法也能分类,分类的效果如何评判?一是看评分卡模型各个分数段的表现是否符合正态分布,预期坏账率、通过率能否达到盈利目标;二是通过KS曲线、ROC曲线等方法评价模型。要达到较好的效果,一是特征变量的选择,尽量保证变量的独立性与多样性,避免过拟合,例如近3月通话时长与近1月通话时长同时放进模型就不如换成近1月通话时长与连续6个月通话时长的变异系数;二是样本的选择,需要关注是否随机覆盖了尽可能的用户特征,训练集与测试集的比例是否合适,换另一批样本数据会否对模型结果产生较大影响,等等。

监控篇

做好监控是“谨慎”原则至关重要的举措,需覆盖点、线、面。宏观上,能做到洞察业务趋势,预测整体盈利能力,区分不同风控决策的ROI;微观上,可以发现业务异常、潜在风险或漏洞,总结新的规律。最终目的是为了驱使公司的风控能力不断强化,帮助管理层做出明智、及时的战略决策。这里简单介绍一些监控的基本思路:

趋势分析:关注业务量、逾期率(1日、7日、30日、90日等)、通过率、毛利率等指标的短期与长期趋势,掌控公司潜在盈利能力,评估风控决策的效能,洞悉潜在风险。

漏斗分析:风控审批的各个组合,每个步骤、甚至每个规则都应该放进漏斗进行分析、监控,观察每个决策、步骤、规则的通过率的波动性,以及各决策之间的比较,洞悉可能的问题。

异常监控:这里的异常监控包括业务异常点与技术异常点。例如,每小时的进件量是否出现巨大波峰或异常波谷,支付成功率是否正常,等等。当发现异常的时候,需要有能力去排查可能存在的团伙欺诈、系统异常等问题。

最后总结一下,做到“谨慎”使用“数据驱动”的风控模型绝非一日之功,需要管好、用好“数据”,谨慎、灵活“决策”,全面、精细“监控”。在此过程中,运用先进的管理工具实现自动化,可以极大提升运营效率,少走不少弯路,成熟的软件包括统一数据管理平台、数据质量管理工具、数据仓库、明策智能决策引擎、BI应用等。

           

你可能感兴趣的:(数据管理)