中国的反欺诈有多难?
“2011年至2015年,五年共造成经济损失550亿元,”看看中国黑产的规模,就知道反欺诈有多难。
大数据、人工智能、活体识别、人像比对、设备指纹、人脸识别……大量的风控技术,都开始运用到场景之中。
技术真的能阻挡黑产脚步吗?
01 五类信贷资产
我们总结2017年整个中国信贷市场上信贷资产的特点,可以分为五大类:
1、线下消费贷。以场景风控为核心,比如捷信,拥有几万人驻扎的门店。通常经营标准化的3C、家电产品等。它的优势是,因为有消费场景,所以风险相对可控;但需要大量的地面人员,门槛相对高。
2、线下信用贷。通过门店去获客,比如车主贷、白领贷等等。这类特点是通过门店、信贷员去获客,做初步审核,然后加上中央的集中风控,是比较典型的“信贷员模式”和“信贷工厂模式”的结合。
这两类玩家相对比较多一点。
3、抵押贷。比如车抵贷、房抵贷等,以抵押的形式控制风险,风控也偏向传统,是很多传统金融机构开展的业务。
4、线上小额现金贷,Payday。
5、线上大额现金贷。
不管是线上还是线下的现金贷业务,都是在2015年才开始有比较大发展。payday这种模式,在2015年中旬起步,随着一些公司的快速扩张,迅速兴起。这类模式的特点是,额度特别小,利率相对高。
为什么很多人会做payday呢?
因为很多机构是偏互联网出身的,payday更多是强调高利率来覆盖高风险,通过快速的风控迭代,保证存量用户,就能产生利润。
线上的大额现金贷,跟payday相比,最大的特点是借款额度相对大。这时,机构就没有足够资金或风险忍受度,能在在几万、几十万甚至上百万的用户中测试。
所以,这种模式更多是通过定向邀请白名单用户来做。比如微粒贷,是把高风险、高利率的小额现金贷,往更高的额度、更低利率、更长的期限来扩展。
目前,受限于种种的因素,从事的大额现金贷的机构相对少一点。
02 风口浪尖的payday
未来,什么样的信贷资产更加符合这个时代的发展潮流?
从去年监管出台,20万借款限额出现后,两类业务发展的特别快:一类是车抵贷,一类是payday。
payday,它的优势是能快速积累用户,最大的特点是必须有足够的流量,通过大量“新客户变成老用户”的沉淀来建立信贷体系,可能风控更依赖催收去做。
这个行业过去一年半发展非常红火,竞争很激烈,也存在很多问题,比如政策风险,还有共债严重。
我们从2016年初开始关注共债严重问题。
从数据来看,2015年下半年,payday共债率大概百分之三四十,但一年半后,如今共债率涨到百分之九十以上。
这个行业竞争激烈,因为它相对来讲门槛低一点,竞争激烈在所难免。
payday的这些人群到底是不是只申请payday呢?是不是可能里面也有相对好的人群会申请利率更低金额更大的产品呢?从数据来看,基本上印证了我们的观点。我们发现payday产品的申请人还去申请别家产品的payday比例挺大的,30%左右,比信用卡等一些利率更低的产品比例要高。
03 白名单
不过, payday人群里,其实还有不少“好人”,可以给他们提供利率更低、时间更长的信贷产品。
但其实很多人也都想到这一点,问题在于如何找到这类优质人群呢?如何避免被欺诈团伙盯上呢?
我们做了一些尝试,通过邀请制的方式,先找出比较好的客户,定向去邀请。通过这种方式,一方面尽可能避免被欺诈团伙盯上,另一方面还保证比较好的用户体验。
太阳底下没有什么新鲜事,其实这个思路也并不是独创。传统信用卡会有联名卡,本质是认为某一类场景下的用户就是资质比较好的客户,通过预筛选把风控前置,不管是主动邀请被动触发,都能解决用户体验和风控的矛盾。
预设白名单,一方面能改进用户体验,更快进行额度定位、审批;对于信贷机构而言,能够做到风险前置,避免风险后置的矛盾。
未来的信贷可能是拼图式的,需要四块拼图,第一是资金,第二是风控能力、技术、系统,第三是流量、获客,第四是数据。所以未来任何机构之间的合作,各家的核心能力不同,把拼图拼到一块,搭建一个更好的生态。
反欺诈不可能孤军作战
风控从另一个维度看,就是客户关系的管理,流量就是获客,精准营销就是获得流量。真正做好金融,就是要做好精准的风控。什么是精准风控?就是技术+数据+人工智能。
在中国用手机号做欺诈,团伙的规模到金额,触目惊心。2011年至2015年,五年共造成经济损失550亿元,2016年电信欺诈,仅上半年就立案近百万件,造成损失逾两百亿元。
为什么会发生这种情况?一是海量数据泄漏;二是新型欺诈行为更多是通过“人机对话”,有很强的隐蔽性;三是诈骗手段翻新速极快;四是金融欺诈逐步形成了包括上、中、下游结构完整黑色产业链,增加了风控的难度。
举例说明,黑客非法获取用户个人信息,数据拿到后,大量二道贩子在中间赚取差价。每个环节每个人分工十分明确,甚至有人会专门去联系相关的培训机构或诈骗团伙,从而把手上的数据卖到下游。而下游这些团队,有专人负责诈骗的话术编写培训、线上通过第三方支付平台洗钱、线下ATM机提款等,分工十分明确。
因此,企业做反欺诈不可能孤军作战,一定要一帮朋友,打群架的时代,有朋友、有渠道、有信息,才能把反欺诈做好。
从移动金融风控整个链条看,我们关注几点:一是账号,二是应用APP,三是业务,即欺诈风险和信用风险。形成一套产品,把风控防止前置,做到多维度,态势感知,以及风险信息共享,只有这样才能做到更精准的防控。
目前互联网金融应用都以APP的形式存在。对黑客来说,只要有漏洞,就可以伪造交易,窃取用户的信息,从而利用这些信息来骗贷。因此,一定要对APP进行检测,看是不是有病,是否健康。
如何对APP进行检测?我们的做法是把移动互联网上所有的APP、安卓、IOS都集中起来放在一个库里。再用不同的维度进行分析,从伪造、密码、弱点、内容等角度扫描。黑客一旦通过APP发到云端,我们立刻就能知道他的具体位置,从而帮助破案取证。
现在也有许多公司利用人工智能做风控,人工智能的算法不重要,重要的是样本。例如向C端提供反欺诈机器人,可以看手机是否健康;通过深度学习技术智能分析各行业风险,打造全场景风控策略。这些都是很好的尝试。
“大数据风控,既要用‘术’也得懂‘道’”
01 数到用时方恨少
大数据风控困境和突围。首先,第一个问题,数据是不是越多越好?
在数据质量可控、数据质量有保证的情况下,尽量引入更丰富、更多元化的数据加入到模型中,对模型提升是非常重要的。
随着互联网的普及,1994年到2004年的十年期间,语音识别领域,语音识别的错误率下降了一半,机器翻译准确度提升了一倍。其中,20%来自于算法的提升,80%来自于数据量的提升。通过这个例子大家可以看到,数据量决定了可能的上限。
纵观中国整个数据积累的情况和成熟度,我们对这个市场并不是很乐观。目前数据共享问题并无有效的解决方案。所以基于在征信、大数据风控领域的经验,我们观察到“数到用时方恨少”是非常普遍的现象。
第二个问题,什么样的数据更优质?
在探讨这个问题之前,我想解释两个概念。第一个概念,什么是大数据?
大数据其实一定要具备三个特点,一是量大,二是多元性/多维度,三是即时性。百度地图的数据就具备这样的特点。
另外一个概念还需要解释一下:原始数据和加工数据的区别。
很多公司之间的客群、抓取数据的方式、手段和维度都是类似的,但为什么风控表现参差不齐呢?其实这个道理很简单。这些数据提供方,包括这些数据使用方,在“特征工程”阶段的能力不一样。
那有人会问了,我花重金请一批既有技术又懂业务的大牛,这个问题不就解决了吗?答案也是否定的。
在未来,新数据源和新特征的获取会越来越难。模型的精度并不是随着特征的增长而线性提高。随着人工特征工程的深入,投入的人力和时间越来越长,得到的新特征对系统的提升却越来越少。换句话说,人力投入的边际收益是递减的。
如何从全局观,通过模型和算法提升整体决策效果,将成为下一个风控难题。
总结来看,大数据风控面临四大困境:数据资源壁垒,自有数据累积,数据特征提炼,算法模型提升。
02 既要用“术”也需得“道”
那么,这些困境有没有解决方案?
以市场营销为例,解决这个问题,可以通过智能推荐的算法方式对客户进行精准的评判。
以一家信用卡公司的客户触达策略为例,当接通任一用户的电话时,客服代表的系统上会提示客户的基本画像,可推荐的产品列表及预测的购买概率,方便客服代表进行沟通和推荐产品。系统背后有多个主题模型,用来预测各个主题的产品的购买倾向,并最终给出推荐产品的排序和组合。
重要的是,这些主题模型的建立,是根据真实的历史数据训练出来的。而这些历史数据的积累是有着严格的实验设计规则的。
由于模型评分Top 20%的人响应率为34%,因此预计200万客户中会有约68万人开卡。而如果没有该模型,随机发送(响应率10%),需要发680万人才能达到相同的开卡量。
因此仅该营销活动,就为部门节省480万营销预算(近70%)。
说到反欺诈,可以说目前的互联网反欺诈离不开文本挖掘,最重要的是语义识别,其次是图像的挖掘。但是二者问题都是投入大,突破小,极易遇到瓶颈。
机器学习,数据挖掘等是大招,当对不良内容其他的方式都难以识别的时候用机器学习的方式效果最好。缺点是见效慢,维护成本大,样本的收集工作量大等等。但是一旦机器学习到达一定程度,会是最好的反欺诈手段。
以上说的都是“术”,都是被动的去处理问题,而真正想把反欺诈做好需要的是“道”。
也就是产品模式的突破,信用体系的搭建,从源头使欺诈的门槛高于欺诈的收益,才会最终杜绝欺诈。这也就是反欺诈领域里所有人努力的目标。
在反欺诈管理方面,我们人人信有非常多的尝试。我们从反欺诈规则,评分卡和准人策略,潜入人人信sdk,设备指纹,用户通话等运营商数据,以及丰富的舆情来源,包括网络上面的涉黑论坛、黑产、中介信息进行了文本分析、语音分析,能够为客户提供像风险预警、漏洞纰漏以及防控建议。
我们也通过机器学习的方式在这方面有了大量的尝试,通过这个方式可以判断中介的一些言论,关联到他对这个中介表达出来的风险漏洞到底有多大,做出精准的评判。