FinTech,即 Finance+Technology 的缩写,英文原意是“金融科技”。FinTech 利用云计算、大数据、移动互联等新兴技术对传统金融进行改造、革新乃至颠覆,从而提供更为普惠的金融服务。它所带来的,除了更高效的金融服务和生产效率,还会创造全新的生活方式。王婷就「如何构建 FinTech 科学反欺诈体系」这一话题,为大家带来满满的干货分享,以下是对她演讲内容的整理。
王婷 宜人贷数据科学家
计算机专业博士,现任宜人贷数据科学家,在数据挖掘、大规模社交网络分析、机器学习、知识图谱等领域有丰富的研究和实践经验,致力于金融反欺诈模型建模工作,搭建自动化个人信用风险分析系统,利用整合多种数据源和知识图谱技术帮助线上金融服务进行实时、快速、准确的风险识别与响应。
如何构建FinTech科学反欺诈体系?
一、FinTech金融科技企业面临的欺诈风险
图 1
如图 1 是个人对个人的信用贷款,它其实是服务于两端的,理财人群和借款人群。投资人会把钱投资到平台的一个公有账户上,然后通过平台的撮合服务快速对接到借款人的需求,而且为了分散风险,一个投资人的资金会对接给多个借款人,一个借款人的资金也来自于多个投资人。在这些场景下需要非常多机器学习和数据挖掘的技术来帮助提升运营效率和进行风险控制,比如做转化率的预测分析、如何给用户推荐更优质的产品。而在这其中对于金融最重要的就是反欺诈体系,由于整个信用贷款流程用户都可以直接在手机上操作,不需要提供纸质的资料,为了用户的体验不仅在判别速度上要够快,另外对客户的了解也从面对面交谈转移到移动数据,加大了反欺诈识别的挑战。
图 2
从线下到线上的借款流程和评估的机制都是不一样的。线下模式客户会到门店柜台,需要提供各种各样的纸质资料,比如工资流水、房产证明等等,周期会比较长。宜人贷在线上申请评估时,用户可以通过提供一些移动端的授权数据,在 10 分钟之内就可以评估完这个用户的信用,信用好的客户可立即通过申请,获得相应的借款额度和费率。
整个线上申请过程(图 2),无法像原先线下的销售人员一样,能够通过和客户面对面交流来判断资料是否属实以及客户的还款意愿。由此可见,欺诈风险是互联网金融线上信贷工厂模式最大的挑战。
|信用风险和欺诈风险的区别
图 3
简单说一下信用风险和欺诈风险的区别(图 3),信用风险更多是来描述一个用户是否有还款能力,比如说通过月收入多少,负债情况怎么样,就可以判断用户适合借多少额度。对于欺诈风险的判断其实会困难一些,因为有很多中介会帮助客户伪造资料,有些中介买一全套某个村里的身份证信息,办手机号、银行卡、注册淘宝帐号养 6 个月之后,这一套资料就可以在各家网贷平台上申请,造成假资料一人多贷的情况。所以对于国内的互联网金融公司来说,其实很希望做到信息共享,因为有一人多贷情况的话,对于每一家平台风险都是很高的。
业界通常解决欺诈风险的方法,就是利用人工审查,信用黑名单或者部署反欺诈规则的方法。这些方法其实效率比较低,人工成本会很高。因为现在欺诈手段更新非常快,比如说刷注册的行为,诈骗者可能都不是去办一张手机号,或者找身边朋友拿手机号去注册,黑产中有“猫池”,会插几百张卡,这些卡都可以用来收验证码在网站上刷注册,刷完注册之后,黑产还可以刷电话的正常通信行为。黑产手段不断更新,我们也只能不断的更新技术、更新模型,找到数据中不容易伪造的点,识别出虚假、骗贷用户。
二、在线反欺诈中的数据科学实践
图 4
对于反欺诈而言其实也是一种机器学习的过程。在业界 Y 目标变量的定义非常重要,也就是对样本的选择,在做监督学习的时候是必须要做的事情,就是标注哪些用户是好用户,哪些用户是坏用户。选定在一段时间窗口内的样本后,就可以对这些样本提取多维特征,利用监督学习的算法去做训练,最后再在跨时间的验证集上验证模型的稳定性。
为什么在互联网金融做反欺诈这么难?和普通互联网中做机器学习有什么不一样的地方?主要在于样本的标注上。比如在做广告点击预测的时候,反馈是非常实时的,平台可以实时标注这个用户到底喜不喜欢展示的商品,但是在互联网金融的借贷产品中用户到底还不还钱可能要等好几个月才能判断。所以对于互联网金融做机器学习的过程中,难度就在于坏用户会非常少,也就造成了样本极度不平衡现状,这就需要提前做样本的平衡处理。
如图 4 中的风险控制数据金字塔,越上层的数据金融属性越强,越下层的数据覆盖到的用户越广。这些数据中金融属性最强的是用户的信用数据,比如人行的征信报告上面会有用户过往的贷款记录及违约记录,还有信用卡的额度和使用情况,可以直接反应用户的信用。再者就是消费记录,如果说一个用户的信用卡使用额度每个月都基本刷光,那这个用户的还款能力需要进一步考量。还有通讯行为,比如用新手机号来申请贷款会比长期使用的号码的风险高。社交行为方面,比如说用户的常用联系人是否真实、是否是中介或者在社交网络上的一些数据。最后是行为数据,可以覆盖到每一个来申请的用户,例如在填写个人信息时,如果输入的时长过长有可能不是本人申请,有可能是中介代办。
在做特征工程的时候,金融场景下做人工特征工程的比较多,而且特征需要有解释性。比如这个用户爱好赌博、经常半夜去娱乐场所,那么他的信用表现一般很差。还可以使用知识图谱的特征挖掘技术,来挖掘更多的关联性特征。基于“物以类聚,人以群分”的假设,如果你的朋友都是信用好的人,那么你大概率也是一个优质用户。如果你的朋友都是借了钱不还的人,那么也会怀疑你是一个借钱不还的人。
图 5
我们构建的知识图谱,把用户提供授权的消费数据、行为数据包括第三方的数据都整合在一个知识图谱中,通过数据的处理后提取特征,做模型训练和模型预测,最终反映在上层的反欺诈应用中。图谱中的实体目前包括用户的电话、身份证、信用卡、地理位置、设备号等等。设备号其实在图谱的关联关系中可以提供很多信息,比如有些用户会发现他一个人关联到上万个设备,这种情况需要及时预警,另外要看某些设备是不是虚拟设备,或者地理位置是不是经过伪造的,通过这些蛛丝马迹都可以帮助欺诈识别。
图 6
整个风控决策从数据获取到清洗,再到特征提取,再通过 GBDT、RF 等算法生成高级特征后,将同一个数据类别的特征输出为一类风险评级,在建模时对各个数据源进行交叉建模,帮助提升预测能力。如图 6 就是风控决策的模型搭建流程。
三、用户全流程欺诈风险评分体系
1、为什么反欺诈需要体系化?
为什么反欺诈需要体系化呢?对于这个问题,其实很多欺诈机制在申请初期就可以发现,目前后端反欺诈决策不能满足实时发现欺诈的需求,而且欺诈行为的技术含量日益升级,面对这些现状需要我们不断的提升对欺诈的响应能力。
接下来介绍一下在实践的过程中做的一套用户全流程欺诈风险的评估体系,传统的做法是判断欺诈的时刻是用户在申请的时刻,资料已经提交完了。例如在银行申请时把所有信用资料交给银行之后,银行会统一进行评审,也就是在资料齐全的时刻去判断用户的信用风险和欺诈风险。在移动端会有一个优势,在用户一来到平台上就可以开始对用户进行评估。如果可以在更早的情况下发现这个用户是一个欺诈用户的话,就会引导用户走不同的流程。比如评估用户大概率不是本人,平台就让用户做人脸识别。或者平台通过欺诈评分发现没有欺诈的风险,就有可能直接放款,这样对用户的体验会有很大的提升。
图 7
如图 7 比如用户在激活设备的时候,平台就可以给用户一个评分,用户在注册帐号的时候有了更多的用户信息,就可能给用户一个更高的评分。再比如用户在做其他的一些操作的时候,平台发现用户操作的速度过于频繁了,就又会降低用户的分数。所以说在不同的流程都可能给用户打不同的评分,然后根据这些节点的不同评分,平台可以引导用户走不同的流程,最终根据用户的信用评估给用户相应的贷款额度。
2、用户 SDK 数据全流程反欺诈
图 8
为了提升用户的使用体验,引入了用户的行为数据,并利用用户的设备数据、行为数据和位置数据(如图 8)来对用户进行信用和欺诈评估。行为数据的数据质量的保障在业内一直是一个难题,我们也趟了很多坑,做了很多数据质量的修复,也对 SDK 做了很多定制化的改进,包括埋点的方式。不过这些工作都是有价值的,我们也确确实实的看到了行为数据对于反欺诈的业务价值所在,还在此基础上申请了 2 项反欺诈技术专利。
3、反欺诈平台工作流程
图 9
图 9 是目前反欺诈平台的工作流程,平台申请的数据,会存储在 Neo4j 数据库中,通过规则和反欺诈模型两种策略对用户申请进行评估,反欺诈模型不仅会给出用户欺诈的概率,而且将此概率通过 FICO 分数校准到 300-900 分,并通过分析找出欺诈阈值对用户进行实时提报预警。本平台的亮点在于引入了反欺诈调查组,以机器学习加人工的方式,确认用户是否是欺诈用户,并将实时的标注信息反馈回模型的训练中,不仅补充了坏样本,而且使得模型迭代更迅速。
4、引入反欺诈调查员提升反馈效率
图 10
引入反欺诈调查员在国外的金融行业也是常有的做法,例如 PayPal 公司,而引入人工调查后,对于模型的迭代会有巨大的好处。在欺诈标注方面,对于现金贷类的产品,通常需要 6 个月甚至 1 年的时间观察用户的还款情况来进行数据上的标注,现在有了人工调查机制后,如果预警了一批用户,经过调查一天之内就可以得到新的标注,那么在当天晚上就可以重新进行一次模型训练让模型更准确。另外在过去的情况下,如果通过模型预测一个用户是一个欺诈用户的话,用户是没有反驳机会的,有可能直接被拒或者进入黑名单。但是引入反欺诈调查人工机制后,通过算法筛选和人工调查的结合,可以真实的确定某一个用户是不是真的是一个中介或者是欺诈用户。
再有另一个巨大用处就是结合人工标注再加上图谱的挖掘,可以快速发现短时间内的欺诈团伙。类似于像图 10 里展示的,我们找到一些用户和两个以上欺诈用户联络过的一个网络。有一些用户打给了两个欺诈用户,但有些时候这个用户经过调查并不是欺诈用户。但像右上角这个结构比较紧密的网络,其中有两个用户是我们认定的欺诈用户,会发现这两个用户和其他两个联系人构成了一个紧密团体,通过这样结构的发现,再往深挖就发现这是一个 13 人的小团伙,这个团伙里面有 11 人是申请了贷款的,其中 5 人是没有通过贷款的流程,另外 6 人通过了之后,其中有 2 人曾有逾期行为,所以通过这种方式是可以找到这样的欺诈团伙,或是中介团伙。如果在以前的话,可能挖到这两个人标记了就完了,会忽略他关联到的用户,现在有了知识图谱我们能挖到的信息就更深。
平台现在正在做的事情就是用一手的行为数据再加上图谱信息去搭建一个反欺诈的平台,通过模型与人工调查的结合快速的实现欺诈的识别,可以使平台不受任何的欺诈的损失。
能够预见的是,FinTech 在未来金融业将逐步成为常态,可能会变成一种主流。FinTech 也在驱动生活往更便捷更美好的方向走去,这也正是技术创新最大的价值所在。
Q&A
现场提问:刚才发现欺诈团伙的例子里面,通话记录是怎么获得的?
王婷:这是用户在我们的 App 中授权抓取获得的,不用像以前一样需要用户去营业厅打印详单给到销售人员。
现场提问:用户授权之后抓取的?
王婷:对,这也是行业的标准做法。
现场提问:我对您刚刚讲到的设备号做用户欺诈行为早期鉴定很感兴趣,是不是用苹果7在望京注册走的流程和在村里走的流程不一样?
王婷:按照假设地理位置在一定程度上可以看出来一些欺诈风险,比如一个风险很高的区域的申请会引起系统的预警。
现场提问:在识别用户风险进行评分的时候是怎么样的逻辑?
王婷:比如说在注册的时候,会通过设备信息和地理位置信息打一个评分,这个评分也是通过历史上模型的训练,如果用户的欺诈风险评分低于某一个阈值的话,会设置必须要经过的流程去验证这个用户有没有虚假的行为,如果他通过的话,下一个 check point 会继续判断,引导用户接下来的流程。
现场提问:其实我想问一下,你们会获取哪些社交信息,这个社交信息你们有跟腾讯方面合作吗?
王婷:其实我们会有跟第三方数据做一些合作,另外也会尝试着抓取一些公网上的信息,通过这些信息,假设我们认定了的欺诈用户是一个中介,通过关联信息的数据,很有可能他联系紧密的人也是中介。
现场提问:我现在在京东广告部做数据的,我们遇到一个投诉就是有一个用户说,我们给他推荐了他曾经看过的商品,他认为我们侵犯他隐私,这种行为应该很正常,我不知道你们获取用户的手机信息,因为我们安装的时候会出现一大串权限,我们都不会仔细看的。其实有些用户并不知道你们获取他们很多信息,比如说系统版本手机型号,你们有没有出现过相关的问题?
王婷:其实我们在做的时候,比如你说的提前获取授权权限,或者有一些合同条款说明来保障用户的知晓。其实大部分的误解来自于不了解,现在推荐引擎比较成熟,相信大众也在逐渐接受网站用自己的历史数据去推测未来。
现场提问:我想了解一下,你们在欺诈标注那一块,欺诈行为是基于以前历史认定吗?当欺诈发生了,你们才发现有问题,有没有一些新的解决方法?
王婷:我觉得你问的问题挺有深度的,比如说从旧的方式方法来说,都是我们遭受到了损失之后,吸取了这个标注就把它转化成数据训练,但其实对公司来说是一个蛮大的损失之后才能够吸取的教训。我们现在做的工作,其实是希望快速发现新的欺诈手段,比如说用旧的方法,旧的训练模型发现了认定欺诈用户,用拓展的方式发现他周围的用户是什么样的情况,通过这种方式我们就可以发现新的欺诈团伙或者欺诈手段,能够避免损失,这是我们希望做到的欺诈团伙预警,这也是业界一直在攻克的问题。