在今年的「QingCloud Insight 2017」上,麦思博(msup)组织了主题为“AI落地实践”的专场论坛。宜人贷数据产品经理 何林海 在本场带来了题为《构建基于社交图谱关系的反欺诈产品应用》的演讲。
何林海在演讲中主要分享了欺诈行业面临的挑战和产业链式发展、如何快速评估欺诈风险/平台搭建(框架体系)及实现、基于社交知识图谱的欺诈团伙发现、宜人贷面向行业的反欺诈解决方案“先知”等内容。
本文为早餐君根据速记整理而成,在不改变讲者原意的情况下做了编辑和缩略。特别致谢青云QingCloud、麦思博(msup)、宜信技术团队对本文的贡献。
何林海,目前主要负责宜人贷反欺诈产品的搭建,在做反欺诈之前,主要负责SDK行为数据的采集,收集了大量宝贵的用户行为数据,目前在公司内各个项目中得到了广泛使用。 在宜人贷之前,就职于美团数据工程部。
以下为何林海的演讲内容。
我是来自于宜人贷的何林海,今天主要分享社交图谱关系在金融反欺诈产品方面的应用。
关于宜人贷
宜信公司2012年推出的一款在线金融服务平台。宜人贷通过科技驱动金融创新,为中国优质城市白领人群提供高效、便捷、个性化的信用结款咨询服务。
2015年12月18日,宜人贷在美国纽约证券交易所上市,成为中国金融科技第一股。截止2017年3月31日,宜人贷累计服务了超过60万借款用户,近120万出借用户,累计促成借款总额达393亿人民币。
在美国,欺诈主要是由于信用风险而产生,但在国内,很多坏账是由欺诈产生,中国对于欺诈的惩罚不够,导致了类似事件频繁出现。作为一个行业的挑战,欺诈不仅只存在于在线P2P领域。
关于欺诈的行业挑战,举三个例子。
非银信贷:行业整体风险偏高,由于门槛较低,滋生了大量团伙欺诈、身份冒用、老赖、多平台借款、黑中介等,带来巨大经济损失,坏账率居高不下。
银行:开展网络支付、直销理财、电商、消费信贷、P2P等创新业务中,和非银信贷面临同样的问题。
电商:电商领域的在线支付、恶意点击、广告监测、黄牛、账户安全等方面面临交易欺诈风险。
这些问题是全行业的挑战,宜人贷面临的主要是信贷申请时候的欺诈。
现在大量欺诈已经不再只是个人作为,而是一种行业性质的行为。我简单分成三类:上游、中游、下游。
上游,主要是黑产技术服务,能力不逊于技术团队,力量强悍,积累了丰富的工具使用经验,包括虚拟模拟资料,做帐单造假等,成员都是计算机高手。
中游,把恶意注册的帐号释放出去,或者是通过交流平台招揽技术人才。另外,由于需要很多资料,到农村收一些大爷大妈的身份证。对他们来说,赚一百块钱,身份证借用两天没什么关系,实际上这些资料被用来骗贷了。
下游,有专人用这些资料来做欺诈、盗窃、勒索,甚至用来刷单。
宜人贷如何建立一套快速评估欺诈风险的机制呢?
2014年开始有这些想法,在现有风控体系外,把欺诈风险和信用风险分开做。欺诈风险单独拎出来,并将对用户的欺诈风险识别出来。我们建立了一套从数据采集到机器学习,并快速给出欺诈评分的体系。
在数据采集时,通过SDK的方式,也就是采集SDK,可以在不同触点采集到用户的基本信息,只要用户触达任何一个终端,我们都实时地将这些用户信息送到SENT EVENTS上。
深度学习以前没怎么用,监督类学习是基于欺诈和非欺诈的用户去做分类,无监督用了知识图谱的技术。对于单个用户,每个事件会给出一个评分。
比如,用户打开APP会得分,因为怀疑安装了模拟器,用户进行申请时会给他提醒完善信息。对于优秀用户,根据他的设备或者关联出的其他信息,在注册时给他打一个好的分数。
这是对于不同事件进行实时欺诈评分的流程。用户在设备激活的时候得一个分,注册的时候得一个分,查看新手引导的时候又得到一个分,这个分会实时变化。每次过来,用户都会带上基本信息:设备、IP地址等等,可用作评估风险程度的特征。
上面说到的是反欺诈的基本架构,我们在内部做成一个产品化平台,今天主要介绍一下它的体系,主要基于三个层次。
首先是实时的数据采集,数据采集分几个部分,第一部分是基于SDK采集相关的用户行为数据,第二部分是用户授权的相应个人信息,包括消费数据和通话数据,第三部分是三方数据。
其次,我们用到了实时数据处理,基于知识图谱构建了三个层次,第一个是欺诈评分模型,实时对用户的每个事件进行评分,第二个是传统的规则引擎,我们用了一个非常强的规则;第三个是团伙挖掘,这是一个很大的亮点。
前两点很多公司都在做。针对单个分类的问题,数据决定了模型好坏的上限,模型调的再好,只是决定效果无限逼近上限。团伙挖掘是基于知识图谱,把用户通过图的方式,挖掘他们之间的关系,把这些(有类似欺诈行为或关系的)用户拎出来。
在实时欺诈发现阶段我们采用产品化的工具,在流程里通过调查工具,直接给到信审。把每个用户提报出来,通过这套流程可视化平台,帮助快速理解用户是否欺诈,我们会做中介发现,把中介找到。第三是团伙监控和预警,把欺诈团伙挖出来。
下面讲讲每个部分的具体实现过程。
第一个模块是基于SDK的实时数据采集,获取一手数据。我在去年加入了宜人贷,当时就在想,这么多的用户行为数据为什么不用来做反欺诈呢?用户的淘宝数据、消费数据,以及其他的很多临时性数据都可以作假,但是用户的行为数据一般不会去模仿,我们做了一个SDK采集框架,分成三层。
第一部分是数据采集,覆盖宜人贷所有客户触达终端的采集能力,采集用户行为、设备指纹等相关信息,比如型号、是否模拟器、各项物理层,以及网络源信息,这部分非常重要,它连接着一些上网轨迹,还有Location,我们发现很多团伙都在一个地点,好几十个坏用户聚在一个基站下面。以上是采集层。
中间是实时数据处理,我们做了一层相应的配置,对于哪些数据是可用的,我们花了很多力气做数据清洗,刚开始的时候在这方面踩了不少坑,然后后续实时的时候会做一些数据回填,才达到一个比较好的运算。数据处理层分为离线和实时。实时数据直接灌到知识图谱里,离线数据做一些特征处理和建模分析。
在数据应用层,最简单的就是流量统计分析,分析用户的行为。其中两个方面跟反欺诈有关,一个是反欺诈前置,另一个是流量反作弊,对每个渠道过来的激活都需要做是否作弊的评分。在反欺诈前置方面,我们会对每个用户进行实时的欺诈评分。
这是SDK采集的基础框架。数据采集方面数据由固定表头信息+事件信息组成,每条记录都是一个事件,包含如获取定位行为、或者设备信息行为、用户点击行为、页面加载行为。数据发送有些策略:实时发送、满N条发送、默认15条、失败重发等等。
采集的内容分为几个模块。设备数据主要有手机品牌、手机型号、操作系统、设备ID、App列表。
行为数据主要包括账号登录、页面进入、按钮点击、信息输入、广告浏览、操作时间等。我们有很多流程,比如,新手机运营商授权的密码,很多人都记不住,但是欺诈分子一下子就输入了,他的输入速度非常可疑,我们通过聚类把这种用户聚在一起。
位置数据现在主要用四个:GPS、IP、基站信息、WIFI列表。比较精准的是GPS和WIFI,基站大概有100~200米误差。很多欺诈分子喜欢用代理IP。
基于以上,把用户实时行为数据采集完之后,对每个用户会形成一个实时的欺诈评分。
这是一个实时预警流程。我们真正用的模型不只是只有行为,但是它的权重非常高,我们还用到很多的其他数据,需要用户授权的一些数据,我们都会放到欺诈的特征里面。
我们做了一个FICO评分标准,评分越高用户信用风险就会越小。此外还有一个规则引擎,我们会发现一些强有力的单条规则,或者多条单一规则组成的策略,对每个预警用户非常有效。
预警出来会分成两部分,一部分信用好的就直接拒了,另一部分交给反欺诈调研,形成黑名单。所有流程都是实时的,保证跟业务系统完全解耦,有快的反馈速度,十分钟放款,就要判断出他是否是欺诈。
模型训练,我们有一个好的点给大家分享下,大家可能做过,正负样本非常不平衡,欺诈领域也有这个问题,我们面临的是想要找出一些坏用户,但很不易。
坏用户常见的定义就是MOB6里面的M3+(逾期三个月),不能把有信用风险的用户刨除掉,这个用户不一定是欺诈,他是违约了,但有可能就是没钱还,要把欺诈跟信用解耦出,可以信用风险的方式做信用定价。我们构建了基于欺诈标注的自动化学习,可疑对实时新增的欺诈标注,快速反馈回模型训练。
以上是对于识别单个欺诈用户的应用。接下来谈谈如何基于知识图谱判断欺诈团伙,大家知道团伙其实很难发现,发现了也很难认定。
我们采用了两种方式,第一种是通过无监督的方式,通过聚类的方式找到这些用户;另外就是通过知识图谱的方式发现关联关系。我们的知识图谱关系网用的是Neo4j。
我们主要应用知识图谱做了三件事情:疑似中介识别、关联骗贷团伙识别、团伙监控&预警。关联骗贷团伙,一个用户来了之后,对单个用户的特征评价里有了非常多的数据,他跟某一个团的关联关系,他在团里的关联特征,比如一度联系人,和二度的设备联系有多少,这些是作为单个用户而言。此外还有对所有用户的全局搜索,从而发现骗贷团伙。
关于团的定义可以参考以下图。
宜人贷面向全行业的一个反欺诈解决方案——先知。
宜人贷CEO对此提出了三项服务要求。第一是数据抓取服务,包括对于淘宝数据、公积金、社保数据抓取的服务,提供给其他行业;第二是反欺诈能力。第三是精准获客能力。
宜人贷有非常多存量用户,我们已经投了很多钱去获取基本用户,这部分用户客单价非常高,我们希望把一些不符合宜人贷定位,同时又是优质的客户,他的风险不高,但是他可能就想借一千块钱的用户,这种用户我们是可以转出去给其他的平台。
我们的反欺诈能力是通用的解决方案。第一,基于SDK采集行为数据;第二,结合全网数据绘制关系图谱;第三,通过规则+模型实时判断欺诈用户;第四,自动对接业务流程。
在产品流程方面,是基于SaaS的服务,用户可以在平台上自动完成预警欺诈用户设定,以及对于预警用户的处理。同时,这些服务可以对接到自己的业务流程里去,比如接入了“先知”系统后,对于用户预警,可以在平台上操作,同时也可以把这些数据通过API的形式对接到自有的信审里去。
原文发布时间为:2017-08-31
本文作者:Jack
本文来自云栖社区合作伙伴“AI早餐汇”,了解相关信息可以关注“AI早餐汇”微信公众号