升维打击 | 关系图谱如何将欺诈分子拒之门外！

文章内容摘自“反欺诈实验室”微信公众号

随着互联网金融的发展，层出不穷的营销活动和品类繁多的网贷产品让欺诈分子有了更多可乘之机，他们的欺诈成本似乎也更低了，足不出户就可以日进斗金。为了限制欺诈活动，金融机构和互联网公司都会构建自己的反欺诈团队和防范系统，通过种种规则和预测模型将欺诈分子拒之门外。

然而，道高一尺，魔高一丈，再严密的规则也难免会有漏洞，加之欺诈手段日新月异和团体欺诈盛行，采用传统的反欺诈工具总是略显被动。因此，关系图谱就有了用武之地。关系图谱之于反欺诈，就如同飞机之于军队，可以从更高的维度去侦测和打击对手，实现升维打击。

什么是关系图谱？

关系图谱是描述个体及个体之间关系的图。下图给出了一个移动支付场景的关系图谱示例，个体类型可以包括IP地址、设备、支付账户、账户联系人等，个体之间也可以存在不同的关系，比如IP登录行为、设备登录行为、联系人登记行为等。

关系图谱在互联网金融行业中的应用

反欺诈

反欺诈是风控中非常重要的一道环节。基于大数据的反欺诈的难点在于如何把不同来源的数据（结构化，非结构）整合在一起，并构建反欺诈引擎，从而有效地识别出欺诈案件（比如身份造假，团体欺诈，代办包装等）。而且不少欺诈案件会涉及到复杂的关系网络，这也给欺诈审核带来了新的挑战。关系图谱，作为关系的直接表示方式，可以很好地解决这两个问题。首先，关系图谱提供非常便捷的方式来添加新的数据源，这一点在前面提到过。其次，关系图谱本身就是用来表示关系的，这种直观的表示方法可以帮助我们更有效地分析复杂关系中存在的特定的潜在风险。

反欺诈的核心是人，首先需要把与借款人相关的所有的数据源打通，并构建包含多数据源的关系图谱，从而整合成为一台机器可以理解的结构化的知识。在这里，我们不仅可以整合借款人的基本信息（比如申请时填写的信息），还可以把借款人的消费记录、行为记录、网上的浏览记录等整合到整个关系图谱里，从而进行分析和预测。这里的一个难点是很多的数据都是从网络上获取的非结构化数据，需要利用机器学习、自然语言处理技术把这些数据变成结构化的数据。

不一致性验证

不一致性验证可以用来判断一个借款人的欺诈风险，这个跟交叉验证类似。不一致性验证涉及到知识的推理。通俗地讲，知识的推理可以理解成“链接预测”，也就是从已有的关系图谱里推导出新的关系或链接。

组团欺诈

相比虚假身份的识别，组团欺诈的挖掘难度更大。这种组织在非常复杂的关系网络里隐藏着，不容易被发现。当我们只有把其中隐含的关系网络梳理清楚，才有可能去分析并发现其中潜在的风险。关系图谱，作为天然的关系网络的分析工具，可以帮助我们更容易地去识别这种潜在的风险。虽然组团欺诈的形式众多，但有一点值得肯定的是知识图谱一定会比其他任何的工具提供更佳便捷的分析手段。

关系图谱如何实现“升维打击”？

（1）全维度的事中侦测。在欺诈检测系统中，诸如登录时间和位置（例如IP地址）之类的行为线索很容易被欺诈分子改变或伪造，但是欺诈分子很难全面地了解他们所在的整个关系网络（例如转账、购物、登录、浏览、还款）。因此，即便欺诈分子尽可能地掩盖了痕迹，也难免会在关系网络上露出马脚。比如上图中的共用设备、共用联系人信息、共用IP等就可以作为可疑特征用于识别欺诈事件。

（2）全局的可视化事后分析。一方面，反欺诈部门分析人员可以根据已定性案件在关系图谱上呈现出来的全局特征，优化风控规则和模型。例如，一个可疑账号可能会登录多个设备，而这些设备往往会被登录多个可疑账号。关系图谱可以非常直观地呈现这种间接的多对多关系。另一方面，也可以挖掘看似独立却存在间接联系的案件之间的关系，识别核心作案人员和其他疑似欺诈分子。

（3）全渠道的标签传播。关系图谱也可以基于现有黑名单，为可疑个体打上相应标签，用于反欺诈规则和风险提示。假设已确认一个黄牛常用手机号，可在关系图谱中把这个手机号直接和间接关联的账户、手机号、地址、银行卡等个体打上“疑似黄牛”的标签。这种路线便是标签传播（如下图）。

（4）高效的信息检索。传统的数据存储通常基于关系型数据库，比如转账、登录等各种关系分别存储在不同的表中，想要抽取多级关系信息则需要连接多个表才能实现。

而关系图谱一般存储于图数据库中，常用的图数据库如neo4j、orientDB等。当关系深度较小时，比如深度为2（类似查询朋友的朋友这种关系），关系型数据库和图数据库的性能相当；当关系深度超过2时，关系型数据库所需的查询时间达到图数据库所需时间的上百倍甚至上千倍，这时图数据库的性能优势就非常明显了。

大数据、小样本、构建有效的生态闭环是关键

在大数据时代，很多数据都是未经处理过的非结构化数据，比如文本、图片、音频、视频等。特别在互联网金融行业里，我们往往会面对大量的文本数据。怎么从这些非结构化数据里提取出有价值的信息是一件非常有挑战性的任务，这对掌握的机器学习，数据挖掘，自然语言处理能力提出了更高的门槛。

虽然现在能获取的数据量非常庞大，我们仍然面临着小样本问题，也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统，我们首先需要一些欺诈样本。但实际上，我们能拿到的欺诈样本数量不多，即便有几百万个贷款申请，最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移，我们必然会收集到更多的样本，但样本的增长空间还是有局限的。这有区别于传统的机器学习系统，比如图像识别，不难拿到好几十万甚至几百万的样本。

在这种小样本条件下，构建有效的生态闭环尤其的重要。所谓的生态闭环，指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型，并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统，我们不仅要完善已有的数据流系统，而且要深入到各个业务线，并对相应的流程进行优化。这也是整个反欺诈环节必要的过程，我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。

随着物联网的技术发展和场景丰富，近些年各类数据服务公司如雨后春笋般涌现，也印证了市场需求。另一方面，关系图谱还需要充分利用已有数据，比如时间序列信息，构建动态关系图谱，来更有效地预测和识别欺诈风险。

综合来源：苏宁金融研究院、普惠大数据中心

升维打击 | 关系图谱如何将欺诈分子拒之门外！

你可能感兴趣的:(升维打击 | 关系图谱如何将欺诈分子拒之门外！)