DTCC 李文哲:基于图数据库的大数据应用


from:http://tech.it168.com/a2016/0705/2767/000002767219.shtml

图数据库

  数据驱动策略(DDS)是指解决方案的决策需要数据支持,而非仅通过数据知道问题或insight。金融行业的核心是风控,因为风险控制直接会影响到公司的盈利,而且大数据风控和传统风控有很大的不同,所以我们公司也在这方面投入了很多,近日公司也发布了很多图数据库。目前,我们使用的图数据库是Neo4j。

DTCC 李文哲:基于图数据库的大数据应用_第1张图片

  上图是图数据库的一个生态系统,很多公司的数据都是多元化的,这时就需要构建一个有关系特征的数据结构,将实体关系抽取出来从而得到一个知识图谱,然后任选一种图数据库进行存储就可以了。图数据库的本质仍然是一个数据库,只是它的存储方式发生了变化。既然是一个数据库,那么在做AI应用时就必须添加一些计算引擎,例如关系验证,消歧分析、异常分析、链接预测、特征抽取、聚类、关系搜索等等。这些技术点每一个都可能会衍生出一些应用场景,但是仅仅有这些技术是不够的,例如实体标签,除了这些技术可能还需要机器学习、深度学习这样的处理技术来支撑。

  我们可以先构建一个金融类的知识图谱。谷歌用的知识图谱是通用的知识图谱,因为他们的数据大部分是来自网上,数据多是文本、百度百科等等。但是我们的数据是非常有针对性的,知识图谱也是在某个领域内有针对性的知识图谱,我们称之为金融知识图谱。目前我们有10多种实体类型、50多种关系类型以及上亿个实体和关系。

  反欺诈

  反欺诈是风控非常重要的一环,一般从两个方面来判断一个人是否有欺诈行为,一个是还款意愿,另一个是还款能力。很多的欺诈都是基于规则的,下面我们来看一下基于图数据库怎么进行反欺诈。

  1.不一致性验证,例如两个申请人同时拥有同样的电话号码,这就是一种明显的不一致。另外申请人与其他申请人填写了同样的公司电话号,但却填写了不同的公司名等等,这些和正常逻辑不符的情况都属于不一致性。

DTCC 李文哲:基于图数据库的大数据应用_第2张图片

  2.三角关系,在几个亿的关系网络里把三个人的所有三角关系找出来,然后对每个三角关系做一个验证,假设三角关系里的某一个人被标记为坏人,那么我们就认为其它申请人也是有风险的。另外,还可以做复杂的推理三角关系验证,例如三个关系中有一个关系和其它两个关系不一致。

  3.其它风险,比如三个申请人明显拥有很多共同信息或者短时间内,图结构就发生了很大的变化。

  失联客户

  风控分为贷前、贷中、贷后三个部分,贷前是指放款之前做的风控,贷中是还款过程当中的风控,贷后是客户已经不还钱了,银行如何去降低风险。失联管理属于贷后风控,借款人借钱以后失联怎么办。如果借款人更换手机号以后失联,那么他在借款时填写的信息基本就不可用了。这时,我们应该怎么办呢?我们可以利用图数据库搜索跟这个人有关系的其它联系人,也就是挖掘更多的联系方式。比如说我有一个申请人失联了,他填写的其它联系人也失联了。那么我们就去图数据库做链接预测,寻找和借款人特征最相似的人。

  除了图数据库,我们还可以尝试采用其他方法去寻找,比如说可以去百度搜索借款人填写的手机号码,找到和这个手机号码相关的其它手机号码或者地址,然后根据搜索结果继续搜索,经过多次重复搜索,最后可能就会挖掘出有用信息。

  图数据库面临的挑战

  1.非结构化数据,互联网金融领域做图数据库涉及到的数据非常多样化。数据有非结构化的文本、百度和论坛上抓取到的信息,甚至还会有和客户沟通的音频以及客户上传的图像等等,如何将这些非结构化数据转成结构化数据是一个难点。

  2.消歧分析,有两个节点,它们看起来是类似的,如何判断这两个节点是否为同一个节点。

  3.链接预测,这在学术界也是一个开放性的问题。

  4.大数据小样本,这是金融行业普遍存在的问题,例如,银行的数据量很大,但是它的欺诈风险模型是非常少的。

  图数据库的好处

  1.更方便的整合和管理不同种类的数据源。之前数据都是散落在不同地方的,存在数据孤岛问题,但是我们通过图数据库的方法把公司所有数据源都整合在一起。

  2.方便地做关系的分析,无论是风险控制还是金融风控,最重要的是关联性的分析。关联分析可能会涉及到四五个表,用SQL做join可能需要运行一天,但是图数据库就会非常高效,因为数据已经是处理好的,所以只需运行几分钟就能得出结论,效率上有好几个数量级的提升。

  3.实时性服务,我们的业务需求不仅仅是要做一个线下离线分析,还要利用Spark开源工具来做实时性服务,并把这个服务提供给公司内部其它的核心团队,未来还有可能提供给第三方。目前我们采用的Neo4j图数据库提供了整个数据库必备的核心服务。

  以上就是我想和大家分享的内容,大家如果在AI、图数据库、知识图谱这方面有任何问题都可以来和我讨论。


你可能感兴趣的:(图形数据库)