认识图计算和图数据库

什么是图(Graph)

图(Graph)是一种非常直观表达事物及其关联关系的数据结构,基本元素是“点”和“边”,点表示一个事物,边就表示他们之间具有一定关系。

比如下面这张图,它的点有公司、员工、项目,边即他们之间的关系——公司和员工之间是雇佣关系、员工和员工之间可以有好友关系、项目和员工之间也可以有参与关系。也就是说我们可以用图的方式来把事物和它们的关系抽象出来。

认识图计算和图数据库_第1张图片

这是一张结构比较简单的图。随着点和边不断增加,图数据越来越多越来越复杂,逐渐形成更丰富的网状结构。比如一些金融交易图,它的规模可能会非常大,超过10亿个点,有千亿甚至万亿边。可以想象,要真正处理这些图还是很有挑战的。

为什么需要图计算

把计算机想象成大脑,我们要解决两个关键问题:数据的存储和分析。

传统的数据存储采用关系型数据库,其结构是“表结构”(想象一下Excel表格)。比如一家银行的客户转账信息可能包含交易人员、交易金额、交易时间,记录在一张表格里。假如交易人A和B之间有直接转账关系,这种直接关系用关系型数据库是不难发现的。但对于非直接关系,关系型数据库就较难“穿透”多个点来发现了,即便可以处理,查询速度也可能非常慢。我们用信用卡套现来举例。

认识图计算和图数据库_第2张图片

首先是简单的直接套现模式。如左侧图显示,一个人办了一张信用卡,他其实不是真的想去还款,他找了一个商店,这个商店提供一个非法的服务就是信用卡套现。那么他通过信用卡付款,把2020元钱转到这个商店。这个商店直接就把其中的2000元钱返回给付款人,就完成了一次套现。这样的一种套现是非常简单的,我们通过对这个个体,对这个商店的收款记录和付款记录做分析,就可以识别出套现行为。

但右边这张图就复杂了很多。我们可以看到,右上角的这个人,他还是通过信用卡付款,付了2020元钱给了商店。这个时候,商店没有直接把钱退给付款的人,而是由一个个人付了2000元钱给到一个第三人。这个个人和商店之间,我们可以通过一些分析发现,他实际上拥有这个商店,所以我们把这种关系叫做同人关系。就是店和人虽然看起来是不同的实体,但其实他们之间有一个非常强的关联。那么他付款给的第三人也不是最开始刷卡的人,而是刷卡人的一个亲友,店主付款到了刷卡人亲友的银行卡上。那这样的一个套现模式就比左边的复杂很多了。我们把这种模式叫做多跳闭环模式。

要分析这种多跳闭环模式,就需要找出复杂的关联关系,而不能只对这个个体进行分析。但是大家可能会说,你画的这张图很简单呀,我一眼就能看出来,这是一个闭环,这个坏人我很快就能抓住。

但实际生活中情况可能会更加复杂,有更多其它交易和关系,就没那么容易看出来了。如下图所示,右边这张图可能会有千亿条甚至万亿条边,怎么很快地在这个图上把环找出来,这就对整个分析技术——复杂的关联分析技术提出了非常高的要求,性能成为了关键。

认识图计算和图数据库_第3张图片

什么时候要用图计算

随着数据量和深度的增加,如果我们用传统的关系数据库的方法去分析的话,那就可能非常非常慢,难以在有效的时间内计算出结果。而图计算技术直接将事物与其关系像制作地图一样定位存储下来,直接支撑对事物和关系的各种查询和计算——这与我们大脑对信息的处理模式很像,大脑本身也可以建模成一个图。由于提供了对关联数据最直接的表达,以及图模型对异构数据天然的包容力,可以很好的解决目前遇到的关联数据分析问题。

由此可见,关系型数据库的设计擅长回答“已知”的问题,而图数据库可以回答超出设想的“未知”问题。相较于关系型数据库,图数据库是真正注重“关系”的数据库。

我们刚才举的是金融方面的例子,但是图计算的用途远远不限于金融行业。在互联网、工业领域、医药、公共卫生、公共安全等领域都有很多的应用。如绘制用户社交关系图谱进行社交影响力排名、好友推荐;构建设备关系网络图谱实现物联网建模分析、供电网络建模分析等。

认识图计算和图数据库_第4张图片

随着互联网和5G时代数据指数级增长,数据之间的关系越来越复杂,企业管理和分析数据面临更高难度。越来越多的企业管理者们开始关注以图为代表的技术来更智能地使用数据,Google、Facebook 等科技巨头也早就在通过图数据库的力量来支撑主要业务应用。

国际知名咨询公司Gartner,每年都会发布各种技术趋势的报告。在2021年的《十大数据分析技术趋势》报告中,Gartner提到了“Graph relates everything”。这是一个非常有趣的双关,即图连接万物,一方面表示了图的本质,就是把各种事物连起来,另一方面也表达了图会在数据分析的各个领域得到广泛应用。Gartner 预测到2025年,图技术在数据和分析创新中的占比将从2021年的10%上升到 80%。

你可能感兴趣的:(数据库大数据)