相比关系型数据库,图数据库的优势

相比关系型数据库,图数据库的优势

图数据库是数据管理系统软件。构建单元是顶点和边缘。为了便于理解,关系数据库也是一种数据管理软件,但其中构建单元是表。两者都需要将数据加载到软件中,并使用查询语言或API来访问数据。

关系数据库在20世纪80年代蓬勃发展。许多商业公司(即Oracle,Ingres,IBM)支持数据管理的关系模型(以表格来组织数据)。在那个时代,主要的数据管理需求是生成报告。

在之前,图数据库似乎并没有比关系数据库更具优势。直到最近面对频繁的模式更改,管理爆炸式增长的数据量,实时查询响应时间以及更智能的数据激活要求,使得人们意识到图模型的优势。

有许多商业软件公司支持这种模式,包括TigerGraph(以前称为GraphSQL),Neo4j和DataStax。该技术正在扰乱许多领域,例如供应链管理,电子商务推荐,安全管理,欺诈检测,公用电力网络分析,AI应用知识图,区块链账本分析查询以及高级数据分析中的许多其他领域。

面向对象思考

这意味着您编写的每个查询都应该是非常清晰明确的语义。 没有隐藏的假设,例如关系型SQL,您必须知道FROM子句中的表将如何隐式地形成笛卡尔积(Cartesian products)。

优异性能

它们具有优异的性能,可用于查询相关数据,无论大小。 图表本质上是索引数据结构。 它永远不需要加载或触摸给定查询的不相关数据。 它们是实时大数据分析查询的绝佳解决方案。

更优的问题解决能力

图数据库解决了对于关系查询而言既不切实际又不实用的问题。 包括迭代算法,如PageRank,梯度下降,以及其他数据挖掘和机器学习算法。

研究证明,一些图查询语言是图灵完备的,这意味着你可以在它们上面编写任何算法。 然而,市场上有许多查询语言只有有限的表达能力。 确保你选择的语言可以解决你提出的许多假设性问题。

实时数据更新和查询

TigerGraph图数据库可以在对大数据集执行实时更新的同时支持查询。这是现有大数据管理系统(如Hadoop HDFS)所不能实现的。

因为它是专为数据湖而设计,其中顺序扫描和添加新数据(无随机搜索)是预期的工作特征,它假设任何查询都会触及文件的大部分,为了快速顺序扫描整个文件才选择该种架构模式。而图数据库只触及查询的相关数据,因此顺序扫描不是优化假设。

灵活的在线模式变更

图数据库在为您的查询提供服务时提供灵活的在线模式演变。 您可以不断添加和删除新的顶点或边类型或其属性,以扩展或缩小数据模型。 管理爆炸性和不断变化的对象类型非常方便。关系数据库无法轻易地适应这一要求,这在现代数据管理时代是司空见惯的。

按聚合查询分组

除了传统的分组查询之外,图数据库可以通过在关系数据库中难以想象或不切实际的聚合查询来执行某些类别的分组。 由于表格模型限制,关系数据库上的聚合查询受到数据如何组合在一起的极大限制。

相比之下,图模型可以更灵活地进行分组和聚合相关数据。 请参阅本文(https://arxiv.org/pdf/1901.08248.pdf),了解使用累加器进行图遍历的最新聚合表达能力(顶点和边的运行时属性,或查询的全局状态)。

我认为关系数据库不能对选择性数据进行这种灵活的聚合。 (声明:我已经从事商业关系数据库内核十年,Oracle、MS SQL Server、Apache流行的开源平台等)

组合和层次化多个维度

图数据库可以组合多个维度来管理大数据,包括时间序列,人口统计,地理维度等,以及不同维度的粒度层次结构。 考虑一下我们想要根据时间和地理维度对一组人口进行分段的应用程序。

通过精心设计的图表架构,数据科学家和业务分析师几乎可以对图数据库进行任何分析查询。 传统上,此功能只能由底层编程语言(如C ++和Java)访问。

AI基础设施

由于具有结构良好的实体间关系信息,图数据库可用作优秀的AI基础设施,从而可以进一步推断间接事实和知识。 机器学习专家喜欢他们。

它们提供丰富的信息和方便的数据可访问性,其他数据模型很难满足。 例如,Google Expander团队已将其用于智能消息推送技术。 知识图谱是由Google创建的,旨在更好地了解人类,并且在知识推理方面正在取得更多进展。

最近,DeepMind进一步提倡GNN概念https://arxiv.org/abs/1806.01261,它强调图结构数据作为神经网络的优化配置。 确保图数据库能作为实时AI数据基础架构的关键是:

  • 支持实时更新
  • 种高度表达和用户友好的声明性查询语言,数据科学家可以完全掌控
  • 实时(亚秒)支持深度链接遍历(> 3跳),就像人类神经元通过神经网络发送信息一样; 深度而有效
  • 支持横向和纵向扩展以管理大图

总之,我们看到原生并行图数据库管理大数据的许多优点是传统关系数据库无法解决的。然而,随着任何新技术取代旧技术,采用图数据库仍然存在障碍。

一个是就业市场上合格的开发人员比SQL开发人员少。 另一个是图数据库查询语言的非标准化。有很多营销炒作和不完整的产品导致低于性能和低于可用性,这减缓了所需企业中图模型的采用。

你可能感兴趣的:(图数据库介绍)