干货分享 | RDF 和 LPG 知识图谱上的表示学习

随着主网上线逐步临近,知识图谱生态也在悄然构建。作为当前一大热门赛道,知识图谱界也在不断呈现出新理论与新概念,为了给大家同步知识图谱领域的全球最新最前沿的干货,EpiK将特别开辟知识共享栏目,希望大家可以共同参与进来,加入我们的知识图谱最前沿内容社区,共同为知识图谱贡献一份力量。

今天小编分享的是Michael Galkin 的《RDF 和 LPG 知识图谱上的表示学习》。该文从知识图谱构建的几大常见方式如三元组、RDF、LPG等切入,通过对知识图谱三元组这一通用的标准范式的解析,指出其中对于实体认知的不足,引入RDF和LPG在知识图谱构建中的重要作用,尤其是在构建超关系知识图谱中的作用。

在本文中,我们将重温三元组在知识图谱构建中的结构范式,同时也将学到新概念—超图、超关系知识图谱以及超关系知识图谱的发展历程、超关系知识图谱编码、解码的全过程等等。原文(见阅读原文)翻译如下:

知识图谱(KGs)是现代自然语言处理和人工智能应用的基石——近期的成果包括问答、实体和关系链接、语言建模、信息提取,甚至用强化学习播放文本 RPG。此外,知识图谱已经在业界被广泛采用,例如,近期知识图谱会议(KGC)上的一系列成果:


三元组 vs 世界

传统上,KGs 被编码为(RDF)三元组,许多公开可用的 KGs,如 DBpedia 和 YAGO,最初遵循这种由表达逻辑形式支持的范式和标准,如RDF和OWL。

三重事实。爱因斯坦同时上了两所大学吗?图片源自作者。

使用三元组,上面描述阿尔伯特·爱因斯坦就读的大学的例子可以编码为两个三元组:

阿尔伯特·爱因斯坦在苏黎世联邦理工学院接受教育

阿尔伯特·爱因斯坦,苏黎世大学教育

嗯,对于简单的应用程序来说,这看起来还不错,但事实证明,我们的世界要把所有东西都分成三元组要复杂一点。例如,这两个三元组是否意味着阿尔伯特·爱因斯坦同时在这两个地方接受教育?或者他们授予他相同的学位?


事实上,爱因斯坦在苏黎世联邦理工学院获得了数学专业的学士学位,而在苏黎世大学获得了物理专业的博士学位。

我们能不能有一个更详细地表达事实的机制?

是的。在 KG 世界里,至少有两种方法可以做到这一点——RDF 图和标记属性图(LPG)。这两种方法都允许通过在KG中的边上附加辅助键值(关系实体)对来进一步实例化每个事实。这两种方法都已经得到了图形数据库市场上主要供应商的支持。 

在 LPG 世界中,节点和边缘都可以自然地具有键值属性。Neo4j可能是液化石油气家族中最大的名字。用户可以用(开放)密码查询液化石油气。最近的一个新冠肺炎 KG 可用作 Neo4j 转储。 

RDF 最初由 Olaf Hartig 提出(他的博客是研究 RDF 和相关技术的起点),旨在缓解臭名昭著的RDF 具体化机制的许多问题(查看弗雷等人的这项调查,了解具体化的全面概述),同时保留与 RDF 图相关的推理能力。在坚实的理论基础的支持下,RDF 提供了几种用更多细节丰富三元组的方法。你可以用 SPARQL(SPARQL 用于 RDF 的扩展)查询 RDF 图。Apache Jena、RDF4J、N3. js、Blazegraph、AnzoGgraph、StarDog 和 GraphDB 支持 RDF和 SPARQL。

我们在RDF语法中的示例可以是这样的:


超关系图还是超图?

对于这样的知识图谱来说,这是一个合适的术语吗?在罗索等人最近 工作中建议使用“超关系图”之前,词汇量有一点差距。尽管如此,“超图”这个术语还是有一个常见的误用,因此,我们也想提倡“超关系”图。 

这两个词汇主要区别在于事实的表示。超图假设有一个(命名的)超边缘统一了几个实体:


每个节点由 4 个节点组成。注意,我们丢失了与学术专业和学位相关的谓词。图像源自作者。

看起来像一个 n 元关系,对吗?  我们这里有几个问题:

1.我们失去了与 academic_degree 和 academic_major 分别与 Bachelor/Doctorate 和Mathematics/Physics 相关的类型化关系。相反,超边缘的类型是 educated_at、academic_degree 和academic_major的抽象(或相当奇怪的语义混合)。如果一个事实也包含一个辅助谓词academic_supervisor呢?我们需要定义一个新的超边缘,比如教育, 混合这些关系,这些关系随着谓词和限定词的数量呈指数级增长。

2.此外,我们也失去了学位和专业的辅助特征,即旨在描述它们的主要三元组。例如,学士和数学是阿尔伯特·爱因斯坦和苏黎世联邦理工学院的辅助,因此应该这样对待。超边缘中的实体元组假设其元素同等重要。也就是说,在接下来的部分中,我们将坚持超关系方法。


野蛮生长的超关系知识图谱

在 2020年,大多数开放域KG广泛使用超关系事实。维基数据及其维基数据语句模型是超关系知识图谱的一个很好的例子。维基数据中的每个事实都是一个带有主三重和一组辅助限定符-实体关系对的语句。有了维基数据语句,我们的阿尔伯特·爱因斯坦示例可以像以下这样简单地建模:

在这些陈述中,(academic_degree,学士)和(academic_major,数学)是三重<阿尔伯特·爱因斯坦,educated_at,苏黎世联邦理工学院>的限定词。重要的是要注意,维基数据(通常是超关系范式)不会在专门用于主要三元组或限定词的实体和谓词之间分开,即所有谓词和实体都可以用在三个术语或限定词中 (尽管在当前的维基数据版本中,有些实体和关系只能在限定符中看到)。我们将在下面的部分使用这个属性。

至于其他KG,从2018年开始,DBpedia的新版本包含类似于维基数据的具体化语句。YAGO 4也采用了RDF编码的事实。那么Freebase呢?嗯,在2020年,你可能不应该练习巫术 ,因为Freebase不再被支持或更新。然而,Freebase中的复合值类型(CVT)节点确实类似于三元的具体化[但看起来更像n元关系。


图表示学习

我们这里的任务是学习超关系图的表示。通过表示,我们引用实体(节点)和关系(类型化边缘)嵌入。这些嵌入可以用于下游任务,如链接预测、节点分类、实体对齐,以及更多可用于NLP、简历和其他人工智能领域的任务。


图表示学习(GRL)领域是机器学习发展最快的领域之一,有几篇文章【迈克尔·布朗斯坦的一系列文章,ICLR 20和NeurIPS 19论文的评论(我的,谢尔盖的),书籍(威廉·汉密尔顿的,马和唐的),课程(CS224W,COMP 766,ESE 680),甚至还有一个涵盖基本和高级主题的GraphML电报频道】。在编码器-解码器范式中,编码器通常是GNN(图神经网络),解码器是嵌入的函数,返回与特定下游任务相关的值或向量,例如,实体成为给定对的对象的概率。


基于三元体的知识图谱有什么?

编码器:一系列多关系GNN编码器,如R-GCN(Schlichtkrull et al,ESWC 2018)和CompGCN(Vashishth et al,ICLR 2020),它们在消息传递框架内扩展了原始图形卷积网络(GCN)算法。

解码器:实际上,传统的KG嵌入算法,如TransE、ConvE、RotatE等,是链路预测任务解码器的最佳示例。最初,它们也可以被训练成仅有解码器的模型,直接链路预测任务进行端到端优化。


超关系知识图谱有什么?

嗯,没那么多。(截至2020年秋季)

编码器:???

解码器:Rosso等人提出的HINGE是一个基于CNN的端到端模型,用于超关系图上的链接预测。嗯,我们无法应对GNN编码器部分如此明显的深渊,并在我们最近的EMNLP 20论文《超关系知识图的消息传递》中提出了StarE,该论文由Priyansh Trivedi、Gaurav Mahehwari、Ricardo Usbeck和Jens Lehmann共同撰写。StarE是一个多关系GNN编码器,它将CompGCN扩展到超关系KG。这个名字的灵感来自RDF StarE的设计考虑到了以下特点:


关系的显式建模,包括限定关系;

限定语中的辅助实体和关系与主三元组中的实体和关系的分离;

尽管如此,任何实体和任何关系仍然可以用于主三元组以及限定词;

限定词顺序的排列不变性——它们没有任何特定的顺序,可以自由地重新排列。也就是说,对于主要的三重<<阿尔伯特·爱因斯坦,在苏黎世联邦理工学院接受教育来说,(学位、学士)是在(学术专业、物理学)之前还是之后并不重要。



给数学爱好者的一些数学题

让我们追踪关系感知GNN编码器在其邻域聚合方案中的演变:

在StarE中,出现在节点u和v之间的主要三重关系h_r通过函数gammah_q的限定符聚合向量来增强 () 该函数可以是加权和、乘法、conat或任何其他二进制函数(我们选择加权和)。我们得到向量hq:

也就是说,我们首先通过组合函数将限定符关系和实体嵌入h_{qr}和h_{qv}分别汇集在一个向量中,这可能是KG嵌入家族的评分函数,例如RotatE。然后,我们应用置换不变聚合函数将任意数量的限定符汇集到一个向量中,最后通过转换矩阵将其投影W_q。由于所有实体和关系通常都可以在主三元组和限定符中看到,W_q旨在学习实体和关系的限定符特定表示。我们仍然保留CompGCN组件:phi_ () 是一个类似于phi_q的组合函数, 但是现在它合并了一个具有丰富边缘表示的节点。W_{\lambda}是传入、传出和自循环关系的权重参数。


超关系知识图谱的稀疏编码

为了提高效率,GNN对稀疏矩阵进行操作。 


可以以COO格式呈现为[2,num_edges]张量,并为边缘类型添加一行

带有限定符的超关系事实可以写如下:


前三个条目总是表示“主”三元组,随后的对是没有特定顺序的限定符(记住维基数据中的顺序不变性) 什么是超关系KG的稀疏表示,其中COO矩阵的每个“列”可能有任意数量的限定符?在这篇论文中,我们提出了以下编码:


也就是说,我们有两个 COO 矩阵:

带有隐式列索引k的普通“三重”COO

形状为[3,num_qualifiers]的“限定符”COO,其中第一行包含“三重”COO中列的索引,第二行包含限定符关系和第三限定符实体。索引行将一列限定符连接到主三重。也就是说,“限定符”COO中共享相同索引k的列属于“三重”COO矩阵中的第k个三重。这允许我们在内存中对KG中的限定符数量为O(q),并且总内存为O(|边|+|限定符|)。️


 

我们需要更多地讨论数据集

我们简要地谈到了将超关系事实编码为实体和关系序列。但是已经有可靠的数据集用于在这样的KG上进行实验了吗?传统上,KG嵌入是在链接预测任务上进行评估的,而图形ML任务包括节点分类、图形分类、实体匹配等等。到目前为止,只存在两个链接预测数据集:关等人提出的维基人——它是描述人的维基数据的转储,JF17K是Freebase的出口 。 然而,我们发现了它们的主要缺点:

WikiPeople有太多带有文字(年份)的限定词。不建议将文字作为另一种实体来对待,因为数字是连续的值,应该这样对待(嗯,这是KG嵌入文献中文字的一个普遍问题)。也就是说,在大多数情况下,这种限定词会被删除。这导致数据集中只有2%的事实有限定词,而80%的事实只有一个限定词对:/。

JF17K有测试集泄漏。事实上,作者自己发现了“大量冗余三元组”,不建议在实验中使用它。HINGE最初更多的是一个n元数据集,它将其转换成一个带有辅助谓词的超关系格式。我们进行了进一步的研究,发现超过40%的测试语句共享与训练集中相同的(s,r,o)主三元组。也就是说,在subject/object预测任务中,一个简单的三重启发式可以胜过我们在论文中展示所有以前的超关系方法。


由于这两个数据集都不适合评估超关系方法,我们根据以下指南从维基数据中采样了WD50K:


保留类似维基数据的限定符分布。在 vanilla WD50K中,大约13%的语句有限定符(接近维基数据中总语句的17%);

所有限定符都是实体关系对,没有文字;

实体和关系可以在主三元组和限定符中看到;

99%的语句最多有6个限定符对 对于进一步的实验,我们采样了3个额外的数据集:

WD50K(33) - 大约33%的语句有限定符;

WD50K(66) - 大约66%的语句有限定符;

WD50K(100) - 所有语句都有限定符 自然,这些数据集比原始的WD50K小,具有更多限定符唯一的实体和关系。


链接预测中的StarE

在这一步,我们终于有了一个StarE编码器和适合实验的链路预测数据集。我们的主要研究问题是:限定词是否有助于预测超关系事实的主体和客体?

用于链接预测的StarE+解码器。图像源自作者。

 

也就是说,给定主语、谓语和所有限定词,我们预测主语的对象,反之亦然。为此,我们将给定的事实线性化为序列,如图所示,并使用带有平均池和最终FC层的2层变压器作为解码器。变形金刚还允许我们使用填充标记馈送不同长度的序列,这些填充标记自我注意力计算中被屏蔽。为了进行比较,我们在同一任务中应用了仅解码器的HINGE和2层变压器来测量StarE编码器是否带来任何好处。事实证明确实如此!

我们观察:

与仅使用解码器的方法相比,StarE大大提高了链路预测性能;

当数据集中有更多的限定符时,StarE甚至更有效(性能差距更大);

超关系方法确实有助于更好地预测主题和对象,因为限定符只有三个基线。你需要多少个限定词才能看到质量的提高?只要2个就足够了

我们用特定数字和交互式图表的实验计划在这里用权重和偏差报告,所以给KG社区的总结是:

寻求为图中更多的三重事实分配描述性限定符——越多越好;

如果你分配限定符-添加2个或更多!


结论和资源

超关系图比普通的三元组更接近现实,更详细地描述事实

RDF和 LPG 提供了建立超关系知识图谱的手段

超关系图不同于超图

超关系知识图谱已经在使用——无论是在开放领域知识图谱还是在工业领域

RDF*驱动的StarE-用于超关系KG的GNN编码器,可以与用于下游任务的解码器配对

与仅解码器方法相比,StarE改进了链路预测

WD50K数据集系列更好地捕捉了超关系KG上链接预测的挑战 

你可能感兴趣的:(干货分享 | RDF 和 LPG 知识图谱上的表示学习)