Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion

摘要

人类组织的知识图为各种自然语言处理任务提供关键的支持信息,但这些图通常是不完整的,需要自动补全它们(也称为知识图补全)。流行的图嵌入方法,例如TransE,通过将图元素(即实体/关系)表示为密集嵌入并捕获它们与空间距离的三层关系来学习结构化知识。然而,它们很难推广到训练中从未访问过的元素,并且在本质上容易受到图不完整性的影响。相比之下,文本编码方法,例如KG-BERT,诉诸于图的三重文本和三层上下文化表示。它们具有足够的泛化性和对不完备性的鲁棒性,特别是当与预先训练的编码器相结合时。但是有两个主要的缺点限制了性能:(1)由于在推理中对所有可能的三元组进行昂贵的评分而导致的高开销;(2)文本编码器中缺乏结构化的知识。在本文中,我们遵循文本编码范式,并通过使用图嵌入技术(两种范式的互补混合)来改进它的缺陷。具体来说,我们像基于翻译的图嵌入方法一样,将每个三元组划分为两个非对称部分,并通过Siamese-style样式的文本编码器将这两个部分编码为上下文化表示。在此基础上,我们的模型分别采用确定性分类器和空间测量方法进行表示和结构学习。通过重用图元素的嵌入来避免组合爆炸,从而减少了开销,并通过探索空间特征来增强结构化知识。此外,我们开发了一种自适应集成方案,通过从现有的图嵌入模型中合并三重评分来进一步提高性能。在实验中,我们在三个基准测试和零样本数据集上实现了最先进的性能,用于链接预测,与复杂的文本编码方法相比,推断成本降低了1-2个数量级。

1.介绍

知识图(KG)是知识库(KB)中普遍存在的一种格式。它的结构是一个有向图,其顶点和边分别代表实体及其关系。它通常表示为一组三元组,形式为(头实体、关系、尾实体),或简称为(h、r、t)。知识基础作为辅助知识在自然语言处理(NLP)任务中发挥着重要作用,如对话系统[15]、信息检索[40]、推荐系统[46]等。然而,人工策划的知识图往往存在不完全性,这不可避免地限制了其实际应用。为了缓解这个问题,知识图补全(KGC)旨在预测知识图中缺失的三元组。本文针对KGC提出了目标链接预测任务,该任务的目标是在给定三元组中头(尾)和尾(头)的关系下,预测缺失的头(尾)。

值得注意的是,KG[2,30,36]的规模通常为数十亿,涉及的实体数量高达数百万,因此大多数在整个图上运行的图神经网络(如GCN[16])在计算上是不可扩展的。因此,KGC的方法通常在三元组层次上运行,可以分为两个范例,即图嵌入和文本编码方法。

图嵌入方法试图学习作为低维向量的图元素(即实体/关系)的表示,方法是探索KG中的结构化知识。通常,他们直接利用三个嵌入在一个三元组中的空间关系来学习结构化知识,结构化知识可以分为两个子类别。(1)基于翻译的方法,如TransE[3]和RotatE[31],通过对头部和关系的嵌入应用翻译函数,对一个三元的似是而非进行评分,然后测量得到的嵌入与尾部嵌入的接近程度,,(2)语义匹配方法,例如DistMult[44]和QuatE[47],通过直接作用于图三元的匹配函数推导出图三元的似是而非的可能性,尽管它们在结构学习上取得了成功,但完全忽略了上下文化的信息,因此存在以下缺点:(1)训练后的模型不适用于训练中看不到的实体/关系;(2)它们在本质上容易受到图不完备性的影响。这些缺点严重削弱了它们的泛化能力和预测质量。

文本编码方法,例如KG-BERT[45],使用三元组自然语言文本的上下文化表示来预测KGC的缺失部分。文本可以指实体和关系的文本内容(例如,它们的名称或描述)。结合预先训练的词嵌入[19,24]或语言模型[12,17],文本编码器可以很容易地推广到不可见的图元素,并且不容易出现图不完整的问题。然而,它们受到两个内在约束的限制:(1)将文本编码器应用于链接预测需要对所有可能的三元组进行昂贵的推理,导致组合爆炸;(2)文本编码器在结构学习方面能力不足,导致结构化知识的缺乏和实体歧义问题[10]。

Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion_第1张图片

这两种范式的实验也反映了各自的优缺点,如图1(左)所示,如图1(左)所示,当略大时,KG-BERT实现了较高的命中@(即Top-召回),但由于小由于实体模糊问题而失败,相比之下,RotatE实现了较高的Hits@1/@3,因为它纯粹从结构化知识中学习,而不涉及歧义问题。但由于缺乏文本上下文化的信息,它仍然表现不佳。在图1(右)中,尽管KG-BERT优于RotatE,但由于组合爆炸性,它需要更高的开销。

因此,将语境化知识和结构化知识整合到一个模型中是很自然的,而在以往的工作中,它们分别是通过文本编码范式和图嵌入范式实现的。为此,我们从具有较好泛化性的文本编码范式开始,然后致力于减轻其内在缺陷,即过度的开销和结构化知识的不足。具体来说,从基于翻译的图嵌入方法(如TransE)中获得灵感,我们首先将每个三元组划分为两个部分:一个包含头部和关系,另一个包含尾部。然后,通过对他们的文本应用Siamese-style的文本编码器,我们将每个部分编码为单独的上下文化表示。最后,我们以交互方式[26]的拼接两个表示形式,形成三重的最终表示形式,并在其上训练一个二进制神经分类器。同时,当我们用分离的部分对三元进行编码时,我们可以像翻译函数一样测量它们的空间关系[3,31],然后使用对比目标进行结构学习。

因此,一方面,我们的模型可以对不同的三元组重用相同的图元素的嵌入,以避免计算链接预测中所需的三元组的组合数量。另一方面,它还通过建模结构化知识来增强文本编码范式,而这对于与图相关的任务至关重要。此外,我们对链接预测的实证研究表明,引入这种结构化知识可以有效地减少假积极三元组预测,并有助于实体消除歧义。如图1所示,我们的模型在性能和效率方面都提高了KG-BERT基线,但是给定一个较小的(例如,≤2),性能并不是那么令人满意。基于此,我们提出了一种自适应集成方案,该方案将我们的模型的输出与现有的图嵌入模型(如RotatE)产生的三重分数结合起来。因此,我们可以受益于图嵌入和文本编码的优势。因此,如图1所示,我们的模型加上所提出的RotatE自适应集成,取得了更多的效果。我们的主要贡献是:

  1. 我们提出了一种文本编码和图嵌入范式的混合模型来学习情境化和结构化知识,以实现互惠互利: Siamese-style的文本编码器将图嵌入推广到看不见的实体/关系,同时通过结构学习增强它有助于实体消除歧义和高效率。
  2. 我们开发了一种自适应集成方案来合并图嵌入方法的分数,并提高性能。
  3. 我们在三个基准和一个零样本数据集上取得了最先进的结果;与最近的KG-BERT [45]相比,我们显示了显著的加速(FB15k-237[33]的6.5h比30d);我们对这两种范式进行了比较分析。

 2.背景

我们从KGC的链路预测任务的正式定义开始本节。然后,我们总结了预训练的掩模语言模型及其调优。最后,我们简要介绍了一种最新的文本编码方法KG-BERT[45]。

Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion_第2张图片

Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion_第3张图片 

 3.提出的方法

在本节中,我们首先详细介绍了结构感知三重编码器(§3.1)和结构增强三重评分模块(§3.2),它们组成了结构增强文本表示(StAR)模型,以处理KBC的链接预测(如图2所示)。我们在§3.3中提供了关于训练和推理的细节,例如训练目标和效率。然后,我们在§3.4中开发了一种自适应集成方案,以充分利用现有的图嵌入方法并提高性能。最后,在§3.5中,我们对我们的模型和之前的基于文本的图相关任务方法进行了比较分析。

3.1结构感知三重编码

在本小节中,我们的目标是在潜在语义空间中将一个图三元组编码为向量表示,并考虑到后续的结构学习和推断的加速。这些表示类似于图嵌入,可以被输入到任何下游目标特定模块中,以实现三重评分。

最近,为了加速信息检索(IR)任务中基于深度transformer的模型[12,35]的推理,Reimers和Gurevych[26]采用了双分支Siamese体系结构[9],通过分别对查询和候选进行编码来绕过成对输入。这可以预先计算所有候选人的表示,并使用轻量级匹配网络[26]来计算相关度。我们利用这个灵感来链接预测以避免组合爆炸,但出现了几个开放的问题:(1)如何在三元组中跨实体和关系保存上下文化的知识;(2)如何将Siamese结构应用于三构件的三元结构中;(3)如何促进下游模块的结构学习。

这些问题可以通过消化基于翻译的图嵌入方法中的一些技术来解决,例如TransE[3]和RotatE[31]。这些技术包括将翻译函数应用于头部和关系的嵌入,以及通过探索函数输出和尾部嵌入之间的空间关系(例如,距离)来进行结构学习。

 

5.相关工作

用于链路预测的结构学习

以往的图嵌入方法都是通过在低维向量空间中的空间度量或潜在匹配来探索结构化知识的。具体来说,一方面,基于平移的图嵌入方法[3,31]将平移函数应用于头部和关系,并通过空间测量将结果与尾部进行比较。最著名的一个TransE [3],分别实现了使用实向量加法和2范数的函数和测量——,然而,在实向量空间中定义的图嵌入很难处理对称关系模式,因此表现不佳。为了解决这个问题,RotatE[31]定义了复向量空间中的图嵌入,并实现了平移函数,每个维度产生两个复数。另一方面,语义匹配图嵌入方法[1,44,47]使用匹配函数对整个三元组进行运算,直接得出其可信度得分。例如,DistMult[44]对每个三元组的组成部分应用双线性函数,并使用向量空间中的潜在相似度作为可信性评分。尽管它们取得了成功,但完全忽略了富文本上下文化知识,导致泛化能力下降。

文本表示学习

在NLP文献中,文本表示学习是任何NLP任务的基础,其目的是生成嵌入情境化知识的表达强大的文本[12,25]。当应用于KGC时,一些方法[28,29]直接将图形嵌入替换为文本嵌入。例如,Socher等[29]简单地使用连续的CBOW作为三重分量的表示,然后提出了一种用于关系分类的神经张量网络。ConMask[28]学习基于完全CNN的实体名称和描述部分的关系依赖实体嵌入。这些方法没有竞争性,因为没有利用三元组的深度上下文化表示。相反,KG-BERT[45]作为一种文本编码方法,将预先训练的编码器应用于三元组文本的连接,以实现深度上下文化表示。这样一个简单的方法是非常有效的,但不幸的是,遭受了高管理费用。

联合学习方法

不同于上述单独学习任何一种知识的方法,一些作品探索了文本和结构化知识的联合学习。详情请参见§3.5结尾。例如,考虑到大规模语料库中文本关系中子结构的共享,Toutanova等人[33]将CNN应用于文本关系的词汇化依赖路径,用于增强关系表示。Xie等[39]提出了一种通过嵌入实体描述的KGs表示学习方法,并在CBOW之外探索了CNN编码器。他们使用这种表示和图嵌入的目标,即头部和关系的向量积分接近尾部的向量来学习模型,如基于翻译的图嵌入方法[3]。相比之下,我们的工作只处理同质文本数据,并使用实体/关系本身的上下文(即仅它们自己的文本内容或描述),而不是从大规模语料库中获取文本知识(如Toutanova等人[33]的文本关系),通过联合嵌入来丰富传统的图嵌入。

6.总结

在本研究中,我们提出了一个结构增强文本表示(StAR)模型来处理知识图补全的链接预测任务。受设计用于结构学习的基于翻译的图嵌入的启发,我们首先将一个Siamese-style样式的文本编码器应用到一个用于两个上下文化表示的三元组。然后,基于这两种表示,我们提出了一个评分模块,在该模块中使用两种并行的评分策略来学习上下文化和结构化的知识。此外,我们提出了一种基于图嵌入方法的自适应集成方案,进一步提高了性能。实证评估和对几个主流基准的深入分析表明,我们的方法实现了最先进的性能和高效率。

你可能感兴趣的:(知识图谱的多元动态补全,知识图谱,人工智能)