笔记整理:陈鹏,天津大学硕士
链接:https://aclanthology.org/2023.acl-long.705.pdf
1. 动机
知识图谱(Knowledge Graph)是一种结构化的多关系数据,用于记录事件,描述实体间的相互关系。然而真实世界的事件是随时间不断发生变化的,实体和关系的语义也随之发生改变。因此,研究者们引入时序知识图谱(Temporal Knowledge Graph)来更真实地刻画现实世界的事件。时序知识图谱(Temporal Knowledge Graph,TKG)推理旨在根据历史数据预测未来事实。然而,由于构建工具和数据源的限制,TKG 可能会遗漏实体之间的许多重要关联。本文将这些缺失的关联称为隐含关系。现有的大多数方法在显式地捕捉同一时间片内共现实体之间的和不同时间片出现的实体之间的隐含关系方面存在缺陷。为了解决这些问题,本文提出了一种用于 TKG 推理的新型隐含关系学习方法,即 L2TKG。具体来说,本文首先利用结构编码器(Structural Encoder,SE)获取每个时间片的实体表示。然后,本文设计了一个隐含关系学习(Latent Relations Learning,LRL)模块来挖掘和利用时间片内和跨时间片的隐含关系。最后,本文从 SE 和 LRL 的输出中提取时序表示,用于实体预测。在四个数据集上进行的广泛实验证明了 L2TKG 的有效性。
2. 亮点
L2TKG的亮点主要包括:
(1) 本文强调并研究了在 TKG 推理中捕捉关键缺失关系的必要性。
(2) 本文将图结构学习引入 TKG 推理,并提出了一种新颖有效的隐含关系学习方法,以缓解 TKG 推理中的关系缺失问题。
3. 概念及模型
为了解决已有研究工作中存在的两个问题,提升时序知识图谱预测的准确性,本文提出了一种隐含关系学习模型L2TKG。L2TKG 的整体框架如图 1 所示。其中有三个主要组成部分:
(1) 结构编码器 (SE),利用现有的 TKG 结构捕捉每个时间戳中并发实体之间的语义依赖关系。
(2)隐含关系学习(LRL),用于挖掘和利用实体间关键的时间片内和跨时间片的隐含关系。
(3)时间表示学习:从 SE 和 LRL 的输出中提取每个实体的时间表示。
图1 L2TKG总体架构图
结构编码器 (SE)
在每个时间片内,有边相连的共现实体之间都存在很强的语义依赖关系。为了捕捉这些语义依赖关系,我们提出了一种基于关系图卷积神经网络的结构编码器,旨在获取每个实体在其出现的时间戳上的嵌入。结构编码器的形式化定义如下:
隐含关系学习(LRL)
在捕捉到每个时间片内共现实体之间的语义依赖关系后,本文引入了一个隐含关系学习模块,以识别和利用重要的缺失关联,包括实体间的时间片内隐含关系和跨时间片潜在关系。
(1)隐含关系图学习
本模块旨在挖掘TKG内实体的隐含关系,在此背景下,跨时间片的同一实体被视为两个独立的实体。当两个实体在知识图谱中高度关联时,它们很可能在语义上相似并且具有许多共同的特征或属性。本文假设高度关联的实体在嵌入空间中也有相似的表示。
本文利用余弦度量计算实体间的相似度,并且只计算在时序知识图谱序列中没有连接的实体对之间的相似性以减少计算量:
(2)时间片内隐含关系学习
为了学习时间片内的隐含关系,模型首先计算出现在同一时间但没有连接的任意两个实体之间的相似度:
为了保留重要的隐含关系并减少噪声干扰,模型对每个相似度矩阵进行基于KNN的稀疏化操作。对每个实体,只保留k个最相似的节点建立隐含关系:
(3)跨时间片隐含关系学习
与时间片内的隐含关系学习方法类似,模型首先计算出现在时刻tp的实体和出现在时刻tq的实体之间的相似度:
同样地,对矩阵进行稀疏化处理:
时序表示学习
除了不同类型关系的语义依赖外,实体的时间模式对于 TKG 推理也至关重要。对于 TKG 推理也至关重要。模型将隐含关系学习模块的输出表示输入到GRU网络来获得每个实体的全局时序表示:
局部时序表示反映了实体在最近较短时间的语义表示变化。本文主要参考RE-GCN的实现方式,基于结构编码器的输出,采用GRU模块来编码每个实体最近的m个输入来计算得到实体的局部时序表示:
模型采用了一个可学习的门控函数来自适应地将全局和局部的时序表示融合为一个统一的时序表示:
4. 实验
本文在四个具有代表性的TKG 数据集上进行评估(包括 ICEWS14、ICEWS18、ICEWS05-15 和 GDELT),并且和DisMult等主流时序知识图谱推理模型进行了性能对比,实验结果验证了方法的有效性。
图2 模型在四个代表性TKG数据集上的性能表现
为了进一步验证模型挖掘隐含关系的能力,本文通过不同比例的随机掩码构建了不同程度关系缺失的数据集,并在数据集上进行了训练和测试,实验结果如表3和表四所示。容易看出,随着掩码率的增加,所有模型的性能都有不同程度的下降。这是由于数据集中的历史关系逐渐减少,使得模型推理过程中可用的信息变少。尽管如此,L2TKG模型性能下降相对较少,在关系严重缺失的情况下仍能保持良好的性能。在图4中,L2TKG性能的相对性能提升逐渐增加。
图3 模型在不同掩码率的性能表现(MRR)
图4 L2TKG相对于TiRCN、RE-GCN在不同掩码率的性能提升
如图5所示,消融实验的结果验证了各模块的有效性。
图5 消融实验结果(MRR)
5. 总结
本文提出了一种对TKG进行推理的新方法 L2TKG。我们首先基于结构编码器获得每个历史实体的嵌入。然后,我们提出了一个精心设计的潜在关系学习模块,对两类潜在关系进行挖掘和编码,从而获得全面的实体嵌入。最后,我们从LRL 和SE的输出中提取实体的时间表示,进行最终预测。四个基准的实验结果和大量分析证明了L2TKG在TKG推理中的有效性和优越性。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。