原文:https://arxiv.org/pdf/2201.08236.pdf
TKGC方法可以学习KGC方法未能捕获的知识图的动态演化。本文详细介绍TKGC的背景,包括问题定义、基准数据集和评估指标。然后,根据如何使用事实的时间戳来捕获时间动态来总结现有的TKGC方法。最后,对全文进行了总结,并提出了今后的研究方向。
TKGC的关键挑战是如何有效地将时间戳集成到模型中,以便能够恰当地捕获实体、关系和底层图的时间动态,并将其用于链接预测。
本文的主要贡献如下:1)提出了一种基于事实时间戳的链接预测方法分类。2)详细分析了现有的TKGC方法,总结了常用的基准数据集和通用的评估协议。3)讨论了现有TKGC方法的局限性,并提出了今后TKGC的研究方向。
知识图是包含结构化事实的有向多关系图。事实由两个实体、一个连接实体的关系和一个时间戳组成。除非另有说明,否则我们将时间戳视为其余内容中的时间点。
一个事实评分函数q(s)被用来衡量一个训练事实的正确性。负采样通过随机破坏真实事实创建负样本s’,这被TKGC方法广泛用于提高学习表征的表达性。损失函数的目标是对所有事实及其负样本,共同最小化q(s)和最大化q(s’)。总结了三种不同的损失通常采用TKGC方法。
为了保证事实与其对应的负样本之间有较大的得分差距,采用边际排名损失,其定义如下:
[x]+ = max(x, 0)和γ是一个超参数,用于调节预期的分数差的大小。
交叉熵损失也旨在获得事实和负样本之间较大的分离差距,但它并没有对所有事实强制规定固定的评分范围:
二元交叉熵损失强调个体事实和负样本的得分如下:
其中x∈D y = 1,否则y = 0。这种简便的计算使得二元交叉熵损失有利于基于神经网络的TKGC方法。
Hits@k
Mean Ranking (MR)
Mean Reciprocal Ranking(MRR)
在实体预测的基础上,有些研究进一步引入了关系预测和时间预测。
目前的研究界主要关注于使用在数据集中有时间戳的查询来评估TKGC模型;然而,一个越来越大的挑战是使用看不见的时间戳进行进一步评估。看不见的时间戳可以分为两种类型,即未来时间戳和失踪时间戳。未来的时间戳旨在度量样本外预测的有效性,而缺失的时间戳则更多地关注于知识归因。
TransE的评分函数 q(h, r, t) = ||eh + er−et||,将r视为h和t之间的转换。
许多TKGC方法都建立在现有KGC方法的基础上,主要的挑战是设计有效的策略,将时间戳合并到事实评分函数中。本文分析了基于不同时间戳集成策略的现有TKGC方法。
张量分解是有效的方法,加权轻且易于训练。知识图可以看作一个三维的邻接矩阵,也就是三个二元张量。这三个张量分别表示头实体,关系和尾实体。实体和关系的表示是通过将张量分解成低维矩阵来学习的。考虑到时间戳是张量的另一种模态(知识图变成了四向张量),这些张量分解方法自然可以扩展到TKGC,学习时间戳的低维表示用于分数测量。本文总结了基于不同张量分解技术的相关TKGC方法。
CP分解
Tucker分解
许多TKGC方法将时间戳视为一种转换,以学习与特定时间相对应的实体和关系表示。
合成时间关系
若可以将TKG的四元组变为KG的三元组,就可以很方便的利用现有的KGC模型,一种简单的方法是通过将关系与时间戳连接来创建合成的依赖于时间的关系。例如:{湖人,冠军,NBA,2010}转换成(冠军:2021)则这个例子变成了{湖人,冠军:2021,NBA}
q(s) = ||eh + u(r,τ)−et||,其中u(r, τ)为融合函数。三个基本融合函数er:τ, er + eτ和pτer (pτ∈(0,1)是一个可学习系数)的,实验结果表明u(r,τ) = er + eτ预测性能最好。不同事实的时间间隔可能会重叠,例如2010-2014和2012-2016,为解决这个问题,提出了通过分割(Splitting)或合并(M erging )现有时间间隔来连接关系的最佳时间戳。Splitting通过在时间序列上采用变化点检测(change-point-detection (CPD) )来分隔时间间隔,表示关系的变化;若事实相同,Merging 迭代合并时间间隔。
有文章将关系和时间戳串联成一个标记序列,例如:{championships of, 2y, 0y, 1y, 0y},LSTM可以处理不同长度的序列,该方法的优势是可以适应不同格式的时间戳。
时间的单位可能不同,有以年为单位,有天为单位,对时间戳关系序列采用多头自注意的方法获得综合关系的表示。
线性变换
时间戳被视为可以将实体关系映射到相应表示的线性变换。具体来说,有2018年文章将时间戳视为超平面,将时间空间分隔成离散的时区。与时区相对应的实体/关系表示由超平面的投影获得。对于时间戳τ,超平面定义为wτ∈Rd,且||wτ|| = 1。τ的投影函数定义为P(e) = e−wTτ ewτ,其中e为实体或关系的静态表示。事实分数是用投影表示来计算的,即q(s) = ||P(eh) + P(er) - P(et)||。为了提高对多关系事实的表达能力,2019年文章包括了一个额外的关系矩阵,在超平面投影之前,将实体映射为特定关系。此外,2020年文章在超平面序列上采用GRU ,2014年文章进一步捕捉超平面之间的动力学。
除超平面外,2020年文章将实体的变换视为复杂空间中的线性旋转。即,ehτ = eh◦eτ和etτ = et◦eτ,其中◦是复空间中的厄密积。然后,将该关系视为旋转头部实体与尾实体的共轭的平移,即q(s) = kehτ + er−¯etτ k。为了实现任意时间精度,[Leblay等人,2020]首先将时间戳编码为一个热向量;向量中的不同区域代表不同的时间分辨率,例如,世纪或天。时间戳的一个热向量对应于一系列线性变换矩阵,这些矩阵用于将实体/关系映射为依赖于时间的。
依赖于时间的表示被期望表现出实体和关系的含义和背景随时间的变化。值得注意的是,实体/关系沿时间轴的表示不是独立的,而是通常遵循特定的动态演化模式。例如,一个人的生命周期只能是出生→工作→死亡,而且是不可逆的。动态嵌入方法的目标是通过在学习的表示中编码动态来捕获这些进化模式。
表示为时间戳函数
为了表示实体/关系的动态演化,一种直观的方法是将表示开发为时间戳函数,它表示不同类型的动态模式。[Xu et al., 2020b]将实体和关系的表示形式视为时间序列,时间序列可以分解为三个分量,即e = estatic + trend(τ) +seasonal(τ) + N . estatic。static是表示实体/关系静态特征的不变分量,trend(τ)和seasonal(τ)(以τ为输入参数)分别表示趋势和季节特征,N是上瘾随机噪声。[Han等人,2020a]开发了一个类似的模型,该模型采用静态分量和时变分量表示;而是在双曲空间中定义的。双曲空间可以比欧几里德空间更灵活地表达图结构数据的几何结构。因此,实体和关系之间的相互作用被定义为黎曼流形的乘积。表示法的时变分量代表实体的动态演化,被看作是流形上的运动;也就是切线空间中的速度矢量。受历时词嵌入的启发,[Goel等人,2020]提出了实体和关系的历时词嵌入。在这个设置中,表示被分为静态段和时变段。同样,静态段表示时不变特征,而时变段是一个以时间戳作为输入的神经元。历时性嵌入是模型不可知的,可以方便地吸收相关领域知识,提高预测精度。
表示为RNN的隐藏状态
RNN能自适应的学习实体和关系的动态演化。。[Trivedi等人,2017]将事实的发生建模为一个多维时间点过程,它代表了多个动态事件的复杂协同进化。该模型使用一个条件强度函数(该函数被实现为实体/关系表示测量的事实分数),以根据先前发生的事实推断下一个事实发生的时间。同时,学习事实在τ处的头部实体和尾部实体的表示,分别作为两个独立rnn的输出。两个rnn的输入都包括在τ之前出现的头尾实体的串联,目的是捕获它们随时间的动态共同进化模式。类似地,[Wu等人,2020]采用了实现多跳消息传递的结构编码器和时序编码器,如GRU或自注意[V aswani等人,2017]。结构编码器在每个时间戳学习实体的结构依赖关系,并将输出进一步馈入时间编码器以与时间动态集成。捕获这两种信息的隐藏状态被采用为动态实体表示。该模型进一步处理了时间的异质性,即实体出现的稀疏性和可变性,通过数据imputation(对于不活跃的实体)和基于频率的门控。
原始知识图可以看作是一系列知识图快照/子图,每个子图只包含用相应的时间戳标记的事实。通过这种方式,知识图成为具有不同关系链接的时间演化子图。连接预测问题是通过推断实体和关系之间的多关系的相互作用来实现的。
马尔可夫过程模型
,[Xul.2021b]将知识图的状态按照一阶马尔可夫过程随时间演化。即知识图快照的状态依赖于它的前一个快照,通过一个概率转移矩阵,即Sτ +1 = Sτ·Pτ。Sτ表示Gτ的状态,并被定义为实体/关系表示和可学习状态参数的组合。模型训练以递归更新的方式实现,静态嵌入被用作有效的初始化。与确定性方法相比,[Liao.2021]采用基于变分贝叶斯推理的概率实体表示方法[Kingma and Welling, 2013],联合建模实体特征和不确定性。表示被定义为高斯分布,具有可学习的均值和方差。模型中的生成过程定义为条件概率p(Gτ |Eτ, Rτ)。对于p(E τ |E<τ)) = p(E τ |Eτ−1)的实体采用一阶马尔可夫规则。不同时间戳上的关系被认为是独立的,因为它们通常表示数据集中时间不敏感的动作。因此,联合概率可简化为p(G≤τ,E≤τ,R≤τ) =累乘i从1到T{ p(Gi|Ei, Ri)p(Ei|Ei−1)p(Ri)}。该模型学习的表达进化模式在离线和在线场景下都是有效的。
自回归模型
[Jin2019]采用自回归的方式对事实的动态演化进行建模,即属于Gτ的事实的生成依赖于Gτ−m:τ−1,其中m为自回归的阶数。除了承载图结构的Gτ−m:τ−1之外,生成过程进一步通过多关系图聚合器递归地整合事实的局部多跳邻接信息。除了图结构外,[Li2021b]在每个图快照上使用多层GCN [Kipf和Welling, 2016]来捕获并发事实的依赖关系。采用门循环分量,有效地从历史事实中学习长期的时间模式,同时也缓解了梯度的消失。此外,实体的静态属性(例如,类型)被用作约束来进一步细化学习到的表示。与离散演化过程不同,[Han2021]采用连续时间嵌入对历史知识图快照的时间和结构信息进行编码。结构信息通过多关系图卷积层捕获,动态演化通过神经常微分方程(NODES)学习[Chen2018]。考虑到许多事实在两个相邻的时间戳之间不发生变化时就不具有信息性,因此在模型中进一步包含了一个图过渡层,以强调在两个知识图快照之间无约束或无形式的事实。
知识图中事实的时间顺序由时间戳的可用性来揭示。这可以通过查询的历史上下文来预测缺失的链接。通常,查询之前发生的和与查询相关的事实被视为它们的历史上下文。我们观察到现有的方法使用不同的视角来解释查询和它的历史上下文之间的关联,以进行链接预测。
Attention-based Relevance
试图有选择性地集中在几个重要方面的注意机制可以自动捕捉到事实的相关性。沿着这条线,[Han2020b]实现了一个推理过程,作为一个依赖于查询的推理子图的扩展。推理子图通过采样邻近的历史事实(共享同一个头实体)迭代扩展。根据边缘注意分数展开查询的兴趣,边缘注意分数是通过使用时间关系图注意层从历史事实传递消息来计算的。将最终的推理子图视为预测结果的可解释推理路径。为了更好地学习事实的长期依赖性,[Jung等人,2021]开发了一种基于路径的多跳推理过程,通过知识图上的边缘传播注意力(注意流[Xu等人,2018])。因此,推断的注意分布被用来作为预测的自然解释。具体来说,他们认为历史事实和查询之间的时间位移比确切的时间戳更有指示性;例如,对于标记为“14/01/2021”的查询,“2天前”比“12/01/2021”更明确。因此,该模型捕获了两种不同粒度的位移,即时间位移的符号(过去、现在和未来)和位移的精确大小。在推理过程中,采用了包含时间位移的两阶段GNN,从而捕获了与查询相关的实体和关系的结构特征。
Heuristic-based Relevance
另一种观点是在历史事实的相关性度量过程中采用外部/领域知识作为启发式或指导方针。具体来说,[Bai等人,2021]引入了两种预定义的倾向分数(亲和度)来组织历史事实进行链接预测。善意衡量关系的敌对程度,例如,制裁比合作更敌对,而亲密则衡量两个实体的合作程度。然后,根据趋势得分汇总历史事实,从而使用更多相关线索进行预测。进一步对每个时间戳汇总的历史事实采用GRU来学习动态推理过程。[Zhu et al., 2021]观察到历史经常在知识图数据集中重复;例如,他们报告说,1995年至2019年ICEWS存储库记录的事件中,80%以上以前发生过。在此基础上,将模型分为复制和生成两种推理模式。Copy模式学习查询是相关历史事实重复的概率。生成模式通过线性分类器学习所有可能的候选对象作为预测的概率。这两种模式的输出被聚合为最终的预测。
本文首先介绍了TKGC的背景,并总结了基准数据集和用于评估的一般精度指标。然后,分析了现有的基于知识图事实时间戳的TKGC方法是如何用于学习链接预测的时间动态的。此外,考虑到现有方法的局限性,试图指出未来TKGC研究的几个有前景的方向。
预测精度方面仍有很大的提高空间,特别是在GDELT数据集上。与数据集相关的许多方面限制了性能;例如,事实的不平衡分布,这导致实体和关系的长尾结构[Mirtaheri等人,2020]。一种可能的解决方案是在模型学习过程中吸收外部知识来丰富有限的结构/时间信息。例如,关系领域知识(如,parentOf是childOf的倒置)[Goel等人,2020]使很少发生的关系能够从其他相关关系中学习;实体类型通过将语义背景与实体联系起来,有助于更逼真的表示学习[Li等人,2021b]。此外,实体/关系的语义(如名称)在很大程度上被现有方法所忽略。通过采用预训练的语言模型(如Bert [Devlin et al., 2018])来利用它们,可以丰富知识图的有限信息,并为链接预测带来外部见解。
负抽样通过生成与知识图中的真实事实相对照的负样本,帮助实体和关系的有效表示学习。生成有区别的负样本至关重要,因为如果不这样做,可能很难改进模型,甚至会导致梯度消失[Zhang et al., 2019]。虽然负采样是KGC的一个活跃的研究领域(例如,生成式对抗网络[Cai and Wang, 2018]),但在TKGC场景中很少探索。由于额外的时间维度,TKGC的负采样可能更具挑战性,这需要适当地处理事实和时间戳之间的复杂交互。
与用于评估TKGC方法的数据集相比,现实生活中的知识图要大得多,常常包含数十亿个事实。不幸的是,使用当前的基准数据集训练TKGC模型已经相当痛苦(需要数小时到数天);这使得将它们应用到现实生活中的知识图表上变得不可思议。为了提高效率,需要研究在不显著影响链接预测精度的情况下执行多节点计算资源的分布式模型,这带来了诸如最优数据集划分和分布式计算(考虑时间戳)等挑战。同时,现有方法的参数大小很大,因为每个实体/关系都需要学习唯一的嵌入。然而,考虑到实体/关系具有许多相似的特征,开发组合嵌入[Yu et al., 2014]将实体/关系表示为一个小得多的显式/隐式共享特征组的组合是很有前途的。
虽然现有的大多数方法都是在一个不变的数据集上执行TKGC,但现实生活中的知识图是不断进化的,通过删除错误的事实和包含新的事实。通过这种方式,知识图将不断更新实体、关系和时间戳集。为了避免在每次知识图更新时从头开始训练一个新模型,TKGC应该被视为一个增量或持续学习问题。前沿研究试图通过经验回放和知识蒸馏来解决流场景中的灾难性遗忘问题[Wu等人,2021],并取得了与基线相比的结果。未来,可以进一步研究TKGC的其他持续学习技术,如正则化和渐进式神经网络[Delange2021]。