论文标题: CAKE: Scalable Commonsense-Aware Framework For Multi-View Knowledge Graph Completion
论文会议: ACL 2022
论文地址: https://arxiv.org/pdf/2202.13785.pdf
知识图不可避免地存储了大量的事实三元组,但它们仍然是不完整的。以往的知识图补全(KGC)模型仅依靠事实视图数据来预测实体之间缺失的链接,而忽略了有价值的常识知识。以往的知识图嵌入技术存在负采样无效和"事实-观点"链接预测的不确定性等问题,限制了知识图嵌入技术的性能。为了解决上述挑战,我们提出了一个新的、可扩展的常识感知知识嵌入(CAKE)框架,以自动从具有实体概念的事实三元组中提取常识。产生的常识增强了有效的自我监督,以促进高质量的负采样(NS)和联合常识和"事实-观点"链接预测。在KGC任务上的实验结果表明,我们的框架可以提高原有KGE模型的性能,并且所提出的常识感知NS模块优于其他NS技术。此外,我们提出的框架可以很容易地适应各种KGE模型,并解释预测结果。
近年来,Freebase、DBpedia和NELL等KG已广泛应用于许多知识密集型应用,包括问答、对话系统和推荐系统。然而,手工或自动构造的KG不可避免地是不完整的,需要KGC推断新的事实。
以前的KGC模型可以分为三类:
在现有的KGC模型中,KGE方法实现了更高的效率和更好的性能。具体而言,基于KGE的KGC管道方法可分为两个阶段:(1)训练时学习KGE,(2)推理时的链接预测。其中,KGE依赖于负采样的基本过程。链接预测的目的是利用学习到的KG嵌入对候选三元组的分数进行排序,从而推断出三元组中缺失的实体或关系。
然而,这两个独立的阶段都有缺点:
无效负采样:所有之前的NS无法同时避免采样错误的负类三元组和低质量负类三元组。例如,给定正的三元组,如图所示,现有的NS策略可能会对损坏的三元组进行采样,这实际上是一个被忽略的正类三元组,即假负类三元组。另一方面,一些生成的负类三元组的质量太差,对于训练KGE模型没有什么意义。
"事实-观点"链接预测的不确定性:由于KG嵌入相对于符号表示的偏差,限制了KGC的准确性,仅仅根据以数据驱动方式为基础的事实进行链接预测存在不确定性。以图中的尾部实体预测(David,N个国家,?)为例。从常识的观点来看,正确的尾部实体应该属于“国家”这个概念。然而,通过计算候选KG嵌入的三元组的置信度,与常识不一致的实体California甚至排名最高。
最后不能不提,尽管一些KGE方法利用了外部信息,包括实体类型、文本描述和实体图像。这样的辅助信息并不能提供常识的语义,它是很难获得并增强实体单一表示的。然而,有价值的常识总是通过昂贵的手工标注获得的,它的高成本导致相对较低的覆盖率。此外,现有的大型常识KG(如ConceptNet)只包含概念,没有到相应实体的链接,这导致它们不适用于KGC任务。
为了应对上述挑战,我们提出了一个新颖且可扩展的常识感知知识嵌入(CAKE)框架,以改进KGE训练中的负采样,并通过常识的自我监督提高KGC的性能。具体来说,我们尝试通过实例抽象技术自动构建明确的常识。然后,与随机采样相反,我们利用常识和复杂关系的特点,有目的地生成高质量的负类三元组。此外,还进行了多视图链接预测,以确定属于常识视图中正确概念的候选实体,并从事实的角度预测学习到的KG嵌入的答案实体。总之,我们工作的贡献有三方面:
现有的KGC模型可分为三大类:
与当前的其他KGC方法相比,KGE上实现了更高的效率和更好的性能。然而,嵌入的天然不确定性限制了仅依靠事实的KGC的正确率。更具体地说,模型通常需要一个初始的负采样程序,随机或有目的地采样一些在KG中没有观察到的三元组并作为负类三元组,然后把它们用于训练。
遵循局部封闭世界假设(一种处理含否定词的演绎数据库查询语句的方法。可抽象成如下非单调推理机制:在封闭世界中若不知道某命题是否为真,则认定此命题为假),现有的负采样(NS)技术可分为五类:
然而,所有先前的NS算法都不能解决假负类三元组的问题,因为这些NS技术(除了无采样方法之外)都将试图以更高的概率对损坏的三元组进行采样,而它们可能是正确的,只是在KG中缺失了。
基于领域的负采样严重依赖于单一类型的约束,而不是常识,这限制了负类三元组的多样性。KBGAN在负采样框架中引入了生成对抗网络(GAN),使得原始模型更加复杂和难以训练。无采样消除了负类三元组,并且必须将每个原始KGE模型都转换成平方损失,这削弱了KGE模型的性能。负采样策略的这些缺点降低了KGE的训练水平,进一步限制了KGC的表现。
与事实三元组不同,常识可以为知识体系注入丰富的抽象知识。然而,由于手工标注成本高昂,有价值的常识很难获得。近年来,许多研究试图构建通用的常识图,如ConceptNet、Microsoft Concept Graph和ATOMIC。然而,这些常识性图只包含概念,而没有到相应实体的链接,这导致它们不适用于KGC任务。另一方面,虽然一些KGE模型(如JOIE)采用了大多数KGs内置的本体(如NELL和DBpedia),但本体中的关系如isA、partOf和relatedTo主要代表类型层次而不是明确的常识。这种关系对于KGC是无用的,因为本体关系和事实关系之间很少有重叠。
图2: CAKE框架概述。
橙色的点表示实体。绿色的点表示实体概念。
在CANS模块中, r 1 − 1 , r 1 − N , r N − 1 和 r N − N r_{1−1},r_{1−N}, r_{N−1}和r_{N−N} r1−1,r1−N,rN−1和rN−N分别表示1-1,1-N, N-1和N-N的各种复杂关系。
c h i j c^j_{hi} chij和 c t i j c^j_{ti} ctij表示第i个头概念和尾概念,它们是根据常识和特定于第j个关系的复杂关系的特征所选择的。
在本节中,我们将介绍我们最新的可扩展框架CAKE。如图2所示,整个管道由三个开发的模块组成: 自动常识生成(ACG)、常识感知负采样(CANS)模块和多视图链接预测(MVLP)模块。
由于在理解高级语义方面的成功应用,常识获得了广泛的吸引力。高级语义通常在一些著名的常识图中表示为概念及其本体关系,如ConceptNet和Microsoft Concept Graph。值得注意的是,我们将常识扩展为两种形式:个体形式 C 1 C_1 C1和集合形式 C 2 C_2 C2。
C 1 C_1 C1和 C 2 C_2 C2都是三元组的集合,而 C 1 C_1 C1中的每个三元组都是由头实体的概念 c h c_h ch和尾实体的概念 c t c_t ct与它们的实例级关系 r r r相关联构成的,可以写成:
C 1 = ( c h , r , c t ) (1) C_1={(c_h,r,c_t)}\tag{1} C1=(ch,r,ct)(1)
相反, C 2 C_2 C2中的每个三元组由一个关系 r r r组成,连接相应的头概念集 C h C_h Ch和尾概念集 C t C_t Ct,表示为:
C 2 = ( C h , r , C t ) (2) C_2={(C_h,r,C_t)}\tag{2} C2=(Ch,r,Ct)(2)
常识生成的详细描述在3.2节中介绍。
由于CAKE是独立于KGE模型的可伸缩框架,所以我们可以利用任何KGE模型来学习实体和关系嵌入。因此,我们定义了一个统一符号 E ( h , r , t ) E(h,r,t) E(h,r,t)来表示任意KEG模型的评价函数,以便评估三元组 ( h , r , t ) (h,r,t) (h,r,t)的置信度。更具体地说,三种最典型的评价函数模式如下:
按照大多数之前的KGC模型,我们将链路预测视为一个实体预测任务。给定一个缺少实体(h,r,?)或(?,r,t),链接预测将每个实体作为候选。该算法利用学习到的KGE和评价函数计算出每个候选对象的置信度分数。然后,我们根据候选实体的分数对它们进行排名,并输出前n个实体作为结果。
根据3.1.1节中定义的常识表示,我们的方法理论上可以从任何KG自动生成常识,只要KG中存在一些链接到实体上的概念。
具体地说,我们开发了一个“实体到概念”的转换器,将每个事实三元组中的实体替换为相应的概念。同时,常识上的关系包含事实KGs中的实例级关系。以图2为例,事实三元组 (David,Nationality,USA) 可以转换为概念级三元组 (Person,Nationality,Country) 。特别是,个体形式 C 1 C_1 C1中的常识是通过消除重复的概念级三元组来实现的。然后,我们将包含相同关系的概念级三元组合并到集合中,以便用集合形式 C 2 C_2 C2构造常识。
图2: CAKE框架概述:事实KG -> 自动常识生成 -> 常识感知负采样 -> 多视图链路预测
橙色的点表示实体。绿色的点表示实体概念。
在CANS模块中, r 1 − 1 , r 1 − N , r N − 1 和 r N − N r_{1−1},r_{1−N}, r_{N−1}和r_{N−N} r1−1,r1−N,rN−1和rN−N分别表示1-1,1-N, N-1和N-N的各种复杂关系。
c h i j c^j_{hi} chij和 c t i j c^j_{ti} ctij表示第i个头概念和尾概念,它们是根据常识和特定于第j个关系的复杂关系的特征所选择的。
直觉上,满足常识的负类三元组更难与正类三元组区分开来,从而产生更有效的训练信号。因此,我们尝试对符合常识的负类三元组进行采样。
为了减少假负类三元组,我们利用TransH中定义的复杂关系的特征,即利用1-1、1-N、N-1和N-N进行负采样,其中1表示当给定关系和另一个实体时,实体是唯一的,相反,N表示在这种情况下可能存在多个实体(即非唯一实体)。基于这一观察,提出了两种具体的抽样策略:
在头实体的选择(即非唯一采样)中,权重与(1-概率)成正比; 在尾实体的选择(即唯一采样)中,权重与概率成正比
图3:常识感知负采样(CANS)模块生成包含N-1关系的高质量负类三元组的示例。
为了更好地理解,图3显示了一个生成具有N-1关系的高质量负三元组的示例。整个NS过程可以分为两个步骤:
w ( h j ′ , r , t ) = 1 − p ( ( h j ′ , r , t ) ∣ { ( h i , r i , t i ) } ) = 1 − e x p α E ( h j ′ , r , t ) ∑ i e x p α E ( h i ′ , r , t ) (6) \begin{aligned} w(h_j^{'},r,t)&=1-p((h_j^{'},r,t)|\lbrace(h_i,r_i,t_i)\rbrace)\\ &=1-\frac{expαE(h_j^{'},r,t)}{\sum_i{expαE(h_i^{'},r,t)}} \end{aligned}\tag{6} w(hj′,r,t)=1−p((hj′,r,t)∣{(hi,ri,ti)})=1−∑iexpαE(hi′,r,t)expαE(hj′,r,t)(6)
w ( h , r , t j ′ ) = p ( ( h , r , t j ′ ) ∣ { ( h i , r i , t i ) } ) = e x p α E ( h , r , t j ′ ) ∑ i e x p α E ( h , r , t i ′ ) (7) \begin{aligned} w(h,r,t_j^{'})&=p((h,r,t_j^{'})|\lbrace(h_i,r_i,t_i)\rbrace)\\ &=\frac{expαE(h,r,t_j^{'})}{\sum_i{expαE(h,r,t_i^{'})}} \end{aligned}\tag{7} w(h,r,tj′)=p((h,r,tj′)∣{(hi,ri,ti)})=∑iexpαE(h,r,ti′)expαE(h,r,tj′)(7)
其中 h i ′ h_i^{'} hi′和 t i ′ t_i^{'} ti′分别是通过非唯一采样和唯一采样得到的被破坏的头实体和尾实体。w和p分别表示负三重的权重和概率。α为自对抗采样所激发的采样温度。
值得注意的是,考虑到概率较高的三元组更有可能是正类三元组,包含被破坏的头部实体的负类三元组的权重按照等式6定义,以防止假负类的问题。此外,包含有较高概率被破坏的尾实体的负类三元组被赋予了较高质量负类三元组的权值,这是因为它们不太可能存在假负类问题。因此,选择具有高权重的被破坏的头实体greenland和尾实体tennessee,用于生成高质量的负类三元组。
基于CANS得到的负类三元组,训练KGE模型学习实体和关系嵌入,扩大正类三元组和高质量负类三元组之间的分数差距。在本研究中,我们采用以下损失函数作为优化目标:
L = − l o g σ ( γ − E ( h , r , t ) ) − ∑ i n 0.5 [ w ( h i ′ , r , t ) l o g σ ( E ( h i ′ , r , t ) − γ ) ] + w ( h , r , t i ′ ) l o g σ ( E ( h , r , t i ′ ) − γ ) (8) \begin{aligned} L=&-logσ(γ-E(h,r,t))\\ &-\sum_i^n0.5[w(h_i^{'},r,t)logσ(E(h_i^{'},r,t)-γ)]\\ &+w(h,r,t_i^{'})logσ(E(h,r,t_i^{'})-γ) \end{aligned}\tag{8} L=−logσ(γ−E(h,r,t))−i∑n0.5[w(hi′,r,t)logσ(E(hi′,r,t)−γ)]+w(h,r,ti′)logσ(E(h,r,ti′)−γ)(8)
其中γ是决策边界, [ x ] + [x]_{+} [x]+表示0和x之间较大的值,σ为sigmoid函数。
得益于常识与事实的相同关系,常识可以直接为链接预测结果提供一个确定的范围。因此,我们在从粗到细的范式中开发了一种新的多视图链接预(MVLK)机制,以便预测更有可能的结果。
在粗预测阶段,从测常识的角度挑选出候选实体;具体来说,以查询 ( h , r , ? ) (h,r,?) (h,r,?)为例,使用常识 C 1 C_1 C1过滤尾实体的合理概念。尾实体的候选概念集被定义为:
C 1 t = { c t i ∣ ( c h i , r , c t i ) ∈ C 1 } (9) C_{1t}=\lbrace c_{ti}|(c_{hi},r,c_{ti})∈C_1\rbrace\tag{9} C1t={cti∣(chi,r,cti)∈C1}(9)
其中 c h i c_{hi} chi为h的第i个概念, c t i c_{ti} cti为常识 ( c h i , r , c h i ) (c_{hi},r,c_{hi}) (chi,r,chi)中的尾概念。
然后,可以确定属于概念集 C 1 t C_{1t} C1t的实体为候选实体,因为它们满足常识,而且从常识的角度来看,它们比其他实体更有可能是正确的尾实体。
在细预测阶段,我们从事实的角度对粗预测阶段派生的每个候选实体 e i e_i ei按照如下公式打分:
s c o r e ( e i ) = E ( h , r , e i ) (10) score(e_i)=E(h,r,e_i)\tag{10} score(ei)=E(h,r,ei)(10)
其中 E ( h , r , e i ) E(h,r,e_i) E(h,r,ei)为训练KGE模型所用的评分函数。
随后,预测结果将候选实体的分数按升序排列,并输出排名较高的实体。