【论文笔记】知识图谱综述2021

【论文笔记】知识图谱综述2021_第1张图片

KRL - Knowledge Representation Learning

在知识表示学习里,我们希望把实体和关系映射到低维空间上,这样便于我们提取实体与关系的特征表示。这时我们的思路可以是:

  1. which representation space to choose
    本文描述了4种表示空间:Point-Wise Space、Complex Vector Space、Gaussian Distribution、Manifold and Group。 并且以能优化什么问题来展开在每种空间的模型代表。如在Point-Wise Space上,经典的TransE嵌入模型是开山鼻祖,后续有各种变体模型不断优化一对多关系;ComplEx是第一个在Complex Vector Space上使用。

  2. how to measure the plausibility of triplets in a specific space
    scoring function用来衡量事实的合理性。会有两种形式的评分函数:基于距离的和基于相似度,分别模型代表是TransE和DistMult。

  3. which encoding model to use for modeling relational interactions
    本文主要介绍了一些模型架构(包括线性/双线性模型、因子分解模型、神经网络),对实体与关系的交互进行编码。

  4. whether to utilize auxiliary information
    多模态的嵌入(包含外部信息例如文本描述、类型约束、关系路径和可视化信息)有助于知识的表示。

最后在附录上有完整的KRL的模型总结。
【论文笔记】知识图谱综述2021_第2张图片

KA - Knowledge Acquisition

通过非结构化文本以及其他结构化或半结构化的资源来构建知识图。在这篇综述里主要讲KA里三个任务:KGC(Knowledge Graph Completion)、entity discovery、relation extraction

  • KGC
    KGC是在知识图谱上增加新的三元组,典型的子任务:link prediction, entity prediction, and relation prediction。
    本文在这里讲到:初步研究主要是Embedding-based Models,但这种模型不好捕获多跳的关系,因此最近的工作转向relation path inference、 rule-based reasoning。
  1. 在Embedding-based Models上,上述的KRL方法(TransE、TransH、TransR、HoIE、R-GCN和一些利用文本信息联合学习DKRL可以用在KGC任务上)。当然后面还有很多改进的变体模型如SENN可以明确区分三个KGC子任务。

  2. 在Relation Path Reasoning上,利用了图结构上的路径信息。例如,路径排序算法 (PRA) 在以下组合下选择关系路径约束并进行最大似然分类。

  3. 在RL-based Path Finding上,DeepPath首次将RL应用关系路径学习。而MINERVA、M-Walk等是后面不断优化的模型。具体的比较详见此表:【论文笔记】知识图谱综述2021_第3张图片

  4. 在Rule-based Reasoning上,为了更好地利用知识的符号性质,KGC的另一个研究方向是逻辑规则学习。逻辑规则可以通过像AMIE这样的规则挖掘工具提取。更多的研究关注于将逻辑规则注入嵌入以改进推理,联合学习或迭代训练应用于合并一阶逻辑规则。逻辑规则作为辅助信息,结合先验知识,实现可解释的多挑推理。但这里有个问题是逻辑规则本身只能覆盖知识图中有限数量的相关事实,并有巨大的搜索空间效率问题。神经和符号计算的结合具有互补优势,利用有效的数据驱动学习和可微优化,并利用先验逻辑知识进行精确和可解释的推理。合并基于规则的知识表示学习原则上是为表示添加正则化或约束,如Neural Theorem Provers (NTP) 和NeuralLP等模型代表。

本文还提到了Meta Relational Learning。知识图谱存在长尾现象,同时现实世界中的知识场景是动态的,通常会获得看不见的三元组。因此新的场景:meta relational learning or few-shot relational learning,仅利用少样本来预测新的关系。模型代表有:GMatching、Meta-KGR、MetaR等。

  • entity discovery
    知识发现又会分为几个子任务:entity recognition, entity disambiguation, entity typing, and entity alignment。
  1. Entity Recognition: 又叫实体识别或者命名实体识别(NER),是一项在文本中标记实体的任务

  2. Entity Disambiguation: 实体分类,实体类型包括粗粒度类型和细粒度类型,而细粒度类型使用树结构类型类别,通常被视为多类和多标签分类。这里会有标签噪声问题和日益增长的标签类型,典型的模型如PLE、JOIE、ConnectE会不断优化。

  3. Entity Disambiguation: 实体消歧或实体链接是一项统一任务,将实体引用链接到知识图中相应的实体。如DSRM、EDKate等模型。

  4. Entity Alignment: 如前所述,这些任务涉及从文本或单个知识图中发现实体,而实体对齐(EA)旨在融合各种知识图中的知识。基于Embedding的实体对齐是计算一对实体的Embedding之间的相似度,模型有:MTransE、IPTransE、BootEA等。

    处理实体发现的模型例子如图:
    【论文笔记】知识图谱综述2021_第4张图片

  • relation extraction
    关系提取是通过从纯文本中提取未知的关系事实并将其添加到知识图中来自动构建大规模知识图的关键任务。由于缺乏标记的关系数据,这项任务可以通过远程监督学习(也称为弱监督或自监督),来创建训练数据。下面是本文作者总结在这项任务的模型方法:【论文笔记】知识图谱综述2021_第5张图片

Temporal Knowledge Graph

前面研究的是静态图,但然而时间信息是非常重要的,所以同时学习时间嵌入和关系嵌入的研究开始展开并且有进展。

  • Temporal Information Embedding
    会有以下这些方法:
  1. 将三元组扩充至四元组。如将 ( h , r , t ) (h, r, t) (h,r,t) 扩充至 ( h , r , t , τ ) (h, r, t, \tau) (h,r,t,τ) 。如TTransE: f τ ( h , r , t ) = − ∥ h + r + τ − t ∥ L 1 / 2 f_{\tau}(h, r, t)=-\|\mathbf{h}+\mathbf{r}+\tau-\mathbf{t}\|_{L_{1 / 2}} fτ(h,r,t)=h+r+τtL1/2
  2. 或者是增加时间戳 [ τ s , τ e ] \left[\tau_{s}, \tau_{e}\right] [τs,τe] 。HyTE将时间戳视为超平面 W τ W_{\tau} Wτ , 实体和关系表示为: P τ ( h ) = h − ( w τ ⊤ h ) w τ P_{\tau}(\mathbf{h})=\mathbf{h}-\left(\mathbf{w}_{\tau}^{\top} \mathbf{h}\right) \mathbf{w}_{\tau} Pτ(h)=h(wτh)wτ P τ ( r ) = h − ( w τ ⊤ r ) w τ P_{\tau}(\mathbf{r})=\mathbf{h}-\left(\mathbf{w}_{\tau}^{\top} \mathbf{r}\right) \mathbf{w}_{\tau} Pτ(r)=h(wτr)wτ P τ ( t ) = h − ( w τ ⊤ t ) w τ P_{\tau}(\mathbf{t})=\mathbf{h}-\left(\mathbf{w}_{\tau}^{\top} \mathbf{t}\right) \mathbf{w}_{\tau} Pτ(t)=h(wτt)wτ ,评分函数: f τ ( h , r , t ) = ∥ P τ ( h ) + P τ ( r ) − P τ ( t ) ∥ L 1 / L 2 f_{\tau}(h, r, t)=\left\|P_{\tau}(\mathbf{h})+P_{\tau}(\mathbf{r})-P_{\tau}(\mathbf{t})\right\|_{L_{1} / L_{2}} fτ(h,r,t)=Pτ(h)+Pτ(r)Pτ(t)L1/L2
  • Entity Dynamics
    在真实世界中,实体的状态会发生变化,从而影响实体相关的关系。时间的变化视为状态的变化检测,利用上下文学习状态的变化,如利用RNNs模型捕获时间实体交互。

  • Temporal Relational Dependency
    关系也是会存在时间的顺序性的,如wasBornIn→graduateFrom→workAt→diedIn。可以通过关系对来进行研究

  • Temporal Logical Reasoning
    逻辑规则也用于时间推理。

Knowledge-Aware Applications

  • Language Representation Learning
    传统的语言建模没有利用文本语料库中频繁观察到的实体的事实知识。如何将知识整合到语言表达中越来越受到关注。

  • Question Answering
    KGQA是一个很常见的应用,基于神经网络的方法表示分布式语义空间中的问题和答案,有些还进行符号知识注入以进行常识推理。

  1. Single-fact QA
    将知识图谱作为外部知识源,简单的事实 QA 或单事实 QA 是为了回答涉及单个知识图谱事实的简单问题。如利用LSTM、GRU。
  2. Multi-hop Reasoning
    要处理复杂的多跳关系,需要一个更专门的设计,能够进行多跳常识推理。VRN利用推理图嵌入;KagNet从ConceptNet构建模式,通过GCN、LSTM学习路径的关系表示。CogQA结合隐式提取和显式提取,提出了一种基于BERT和GNN的多跳QA认知图模型。
  • Recommender Systems
    将知识图谱集成为外部信息,使推荐系统具备常识推理能力,具有解决稀疏问题和冷启动问题的潜力。DKN通过知识感知 CNN 模型将知识图谱与多通道词实体对齐的文本输入相结合。MKR 通过共享潜在特征和建模高阶项目实体交互,将多任务知识图表示和推荐联系起来。KPRN 将用户和项目之间的交互视为知识图中的实体关系路径,并使用 LSTM 对路径进行偏好推断以捕获顺序依赖关系。PGPR 在基于知识图的用户-项目交互上执行强化策略引导的路径推理。KGAT在实体关系图和用户项目图的协作知识图上应用图注意力网络,通过嵌入传播和基于注意力的聚合对高阶连接进行编码。

Future Directions

Complex Reasoning
基于Embedding的方法在复杂逻辑推理有局限性,在关系路径、符号逻辑的方向还值得探索。

Unified Framework
对知识表示和推理的统一理解较少探索。

Interpretability
可解释性可以说服人们相信预测。因此,应进一步研究可解释性,提高预测知识的可靠性。

Scalability
扩展性。如何扩展到大规模知识图上。

Knowledge Aggregation
知识聚合

Automatic Construction and Dynamics
目前的知识图谱高度依赖人工构建,劳动强度大,成本高。知识图谱在不同认知智能领域的广泛应用需要从大规模非结构化内容中自动构建知识图谱。最近的研究主要是在现有知识图谱的监督下进行半自动构建。面对多模态、异构性和大规模应用,自动构建仍然面临巨大挑战。主流研究集中在静态知识图谱上,在预测时间范围有效性和学习时间信息和实体动态方面有几项工作。许多事实只在特定时期内成立。动态知识图谱与捕捉动态的学习算法一起,可以通过考虑时间性质来解决传统知识表示和推理的局限性。

你可能感兴趣的:(论文笔记,知识图谱,论文阅读,人工智能)