现有
诸如Wikidata、Yago、DBpedia,富含海量世界知识,并以结构化形式存储
2019 年年底,图灵奖获得者 Bengio 曾指出,我们正处于从以感知智能为代表的深度学习“系统一”,向以认知智能为代表的深度学习 “系统二”过渡的时期
在这个过程中,知识图谱技术起到了关键性的作用。近年来,图网络的蓬勃发展也印证了这一趋势
引入人类的知识是人工智能的重要研究方向之一
知识表征和推理受到了人类解决问题方法的启发,旨在为智能系统表征知识,从而获得解决复杂问题的能力
最近,知识图谱作为一种结构化的人类知识,同时受到了学术界和工业界人士的极大关注
每个节点代表现实世界中的某个实体,它们的连边上标记实体间的关系
知识图谱是一种对于事实的结构化表征,它由实体、关系和语义描述组成
实体可以是真实世界中存在的对象,也可以是抽象的概念;关系则表示实体之间的关联;实体及其关系的语义描述包含定义良好的类型和属性
这些结构化的知识已被广泛应用于搜索引擎、问答系统等自然语言处理应用中
术语知识图谱和知识库几乎是同义词,只有很微小的差别
在逻辑学和人工智能领域,知识表征经历了漫长的发展历史。用图进行知识表征的思想最早可以追溯到 Richens 在 1956 年提出的语义网(Semantic Net),而符号逻辑知识则可以追溯到 1959 年的通用问题求解器
起初,知识库被用于基于知识的推理的问题求解系统。MYCIN 是被用于医学诊断的、最著名的基于规则的专家系统之一,它拥有一个包含约 600 条规则的知识库
在这之后,人类知识表征研究社区在基于框架的语言、基于规则的表征以及混合表征方面都取得了一定的研究进展。大约在这一时期的末期,旨在集成人类知识的 Cyc 计划,开始了
资源描述框架(RDF)和网络本体语言(OWL)相继发布,成为了语义网的重要标准。接着,人们也发布了诸如 WordNet、DBpedia、YAGO 和 Freebase 这样的开放的知识库或本体
Stokman 和 Vries 于 1988 年提出了现代意义上的以图的形式组织知识的思想。然而,知识图谱的概念开始盛行还要等到2012 年谷歌首次在其搜索引擎中引入知识图谱,此时它们提出了被称为Knowledge Vault的知识融合框架,从而构建大规模知识图谱
当我们考虑知识图谱的图结构时,可以将其视为一个图
当涉及形式语义问题时,它又可以作为对事实进行解释和推理的知识库
知识可以通过资源描述框架(RDF)被表示为一种事实三元组的形式,如(头实体,关系,尾实体)或(主语,谓语,宾语),例如(爱因斯坦,是…获奖者,诺贝尔奖)
知识也可以被表征为一种有向图,其节点代表实体,边代表关系
研究人员做了大量工作,通过描述通用语义表征或本质特征来为知识图谱给出定义
然而,知识图谱至今仍没有被广为接受的正式定义。Paulheim 定义了 4 种知识图谱的标准
Ehrlinger 和 Wo ̈ß 分析了一些现有的定义,并提出了如下所示的定义 1,它强调了知识图谱的推理引擎
定义 1(Ehrlinger 和 Wo ̈ß):知识图谱会获取信息并将其集成到一个本体中,使用一个推理器产生新的知识
Wang 等人在定义 2 中提出了一个多关系图的定义
知识图谱是由实体和关系构成的多关系图,实体被视为节点而关系被视为各种不同类型的边
受到之前这些工作的启发,我们将一个知识图谱定义为 G = {E,R,F},其中 E、R、F分别是实体、关系和事实的集合。事实可以被表示为一个三元组 (h,r,t) ∈ F
知识图谱研究分类
知识表征学习(KRL)
知识表征学习是知识图谱领域的关键研究问题,它为许多知识获取任务和下游应用打下了基础
我们将 KRL 分为 4 个层面:表征空间、打分函数、编码模型和辅助信息
学习实体和关系的低维分布嵌入是表征学习的关键问题
现有的工作主要使用的是向量、矩阵、张量空间等实值点空间(如图 3a 所示),同时也会使用复杂向量空间(如图 3b 所示)、高斯空间(如图 3c 所示)以及流形(如图 3d 所示)等其它类型的空间
打分函数被用来衡量事实的合理性,它在基于能量的学习框架中也被称为能量函数。基于能量的学习旨在学习输入为 x、参数为 θ 的能量函数 E_θ(x),它将确保正样本比负样本有更高的得分。在本文中,统一将其称为打分函数
典型的用于衡量事实合理性的打分函数分为两类:即基于距离的打分函数(如图 4a 所示)和基于相似度的打分函数(如图 4b)。基于距离的打分函数通过计算实体之间的距离衡量事实的合理性,通过实体间关系实现 h + r ≈ t 这种加法变换的思想被广泛使用。基于语义相似度的打分函数通过语义匹配衡量事实的合理性,它通常采用乘法公式在表征空间中将头实体变换得与尾实体相近
编码模型通过特定的模型架构(如线性/双线性模型、因子分解模型、神经网络)编码实体和关系之间的相互作用
线性模型通过将头实体投影到接近尾实体的表征空间中,将关系表示为一个线性/双线性映射。因子分解旨在将关系型数据分解到低秩矩阵中,从而进行表征学习。神经网络则通过非线性神经激活映射和更加复杂的网络结构对关系型数据进行编码
图 5:神经编码模型示意图。(a)多层感知机,和(b)卷积神经网络将三元组输入到全连接层中,并且进行卷积操作,从而学习到语义表征。(c)图卷积网络作为知识图谱编码器,生成实体和关系的嵌入。(d)RSN 有差别地对“实体-关系序列”和跳跃关系进行编码
为了促进更有效的知识表征,多模态嵌入将诸如文本描述、类型约束、关系路径以及视觉信息等外部信息与知识图谱本身融合在了一起
在知识图谱研究社区中,知识表征学习是非常重要的。总的来说,想要研发一个新的知识表征学习模型需要回答以下 4 个问题:(1)选择怎样的表征空间;(2)如何度量特定空间中的三元组合理性;(3)用怎样的编码模型编码关系的相互作用;(4)是否要利用辅助信息
最常用的表征空间是欧氏点空间,它将实体嵌入到向量空间中,并且通过向量、矩阵或张量对相互作用进行建模。人们也研究了其它的表征空间(包括复杂向量空间、高斯分布、流形空间、群)
相对于欧氏点空间,流形空间的优势在于它能够松弛基于点的嵌入;高斯嵌入可以表达出实体和关系之间的不确定性,以及多重关系语义;复杂向量空间中的嵌入可以有效地建模不同的关系连接模型,特别是对称/反对称模式
在编码实体的语义信息和获取关系属性时,表征空间起着非常重要的作用
当我们研发一个表征学习模型时,应该选择合适的表征空间,该表征空间被精心设计以匹配编码方式的特性,并且能够在表达能力和计算复杂度之间达到平衡
采用基于距离的度量的打分函数会用到相应的转化原则,而基于语义匹配的打分函数则会采用成分级别的操作
编码模型(尤其是神经网络)在对于实体和关系的相互作用建模的过程中起到了关键作用。双线性模型也受到了很多研究人员的关注,一些张量分解技术与此相关。其它方法则引入了文本描述、关系/实体类型,以及实体图像等辅助信息
知识获取
知识获取旨在根据非结构化的文本构建知识图谱、补全一个现有的知识图谱,发现并识别出实体和关系。构建好的大型知识图谱对于很多下游应用是很有用的,可以赋予基于知识的模型常识推理的能力,因此为实现人工智能打下基础
知识获取的主要任务包括关系抽取、知识图谱补全、以及其它面向实体的获取任务,如实体识别和实体对齐。大多数方法单独地形式化定义知识图谱补全和关系抽取。然而,这两种任务也可以被整合到一个统一的框架中
Han 等人基于互注意力机制提出了一种联合学习框架,这种互注意力机制被用于知识图谱和文本之间的数据融合,该框架同时解决了根据文本进行知识图谱补全和关系抽取的问题。此外,还有一些任务也与知识补全有关(例如,三元组分类和关系分类)。在本节中,我们将完整地回顾知识补全、实体发现和关系抽取三步知识获取技术
知识图谱补全(KGC)
由于大多知识图谱具有不完整性,人们研发知识补全技术将新的三元组添加到一个新的知识图谱中。典型的子任务包括链接预测、实体预测和关系预测。下面我们给出面向任务的定义 3
定义 3:给定一个不完整的知识图谱 G=(E,R,F),知识图谱补全旨在推理出缺失的三元组 T={(h,r,t)|(h,r,t)∉ F}
初期的知识图谱补全研究重点关注为三元组预测学习低维嵌入。在本文中,我们将其称为基于嵌入的方法
然而,大多数这些方法都不能获取多级关系。因此,最近的工作转而探索多级关系路径并引入了逻辑关系,我们分别将其称为关系路径推理和基于规则的推理。三元组分类是知识图谱补全的一个辅助任务,它被用来评价事实三元组的正确性
实体发现
实体发现可以从文本中获取面向实体的知识,并且在各个知识图谱之间进行知识融合。根据具体情况,可以将实体发现任务分为几种不同的类别
我们以一种序列到序列(Seq2Seq)的方式探究实体识别任务;而实体分类任务则重点讨论的是有噪声的类型标签和零样本分类;实体消歧和对齐任务会学习统一的嵌入,它们提出迭代式的对齐模型解决对齐种子实体数量有限的问题。但是如果新对齐的实体性能很差,它将会面临误差累积的问题
关系抽取
关系抽取是自动构建大型知识图谱的关键任务,该任务将从朴素文本中抽取出未知的关系事实,并将他们添加到知识图谱中
由于缺乏带有标签的关系型数据,远程监督(Distant Supervision)技术(又称弱监督或自监督)使用启发式匹配,假设在关系型数据库的监督下,包含相同实体的句子可能表达相同的关系,从而创建训练数据
Mintz 等人将远程监督用于关系分类任务,他们用到的文本特征包括词法和句法特征、命名实体标签,以及连接词特征。传统的方法高度依赖于特征工程,而最近的一种方法则探索了特征之间的内在联系。深度神经网络也正在改变知识图谱和文本的表征学习
关系抽取任务在远程监督的假设下会遇到带有噪声的模式,特别是在不同领域之间进行远程监督时。因此,对于弱监督关系抽取来说,减小带噪声标签的影响是非常重要的(例如,通过多示例学习将多个句子组成的包作为输入,使用注意力机制在示例上进行软选择从而减少带噪声的模式,基于强化学习的方法将示例选择表示为硬性决策。另一个原则是,尽可能学习到更加丰富的表征。由于深度神经网络可以解决传统特征抽取方法中的误差传播问题,该领域一直被基于深度神经网络的模型所主导
时序知识图谱
现有的知识图谱研究大多数都关注的是静态知识图谱,其中事实不会随着时间而变化,然而目前对知识图谱的时序动态变化的研究则较少。然而,由于结构化的知识仅仅在特定的时间段内成立,所以时序信息是非常重要的,而事实的演化也会遵循一个时间序列
近期的研究开始将时序信息引入知识表征学习和知识图谱补全任务。为了与之前的静态知识图谱产生对比,我们将其称为时序知识图谱。为了同时学习时序嵌入和关系嵌入,人们进行了大量的研究工作
时序信息嵌入
在与时序有关的嵌入中,我们通过将三元组拓展成时序四元组 (h,r,t,τ) 来考虑时序信息。其中 τ 提供了关于事实何时成立的额外的时序信息。Leblay 和 Chekol 利用带有时间标注的三元组研究了时序范围预测问题,并简单地拓展了现有的嵌入方法。例如,将 TransE 拓展为基于向量的 TTransE 定义如下
实体动态
现实世界中的事件会改变实体的状态,并因此影响相应的关系。为了提升时间范围预测的性能,上下文时序剖面模型将时序范围预测形式化定义为了状态变化检测问题,利用上下文学习状态和状态变化向量
Know-evolve是一种深度演化知识网络,它研究了实体和它们演化后的关系的知识演化现象。人们使用了一种多变量时序点过程对事实的发生进行建模,研发出了一种新型的循环网络学习非线性时序演化的表征
为了获取节点之间的相互作用,RE-NET 通过基于循环神经网络的编码器和邻居聚合器对事件序列进行建模。具体而言,他们使用循环神经网络来获取时序实体相互作用的信息,并且通过邻居聚合器将同时发生的相互作用进行聚合
时序关系依赖
在关系链中,沿着时间线存在时序依赖关系。例如,“在…出生 →从…毕业 → 在…工作 → 在…去世”。Jiang 等人提出了基于时间的嵌入,这是一种带有时序正则化的联合学习框架,从而引入时间顺序和一致性信息
时序逻辑推理
研究人员还研究了时序推理的逻辑规则。Chekol 等人探究了在非确定性时序知识图谱上进行推理的马尔科夫逻辑网络和概率软逻辑。RLvLR-Stream 则考虑闭合时间路径规则,并从知识图谱流中学习规则的结构进行推理
基于知识图谱的应用
对于人工智能应用来说,丰富的结构化知识是很有用的。但是如何将这些符号化的知识融合到现实世界应用的计算框架中仍然是一大挑战。本节将介绍一些近期的基于深度神经网络的知识驱动方法在自然语言理解(NLU)任务上的应用
自然语言理解
基于知识的自然语言理解通过被注入统一语义空间的结构化知识提升了语言表征的性能。最近,该领域由知识驱动的研究进展利用了显式的事实知识和隐式的语言表征,并探索了许多自然语言理解任务
Chen 等人提出了在两个知识图谱(即一个基于槽(slot-based)的语义知识图谱和基于单词的词法知识图谱)上的双图随机游走技术,从而考虑口语理解中的槽间关系。Wang 等人通过加权的单词-概念嵌入实现的基于知识的概念模型增强了短文本表征学习。Peng 等人融合了外部知识库,从而为短社交文本的事件分类任务构建了异构信息图谱
问答系统
基于知识的问答(KG-QA)系统使用来源于知识图谱的事实回答自然语言问题。基于神经网络的方法在分布式语义空间中表征问题和答案,也有一些方法进行了符号知识注入,从而实现常识推理
通过将知识图谱作为外部智能来源,简单的事实型问答系统或单一事实问答系统就可以回答设计单个知识图谱事实的简单问题。Bordes 等人通过将知识库作为外部记忆,将记忆网络用于简单的问答
这些基于神经网络的方法将神经编码器-解码器模型结合起来,获得了性能的提升。但是想要处理复杂的多级关系还需要能够处理多级常识推理的、更加专用的网络设计。结构化的知识提供了富含信息的常识观察,并作为一种关系型归纳偏置存在,它促进了最近关于多级推理的符号和语义空间之间的常识知识融合的研究
推荐系统
研究人员通过协同过滤对推荐系统进行了广泛的研究,该方法使用了用户的历史信息。然而,这种方法往往不能解决稀疏性问题和冷启动问题。将知识图谱作为外部信息引入可以为推荐系统赋予常识推理的能力
通过注入基于知识图谱的辅助信息(例如,实体、关系和属性),研究人员在用于提升推荐性能的嵌入正则化方面做了大量工作。还有一些工作考虑到了关系路径和知识图谱的结构,KPRN 将用户和商品之间的交互看做知识图谱中的实体-关系路径,并且使用 LSTM 获取序列的依赖性,从而在路径上进行用户喜好预测
但与现实世界快速增长的知识量相比,知识图谱覆盖度仍力有未逮
近年来,基于知识图谱的研究主要关注的是,通过将实体和关系映射到低维向量中,获取它们的语义信息,从而实现知识表征学习(KRL)或知识图谱嵌入(KGE)
具体的知识获取任务包括知识图谱补全(KGC)、三元组分类、实体识别,以及关系抽取
基于知识的模型得益于异构信息、丰富的知识表征本体和语义,以及多种语言知识的集成。因此,在常识理解能力和推理能力取得进步的同时,诸如推荐系统和问答系统等许多真实世界中的应用也走向了繁荣
微软的 Satori 和谷歌的知识图谱等现实世界中的产品,已经展现出了提供更多高效服务的强大能力
由于知识规模巨大而人工标注昂贵,这些新知识单靠人力标注添加几无可能完成
为了尽可能及时准确地为知识图谱增添更加丰富的世界知识,研究者们努力探索高效自动获取世界知识的办法,即实体关系抽取技术
具体来说,给定一个句子和其中出现的实体,实体关系抽取模型需要根据句子语义信息推测实体间的关系
例如,给定句子:“清华大学坐落于北京近邻”以及实体“清华大学”与“北京”,模型可以通过语义得到“位于”的关系,并最终抽取出(清华大学,位于,北京)的知识三元组
实体关系抽取是一个经典任务,在过去的20多年里都有持续研究开展,特征工程、核方法、图模型曾被广泛应用其中,取得了一些阶段性的成果。
随着深度学习时代来临,神经网络模型则为实体关系抽取带来了新的突破
面向自然语言文本序列已经有很多神经网络类型,例如循环神经网络(RNN、LSTM)、卷积神经网络(CNN)和Transformer等,这些模型都可以通过适当改造用于关系抽取
最初,工作 [1,2] 首次提出使用CNN对句子语义进行编码,用于关系分类,比非神经网络方法比性能显著提升
[1] ChunYang Liu, WenBo Sun, WenHan Chao, Wanxiang Che. Convolution Neural Network for Relation Extraction. The 9th International Conference on Advanced Data Mining and Applications (ADMA 2013).
[2] Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, Jun Zhao. Relation Classification via Convolutional Deep Neural Network. The 25th International Conference on Computational Linguistics (COLING 2014).
工作 [3,4] 将RNN与LSTM用于关系抽取;此外,工作 [5] 提出采用递归的神经网络对句子的语法分析树建模,试图在提取语义特征的同时考虑句子的词法和句法特征,这个想法也被不少后续工作的进一步探索
[3] Dongxu Zhang, Dong Wang. Relation Classification via Recurrent Neural Network. arXiv preprint arXiv:1508.01006 (2015).
[4] Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi, Bingchen Li, Hongwei Hao, Bo Xu. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification. The 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016).
[5] Richard Socher, Brody Huval, Christopher D. Manning, Andrew Y. Ng. Semantic Compositionality through Recursive Matrix-Vector Spaces. The 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL 2012).
这些神经网络模型均取得了优异的实验结果,且相互之间没有显著的性能差异。这是否意味着关系抽取问题就此解决了呢?实际上并非如此。SemEval-2010 Task-8的任务设定为,对预先定义好的关系类别标注大量的训练和测试样例,样例都是相对简单的短句,而且每种关系的样例分布也比较均匀。然而,实际应用中往往面临很多挑战:
数据规模问题
人工精准地标注句子级别的数据代价十分高昂,需要耗费大量的时间和人力
在实际场景中,面向数以千计的关系、数以千万计的实体对、以及数以亿计的句子,依靠人工标注训练数据几乎是不可能完成的任务
学习能力问题
在实际情况下,实体间关系和实体对的出现频率往往服从长尾分布,存在大量的样例较少的关系或实体对
神经网络模型的效果需要依赖大规模标注数据来保证,存在”举十反一“的问题
如何提高深度模型的学习能力,实现”举一反三“,是关系抽取需要解决的问题
复杂语境问题
现有模型主要从单个句子中抽取实体间关系,要求句子必须同时包含两个实体
实际上,大量的实体间关系往往表现在一篇文档的多个句子中,甚至在多个文档中
如何在更复杂的语境下进行关系抽取,也是关系抽取面临的问题
开放关系问题
现有任务设定一般假设有预先定义好的封闭关系集合,将任务转换为关系分类问题
这样的话,文本中蕴含的实体间的新型关系无法被有效获取
如何利用深度学习模型自动发现实体间的新型关系,实现开放关系抽取,仍然是一个”开放“问题
所以说,SemEval-2010 Task-8这样的理想设定与实际场景存在巨大鸿沟,仅依靠神经网络提取单句语义特征,难以应对关系抽取的各种复杂需求和挑战。我们亟需探索更新颖的关系抽取框架,获取更大规模的训练数据,具备更高效的学习能力,善于理解复杂的文档级语境信息,并能方便地扩展至开放关系抽取
参考资料
https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247498221&idx=1&sn=fff0dd48d9a2bdccdde186ea47be39d2&chksm=e9e1f066de9679708f65338fd1355c8a303c46193b22d065c1ae208543ca867ddc3bda605a06&mpshare=1&scene=23&srcid=06286ETmdTrhb82d63RKPitG&sharer_sharetime=1624864764530&sharer_shareid=ef75ef93b41a494e33a752c1e94197a3#rd
知识图谱从哪里来:实体关系抽取的现状与未来
总结
为了更及时地扩展知识图谱,自动从海量数据中获取新的世界知识已成为必由之路。以实体关系抽取为代表的知识获取技术已经取得了一些成果,特别是近年来深度学习模型极大地推动了关系抽取的发展。但是,与实际场景的关系抽取复杂挑战的需求相比,现有技术仍有较大的局限性。我们亟需从实际场景需求出发,解决训练数据获取、少次学习能力、复杂文本语境、开放关系建模等挑战问题,建立有效而鲁棒的关系抽取系统,这也是实体关系抽取任务需要继续努力的方向
我们课题组从2016年开始耕耘实体关系抽取任务,先后有林衍凯、韩旭、姚远、曾文远、张正彦、朱昊、于鹏飞、于志竟成、高天宇、王晓智、吴睿东等同学在多方面开展了研究工作。去年在韩旭和高天宇等同学的努力下,发布了OpenNRE工具包 [33],经过近两年来的不断改进,涵盖有监督关系抽取、远程监督关系抽取、少次学习关系抽取和文档级关系抽取等丰富场景。此外,也花费大量科研经费标注了FewRel (1.0和2.0)和DocRED等数据集,旨在推动相关方向的研究
[33] Xu Han, Tianyu Gao, Yuan Yao, Deming Ye, Zhiyuan Liu, Maosong Sun. OpenNRE: An Open and Extensible Toolkit for Neural Relation Extraction. The Conference on Empirical Methods in Natural Language Processing (EMNLP 2019).
本文总结了我们对实体关系抽取现状、挑战和未来发展方向的认识,以及我们在这些方面做出的努力,希望能够引起大家的兴趣,对大家有些帮助。期待更多学者和同学加入到这个领域研究中来。当然,本文没有提及一个重要挑战,即以事件抽取为代表的复杂结构的知识获取,未来有机会我们再专文探讨
https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247499899&idx=1&sn=8da9fa9d4b3e8f455487488f9561bbf8&chksm=e9e1c9f0de9640e694a12d329cc8b5a826d929273f3b02c03d61878e8a48421482790e0e3c47&mpshare=1&scene=23&srcid=0628x7Bunpnfia6whib5tbzy&sharer_sharetime=1624864731837&sharer_shareid=ef75ef93b41a494e33a752c1e94197a3#rd
知识图谱前沿跟进
探索方向
更大规模的训练数据
神经网络关系抽取需要大量的训练数据,但是人工标注这些训练数据非常费时昂贵。为了自动获取更多的训练数据训练模型,工作 [16] 提出了远程监督(Distant Supervision)的思想,将纯文本与现有知识图谱进行对齐,能够自动标注大规模训练数据
[16] Mike Mintz, Steven Bills, Rion Snow, Daniel Jurafsky. Distant Supervision for Relation Extraction without Labeled Data. The 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2009).
远程监督的思想并不复杂,具体来说:如果两个实体在知识图谱中被标记为某个关系,那么我们就认为同时包含这两个实体的所有句子也在表达这种关系。
再以(清华大学,位于,北京)为例,我们会把同时包含“清华大学”和“北京”两个实体的所有句子,都视为“位于”这个关系的训练样例。
远程监督的这种启发式标注规则是把双刃剑,它是自动标注训练数据的有效策略,但其过强的设定不可避免地产生错误标注
例如对于知识图谱中(清华大学,校长,邱勇)这个三元组事实,句子“邱勇担任清华大学校长”可以反映“清华大学”与“邱勇”之间“校长”的关系;但是句子“邱勇考入清华大学化学与化学工程系”以及“邱勇担任清华大学党委常委”并不表达“校长”关系,但却会被远程监督的启发式规则错误地标注为“校长”关系的训练实例
虽然远程监督思想非常简单也存在很多问题,不过它为更多收集训练数据开启了新的纪元。受到这个思路的启发,很多学者积极考虑如何尽可能排除远程监督数据中的噪音标注的干扰
从2015年开始,基于远程监督与降噪机制的神经关系抽取模型得到了长足的发展,工作 [17] 引入了多实例学习方法,利用包含同一实体对的所有实例来共同预测实体间关系
[17] Daojian Zeng, Kang Liu, Yubo Chen, Jun Zhao. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks. The 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP 2015).
林衍凯等人工作 [19] 提出句子级别注意力机制,对不同的实例赋予不同的权重,用以降低噪音实例造成的影响
[19] Yi Wu, David Bamman, Stuart Russell. Adversarial Training for Relation Extraction. The 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP 2017).
工作 [20] 引入对抗训练来提升模型对噪音数据的抵抗能力。工作 [21] 则构建了一套强化学习机制来筛除噪音数据,并利用剩余的数据来训练模型
[20] Jun Feng, Minlie Huang, Li Zhao, Yang Yang, Xiaoyan Zhu. Reinforcement Learning for Relation Classification from Noisy Data. The 32th AAAI Conference on Artificial Intelligence (AAAI 2018).
[21] Xu Han, Hao Zhu, Pengfei Yu, Ziyun Wang, Yuan Yao, Zhiyuan Liu, Maosong Sun. FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation. The 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP 2018).
总结来说,已有对远程监督的降噪方法可以兼顾了关系抽取的鲁棒性与有效性,也具有较强的可操作性和实用性。不过,使用已有知识图谱对齐文本来获取数据训练关系抽取模型,再利用该模型来抽取知识加入知识图谱,本身就有一种鸡生蛋与蛋生鸡的味道。不完善的知识图谱对齐所得到的文本训练数据也将是不完善的,对那些长尾知识而言,仍难以通过这种远程监督机制来得到训练实例。如何提出更有效的机制来高效获取高质量、高覆盖、高平衡的训练数据,仍然是一个值得深入思考的问题
更高效的学习能力
即使通过远程监督等办法能够自动获取高质量的训练数据,由于真实场景中关系和实体对的长尾分布特点,绝大部分的关系和实体对的可用样例仍然较少
而且,对于医疗、金融等专业领域的专门关系,受限于数据规模的问题可用样例也很有限
而神经网络模型作为典型的data-hungry技术,在训练样例过少时性能会受到极大影响。因此,研究者们希望探索有效提升模型学习能力的方法,以更好地利用有限训练样例取得满意的抽取性能
实际上,人类可以通过少量样本快速学习知识,具有“举一反三”的能力。为了探索深度学习和机器学习“举一反三”的能力,提出了少次学习(Few-shot learning)任务。通过设计少次学习机制,模型能够利用从过往数据中学到的泛化知识,结合新类型数据的少量训练样本,实现快速迁移学习,具有一定的举一反三能力
过去少次学习研究主要集中于计算机视觉领域,自然语言处理领域还少有探索
韩旭同学等的工作 [21] 首次将少次学习引入到关系抽取,构建了少次关系抽取数据集FewRel,希望推动驱动自然语言处理特别是关系抽取任务的少次学习研究
关系抽取少次学习问题仅为每种关系提供极少量样例(如3-5个),要求尽可能提高测试样例上的关系分类效果
[21] Xu Han, Hao Zhu, Pengfei Yu, Ziyun Wang, Yuan Yao, Zhiyuan Liu, Maosong Sun. FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation. The 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP 2018).
FewRel论文工作初步尝试了几个代表性少次学习方法包括度量学习(Metric learning)、元学习(Meta learning)、参数预测(Parameter prediction)等,评测表明即使是效果最佳的原型网络(Prototypical Networks)模型,在少次关系抽取上的性能仍与人类表现相去甚远
为了更好解决远程监督关系抽取的少次学习问题,高天宇同学等的工作 [22] 提出了基于混合注意力机制的原型网络,同时考虑实例级别和特征级别的注意力机制,在减少噪音标注影响的同时,能更好地关注到句中的有用特征,实现高效少次学习
[22] Tianyu Gao, Xu Han, Zhiyuan Liu, Maosong Sun. Hybrid Attention-based Prototypical Networks for Noisy Few-Shot Relation Classification. The 33th AAAI Conference on Artificial Intelligence (AAAI 2019).
工作 [23] 则提出多级匹配和整合结构,充分学习训练样例之间的潜在关联,尽可能挖掘为数不多的样例中的潜在信息
[23] Zhi-Xiu Ye, Zhen-Hua Ling. Multi-Level Matching and Aggregation Network for Few-Shot Relation Classification. The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019).
工作 [24] 则采用了预训练语言模型BERT来处理关系抽取中的少次学习问题,基于海量无监督数据训练的BERT,能够为少次学习模型提供有效的语义特征,在FewRel数据上取得了超过人类关系分类的水平
[24] Livio Baldini Soares, Nicholas FitzGerald, Jeffrey Ling, Tom Kwiatkowski. Matching the Blanks: Distributional Similarity for Relation Learning. The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019).
在对少次学习关系抽取探究的过程中,课题组的高天宇同学等进一步发现两个长期被忽视的方面 [25]:要将少次学习模型用于生产环境中,应具备从资源丰富领域迁移到资源匮乏领域(low-resource domains)的能力,同时还应具备检测句子是否真的在表达某种预定义关系或者没有表达任何关系的能力。为此他们提出了FewRel 2.0,在原版数据集FewRel的基础上增加了以下两大挑战:领域迁移(domain adaptation)和“以上都不是”检测(none-of-the-above detection)
[25] Tianyu Gao, Xu Han, Hao Zhu, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou. FewRel 2.0: Towards More Challenging Few-Shot Relation Classification. 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP 2019).
对于领域迁移挑战,FewlRel 2.0 采集了大量医疗领域的数据并进行标注,要求关系抽取模型在原语料进行训练后,还可以在这些新领域语料上进行少次学习。对于“以上都不是”检测,FewRel 2.0 在原N-way K-shot设定(给定N个新类型,每个类型给定K个训练样本)上,添加了一个“以上都不是”选项,大大增加了分类和检测难度
初步实验发现,以往有效的模型(包括基于BERT的模型)在这两大挑战任务均有显著性能下降。尽管高天宇同学等在FewRel 2.0论文中也尝试了一些可能的解决思路:例如对于领域迁移尝试了经典的对抗学习方法,模型性能得到了一定的提升;对于“以上都不是”检测,提出了基于BERT next sentence prediction task的BERT-PAIR模型,可以在”以上都不是”挑战取得一点效果。但这两大挑战依然需要更多创新探索
总结来说,探索少次学习关系抽取,让关系抽取模型具备更强大高效的学习能力,还是一个非常新兴的研究方向,特别是面向关系抽取的少次学习问题,与其他领域的少次学习问题相比,具有自身独有的特点与挑战。不论是基于已有少次学习技术作出适于NLP和关系抽取的改进,还是提出全新的适用于关系抽取的少次学习模型,都将最大化地利用少量标注数据,推动关系抽取技术的落地实用
更复杂的文本语境
现有关系抽取工作主要聚焦于句子级关系抽取,即根据句内信息进行关系抽取,各类神经网络模型也擅长编码句子级语义信息,在很多公开评测数据能够取得最佳效果
而在实际场景中,大量的实体间关系是通过多个句子表达的。文本中提到多个实体,并表现出复杂的相互关联
根据从维基百科采样的人工标注数据的统计表明,至少40%的实体关系事实只能从多个句子中联合获取
用于知识表征和推理的数值化计算需要连续的向量空间,从而获取实体和关系的语义信息。然而,基于嵌入的方法在复杂逻辑推理任务中有一定的局限性,但关系路径和符号逻辑这两个研究方向值得进一步探索。在知识图谱上的循环关系路径编码、基于图神经网络的信息传递等具有研究前景的方法,以及基于强化学习的路径发现和推理对于解决复杂推理问题是很有研究前景的
在结合逻辑规则和嵌入的方面,近期的工作将马尔科夫逻辑网络和 KGE 结合了起来,旨在利用逻辑规则并处理其不确定性。利用高效的嵌入实现能够获取不确定性和领域知识的概率推理,是未来一个值得注意的研究方向
为了实现多个实体间的跨句关系抽取,需要对文档中的多个句子进行阅读推理,这显然超出了句子级关系抽取方法的能力范围。因此,进行文档级关系抽取势在必行
文档级关系抽取研究需要大规模人工标注数据集来进行训练和评测。目前文档级关系抽取数据集还很少
工作 [26,27] 构建了两个远程监督的数据集,由于没有进行人工标注因此评测结果不太可靠
[26] Chris Quirk, Hoifung Poon. Distant Supervision for Relation Extraction beyond the Sentence Boundary. The 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2017).
[27] Nanyun Peng, Hoifung Poon, Chris Quirk, Kristina Toutanova, Wen-tau Yih. Cross-Sentence N-ary Relation Extraction with Graph LSTMs. Transactions of the Association for Computational Linguistics (TACL 2017).
BC5CDR [28] 是人工标注的文档级关系抽取数据集,由1,500篇PubMed文档构成是生物医学特定领域,且仅考虑“化学诱导的疾病”关系,不一定适合用来探索文档级关系抽取的通用方法
[28] Chih-Hsuan Wei, Yifan Peng, Robert Leaman, Allan Peter Davis, Carolyn J. Mattingly, Jiao Li, Thomas C. Wiegers, Zhiyong Lu. Overview of the BioCreative V Chemical Disease Relation (CDR) Task. The 5th BioCreative Challenge Evaluation Workshop (BioC 2015).
工作 [29] 提出使用阅读理解技术回答问题的方式从文档中提取实体关系事实,这些问题从”实体-关系“对转换而来
[29] Omer Levy, Minjoon Seo, Eunsol Choi, Luke Zettlemoyer. Zero-Shot Relation Extraction via Reading Comprehension. The 21st Conference on Computational Natural Language Learning (CoNLL 2017).
由于该工作数据集是针对这种方法量身定制的,也不那么适用于探索文档级关系抽取的通用方法。
这些数据集或者仅具有少量人工标注的关系和实体,或者存在来自远程监督的噪音标注,或者服务于特定领域或方法,有这样或那样的限制
为了推动文档级关系抽取的研究,姚远同学等 [30] 提出了DocRED数据集,是一个大规模的人工标注的文档级关系抽取数据集,基于维基百科正文和WikiData知识图谱构建而成,包含5,053篇维基百科文档,132,375 个实体和53,554 个实体关系事实,是现有最大的人工标注的文档级关系抽取数据集
[30] Yuan Yao, Deming Ye, Peng Li, Xu Han, Yankai Lin, Zhenghao Liu, Zhiyuan Liu, Lixin Huang, Jie Zhou, Maosong Sun. DocRED: A Large-Scale Document-Level Relation Extraction Dataset. The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019).
文档级关系抽取任务要求模型具有强大的模式识别、逻辑推理、指代推理和常识推理能力,这些方面都亟待更多长期的研究探索
更开放的关系类型
现有关系抽取工作一般假设有预先定义好的封闭关系集合,将任务转换为关系分类问题。然而在开放域的真实关系抽取场景中,文本中包含大量开放的实体关系,关系种类繁多,而且关系数量也会不断增长,远超过人为定义的关系种类数量
在这种情况下,传统关系分类模型无法有效获取文本中蕴含的实体间的新型关系。如何利用深度学习模型自动发现实体间的新型关系,实现开放关系抽取,仍然是一个”开放“问题
为了实现面向开放领域的开放关系抽取,研究提出开放关系抽取(Open Relation Extraction,OpenRE)任务,致力于从开放文本抽取实体间的任意关系事实
开放关系抽取涉及三方面的“开放”:首先是抽取关系种类的开放,与传统关系抽取不同,它希望抽取所有已知和未知的关系
其次是测试语料的开放,例如新闻、医疗等不同领域,其文本各有不同特点,需要探索跨域鲁棒的算法
第三是训练语料的开放,为了获得尽可能好的开放关系抽取模型,有必要充分利用现有各类标注数据,包括精标注、远程监督标注数据等,而且不同训练数据集的关系定义和分布也有所不同,需要同时利用好多源数据
在前深度学习时代,研究者也有探索开放信息抽取(Open Information Extraction,OpenIE)任务。开放关系抽取可以看做OpenIE的特例。当时OpenIE主要通过无监督的统计学习方法实现,如Snowball算法等。虽然这些算法对于不同数据有较好的鲁棒性,但精度往往较低,距离实用落地仍然相距甚远
最近,吴睿东同学等的工作 [31] 提出了一种有监督的开放关系抽取框架,可以通过”关系孪生网络“(Relation Siamese Network,RSN)实现有监督和弱监督模式的自由切换,从而能够同时利用预定义关系的有监督数据和开放文本中新关系的无监督数据,来共同学习不同关系事实的语义相似度
具体来说,关系孪生网络RSN采用孪生网络结构,从预定义关系的标注数据中学习关系样本的深度语义特征和相互间的语义相似度,可用于计算包含开放关系文本的语义相似度
而且,RSN还使用了条件熵最小化和虚拟对抗训练两种半监督学习方法进一步利用无标注的开放关系文本数据,进一步提高开放关系抽取的稳定性和泛化能力
基于RSN计算的开放关系相似度计算结果,模型可以在开放域对文本关系进行聚类,从而归纳出新型关系
[31] Ruidong Wu, Yuan Yao, Xu Han, Ruobing Xie, Zhiyuan Liu, Fen Lin, Leyu Lin, Maosong Sun. Open Relation Extraction: Relational Knowledge Transfer from Supervised Data to Unsupervised Data. 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP 2019).
高天宇同学等人工作 [32] 则从另一个角度出发,对于开放域的特定新型关系,只需要提供少量精确的实例作为种子,就可以利用预训练的关系孪生网络进行滚雪球(Neural SnowBall),从大量无标注文本中归纳出该新型关系的更多实例,不断迭代训练出适用于新型关系的关系抽取模型
[32] Tianyu Gao, Xu Han, Ruobing Xie, Zhiyuan Liu, Fen Lin, Leyu Lin, Maosong Sun. Neural Snowball for Few-Shot Relation Learning. The 34th AAAI Conference on Artificial Intelligence (AAAI 2020).
总结来说,开放域关系抽取在前深度学习时代取得了一些成效,但如何在深度学习时代与神经网络模型优势相结合,有力拓展神经网络关系抽取模型的泛化能力,值得更多深入探索
统一的框架
已有多个知识图谱表征学习模型被证明是等价的。例如,Hayshi 和 Shimbo 证明了 HoIE 和 ComplEx 对于带有特定约束的链接预测任务在数学上是等价的。ANALOGY 为几种具有代表性的模型(包括 DistMult、ComplEx,以及 HoIE)给出了一个统一的视角。Wang 等人探索了一些双线性模型之间的联系。Chandrahas 等人探究了对于加法和乘法知识表征学习模型的几何理解
大多数工作分别使用不同的模型形式化定义了知识获取的知识图谱补全任务和关系抽取任务。Han 等人将知识图谱和文本放在一起考虑,并且提出了一种联合学习框架,该框架使用了在知识图谱和文本之间共享信息的互注意力机制。不过这些工作对于知识表征和推理的统一理解的研究则较少
然而,像图网络的统一框架那样对该问题进行统一的研究,是十分有意义的,将填补该领域研究的空白
可解释性
知识表征和注入的可解释性对于知识获取和真实世界中的应用来说是一个关键问题。在可解释性方面,研究人员已经做了一些初步的工作。ITransF 将稀疏向量用于知识迁移,并通过注意力的可视化技术实现可解释性。CrossE 通过使用基于嵌入的路径搜索来生成对于链接预测的解释,从而探索了对知识图谱的解释方法
然而,尽管最近的一些神经网络已经取得了令人印象深刻的性能,但是它们在透明度和可解释性方面仍存在局限性。一些方法尝试将黑盒的神经网络模型和符号推理结合了起来,通过引入逻辑规则增加可解释性
毕竟只有实现可解释性才可以说服人们相信预测结果,因此研究人员需要在可解释性和提升预测知识的可信度的方面做出更多的工作
可扩展性
可扩展性是大型知识图谱的关键问题。我们需要在计算效率和模型的表达能力之间作出权衡,而只有很少的工作被应用到了多于 100 万个实体的场景下。一些嵌入方法使用了简化技术降低了计算开销(例如,通过循环相关运算简化张量的乘积)。然而,这些方法仍然难以扩展到数以百万计的实体和关系上
类似于使用马尔科夫逻辑网络这样的概率逻辑推理是计算密集型的任务,这使得该任务难以被扩展到大规模知识图谱上。最近提出的神经网络模型中的规则是由简单的暴力搜索(BF)生成的,这使得它在大规模知识图谱上不可行。例如 ExpressGNN 试图使用 NeuralLP 进行高效的规则演绎,但是要处理复杂的深度架构和不断增长的知识图谱还有很多研究工作有待探索
知识聚合
全局知识的聚合是基于知识的应用的核心。例如,推荐系统使用知识图谱来建模用户-商品的交互,而文本分类则一同将文本和知识图谱编码到语义空间中。不过,大多数现有的知识聚合方法都是基于注意力机制和图神经网络(GNN)设计的
得益于 Transformers 及其变体(例如 BERT 模型),自然语言处理研究社区由于大规模预训练取得了很大的进步。而最近的研究发现,使用非结构化文本构建的预训练语言模型确实可以获取到事实知识。大规模预训练是一种直接的知识注入方式。然而,以一种高效且可解释的方式重新思考只是聚合的方式也是很有意义的
自动构建和动态变化
现有的知识图谱高度依赖于手动的构建方式,这是一种开销高昂的劳动密集型任务。知识图谱在不同的认知智能领域的广泛应用,对从大规模非结构化的内容中自动构建知识图谱提出了要求
近期的研究主要关注的是,在现有的知识图谱的监督信号下,半自动地构建知识图谱。面对多模态、异构的大规模应用,自动化的知识图谱构建仍然面临着很大的挑战
目前,主流的研究重点关注静态的知识图谱。鲜有工作探究时序范围的有效性,并学习时序信息以及实体的动态变化。然而,许多事实仅仅在特定的时间段内成立
考虑到时序特性的动态知识图谱,将可以解决传统知识表征和推理的局限性
参考文献
[9] Shu Zhang, Dequan Zheng, Xinchen Hu, Ming Yang. Bidirectional Long Short-Term Memory Networks for Relation Classification. The 29th Pacific Asia Conference on Language, Information and Computation (PACLIC 2015).
[10] Minguang Xiao, Cong Liu. Semantic Relation Classification via Hierarchical Recurrent Neural Network with Attention. The 26th International Conference on Computational Linguistics (COLING 2016).
[11] Kun Xu, Yansong Feng, Songfang Huang, Dongyan Zhao. Semantic Relation Classification via Convolutional Neural Networks with Simple Negative Sampling. The 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP 2015).
[12] Yan Xu, Lili Mou, Ge Li, Yunchuan Chen, Hao Peng, Zhi Jin. Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths. The 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP 2015).
[13] Yang Liu, Furu Wei, Sujian Li, Heng Ji, Ming Zhou, Houfeng Wang. A Dependency-Based Neural Network for Relation Classification. The 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2015).
[14] Yan Xu, Ran Jia, Lili Mou, Ge Li, Yunchuan Chen, Yangyang Lu, Zhi Jin. Improved Relation Classification by Deep Recurrent Neural Networks with Data Augmentation. The 26th International Conference on Computational Linguistics (COLING 2016).