这篇文章从实体关系抽取的相关概念引人,描述了深度学习方法在医学领域实体关系抽取的发展历程,也从构建数据集的方面对监督学习和远程监督多实例学习模型进行阐述,并展望了医学文本实体关系抽取的未来研究方向。这里主要讲一下实体关系抽取模型的发展,前面的关于一些实体关系抽取的相关概念,命名实体识别、实体关系抽取、监督学习等概念的介绍就不赘述了。
深度学习方法的优势在于无须领域专家指定复杂的抽取特征,神经网络模型自身就可以学习到句子中隐藏的语义信息。下图为深度学习的实体关系抽取框架,从输入数据到评价指标都有不同的方法来实现。
早期利用深度学习技术进行关系抽取是在人工标注语料库的监督训练模式下进行的。基于有监督的实体关系抽取框架的演化过程如下图。通过将问题建模为多酚类问题,模型会尝试为句子中每一个实体对预测相应的关系类型。
Liu等用CNN网络取代手工构建文本特征,从而实现自动提取特征,并构造了一个从端到端的网络,用词向量和词法特征对输入的句子进行编码,经过卷积层、全连接层、SoftMax层给出最终所有类别的概率分布。这个模型使用同义词向量代替预训练词向量。后面Zeng等在之前的基础上模型选用了预训练词向量,其提出使用的位置嵌入向量成为了深度学习关系抽取模型的标准。在生物医学领域Sahu首次提出将CNN用于提取临床文本中医学实体之间的关系,除了词向量和位置向量,模型的输入还增加了磁性特征、词干特征、实体类型来丰富句子的表示形式并且在i2b2/VA临床关系抽取数据集上取得比以往最优的效果。
Nguyen等在关系抽取的监督学习研究领域提出了拥有多尺寸窗口内核的MW-CNN模型。这个模型就是完全摆脱了利用外部词汇特征类丰富数据句子的表示形式,而是让CNN自己学习需要的特征。输入层由词向量和位置向量组成,上层为卷积层和最大池化层,利用了不同的窗口大小的卷积核来捕获更广泛的n-gram信息。实验表明使用2、3、4、5窗口长度的内核可以提供最佳的性能。
由于CNN存在一定的缺点就是无法学习到时序特征,特别是实体对之间长距离依赖关系。所以Zhang等尝试基于RNN建模长距离关系抽取模式达到比较好的效果。这样的循环模型不仅在SemEval-2010task8数据集上表现良好,还在KBT37数据集上获得更明显的提升效果。所以实验验证了RNN的记忆优势适合对长文本进行建模。Zhou等提出集成基于特征的模型、基于核函数模型和神经网络模型的抽取框架,用于化学致病关系抽取任务,基于特征的模型获取表层词汇特征、基于核函数的模型捕捉结构化句法特征以及神经网络模型利用语义表示信息。生物医学领域Chikka等提出的双向长短时记忆网络(Bi-LSTM)和基于规则的方法解决i2b2-2010数据集中抽取疾病和治疗药物关系子任务。这个模型将单次级别特征(字向量、词向量、词性和位置特征)拼接后输入Bi-LSTM,之后将Bi-LSTM输出结果与句子级别特征拼接后输入至线性层判断关系类型。
深度学习方法的使用为减少手工制定特征提供可能,但是模型不可避免地会使用一些词汇资源( 如WordNet)和NLP系统(如依赖解析器和命名实体识别) 来获取高维特征。 另外,重要信息可能出现在句中的任何位置。 因此Zhou 等 提出基于神经注意力机制的 Bi-LSTM 框架,在不使用额外知识和自然语言处理系统的情况下,自动聚焦于对分类有决定性影响的词,捕捉句子中最重要的语义信息,该模型与基于排序的CR-CNN 模型效果一致。目前基于注意力机制的双向LSTM模型已经成为自然语言处理任务的标配,在关系分类任务上也取得了不错的效果,数据集中同种关系可以用多种不同的形式进行表述。Wang等提出基于两层注意力机制(实体级注意力机制和关系级池化注意力机制)的卷积神经网络框架,用于学习不同结构的句子中与目标分类最相关的元素。实体级注意力(第一层注意力)机制用于输入层,通过计算句中单词与目标实体的余弦相似度,突出句中与目标实体相关的部分;关系级池化注意力(第二层注意力)机制用于卷积后池化阶段,确定与目标关系相关的部分。该模型在SemEval-2010 task 8数据集上的F1值达到 88. 0%,优于依赖丰富先验知识的方法。
Riedel等为解决远程监督的局限性,放宽远程监督假设的限制,建模假设“ 如果实体对存在某种关系,那么包中至少有一个句子反映该关系” ,将任务建模为多实例学习问题。基于远程监督的实体关系抽取框架的演化过程如图所示。这样就可以利用远程监督创建大规模的训练数据,同时对标签中的噪声具有更好的鲁棒性。多实例学习是有监督学习的一种形式,将一组句子规定为一个包,通过对一个包进行标注,而不再需要标注每一个句子实例。在关系抽取中,每个实体对定义为一个包,包中包含着存在该实体对的所有句子。
Zeng等提出了分段卷积神经网络(PCNNs),使用多实例学习的模式,借助神经网络模型建立一个远程监督数据的关系抽取器,其重要贡献是提出了跨越整个句子的分段最大池化,这样的最大池化层虽然大大减小了隐藏层的大小,但是不足以捕获句子中实体之间的结构。因此,可以通过对句子的不同段池化而不是整个句子的最大池化来加以避免。 每个句子可以很自然地根据两个实体分为三部分,通过在每个段内执行分段最大池化以获得更丰富的表示,同时仍然保留与输入句子长度无关的向量。由于该方法假设“包中至少有一条语句表达实体对之间的关系” ,因此在训练和测试阶段仅使用最大概率的语句,这意味着模型忽略包中由其他句子提供的大量有用数据信息。即使包中并非所有句子都表达实体对之间的正确关系,但仅使用单个句子是异常严格的约束。借助多实例学习的PCNNs模型表现出优于传统非深度学习模型的性能,针对多实例问题,对单个包中所有的实例使用注意力机制。当使用包中所有实例的加权注意力机制表示损失时,模型能够从噪声中识别重要句子,并且利用包中的所有信息来进行关系类别预测。可以观察到,“只有一句最有可能的句子” 的模型是句子级注意力机制的一个特例,即最有可能的句子的权重为1,而其他句子的权重都为0。结果表明,使用句子级注意力机制模型可以显著提高CNN和PCNN模型的准确率与召回率。由于模型学习到散落在多实例中的信息,因此能够以较高的置信度预测正确的关系类型。
Jiang等提出了多实例、多标签的CNNs(multi-instance multi-label CNNs,MIMLCNNs)模型,使用跨文档的最大池化层解决信息损失问题。类似于前文所述的注意力机制,首先对包i中的每个句子dji 确定一个向量表示rji, 然后采用句子向量维数的最大值来确定包i的最终向量表示。这使得最终特征向量的每个特征都来自于最相关的文档,而不是整个特征向量来自于包中最相关的一个文档。 同时,也解决了关系抽取的多标签问题。 到目前为止,已有模型对一个实体对仅预测单个关系类型,但是相同的实体对可能从不同文档抽取多种关系(称为重叠关系) 。例如〈麻疹,传播途径,咳嗽〉和〈 麻疹,临床表现,咳嗽〉,对于相同的实体对〈麻疹,咳嗽〉来说都是有效的关系。于是在最终的分类层将SoftMax改为Sigmoid,这意味着网络独立地预测每个关系类别的概率,而不是预测所有关系上的概率分布。由于MIMLCNNs模型能利用包中多个文档的信息,因此能够像句子级注意力机制一样提升PCNN和CNN模型的性能。
Feng等提出,不同的单词在不同关系类型下以及对不同的实体对重要程度不同,这一点类似于监督学习中的多层注意力机制。同时,关系类型之间并不是独立的,会有重叠依赖现象,即所提出的多标签,本质上是因为标签之间有相互依赖关系,如果〈 A, capital, B〉成立,〈 A, contains, B〉也会成立。对于第一个问题,借鉴多层注意力的输入层注意力机制的思路,即根据单词与实体对的相似度来分配权重,但是这里不使用传统的注意力,而是基于记忆网络的思想。对于第二个问题,使用多层关系的注意力机制来引入关系类型之间相关度。利用单词级别的思路计算单词与目标实体的相关性,并且利用多层来挖掘更深层次的关系。关系级的动机则是考虑到数据中的关系依赖性,使用注意力来考虑关系之间的相关性。
Ji等引入额外的知识图谱信息,即实体描述信息。例如,NYT数据集是通过与 Freebase 做实体链接等来链接句子中的实体,而其实每个实体在 Freebase 都有一段文字描述。该研究认为现有工作集中在NYT和Freebase数据本身上,忽略了数据集背后的知识图谱信息,因此引入实体描述信息加强对实体嵌入的学习。此外,在处理多实例学习方面,同样使用了句子级注意力机制。 模型分为输入模块、注意力模块和实体描述模块三部分,其中输入模块中每个句子的词由词向量与位置向量连接表示,接着是卷积层与分段最大池化层,最终得到每个句子的向量。 模型上层则是用来解决多实例学习的注意力模块,计算包内每个实例与关系类型的相关性确定权重。 该研究的贡献主要在于从知识图谱中引入额外的实体描述信息,加强嵌入向量的学习。不过两部分的融合在本质上相当于在原有基础上加一个范式约束而已,或者说一个先验的惩罚项。
大多数联合抽取的神经模型采用参数共享的方式来实现联合抽取。为获取关系三元组,模型需要将检测到的实体对输入到关系分类器,以识别实体之间的关系。单独解码设计导致实体识别与关系抽取的训练目标分离,使得实体识别任务和关系预测任务之间的联系被切断。Zheng 等通过引入一种全新的统一标注方案来实现联合编码,将三元组关系抽取任务转化为不需要NER或RC的端到端序列标注问题。由于实体和关系的信息被集成到统一的标注方案中,因此模型可以将关系三元组作为一个整体来学习。然而,句子中可能会包含多个三元组,且存在前文所描述的三元组实体重叠现象。Zeng等提出一种具有拷贝机制的序列到序列模型;Fu等提出基于图卷积网络( graph convolutional network,GCN) 的方法;Wei等使用预训练模型 BERT 进行编码,并设计一种分层二进制标注策略,将实体对的语义关系视为主体到客体的映射函数。
根据所采用数据集的构建方式,前文分别回顾了监督学习和远程监督的多实例学习模型。下表记录了监督学习模型在BioCreative V数据集CID任务上的结果,以及远程监督的多实例学习模型在 NYT 数据集和WebNLG数据集上的结果。从表可以看出,监督学习模型和远程监督的多实例学习模型在数据集上的性能在持续提升。深度学习模型所使用的数据集中,预先定义的关系类别分布均匀且提供丰富的训练样例,单个样例表述相对简短、关系密度低,需要抽取三元组重叠现象并不严重。
为准确高效地扩展知识图谱,从海量非结构化医学文本中自动获取新的世界知识已成为必由之路。以实体关系抽取为代表的知识获取技术已经取得一些成果,特别是近年来深度学习模型极大推动了关系抽取研究的发展。本文依据数据集的构建方式,详细阐述了监督学习和远程监督的多实例学习,对相关模型的优点和不足进行分析,并探讨了面向医学文本的实体关系抽取任务所面临的多种挑战和未来发展方向。