基于深度学习的实体和关系联合抽取模型研究与应用(一、绪论)

《基于深度学习的实体和关系联合抽取模型研究与应用》——钟华帅.华南理工大学
本文对论文内容进行提炼

摘要

传统的流水线模型将实体识别和关系抽取当作两个独立的子任务,存在着错误传播、信息冗余以及没有建立两个子任务依赖的问题,这些问题都会影响最终抽取的效果。本文围绕实体和关系的联合抽取模型展开了研究,调研了国内外现有的实体识别、关系抽取以及实体和关系联合抽取模型,整理并分析了现有模型中存在的缺陷和不足,从基于参数共享和基于标注策略创新两个角度出发,提出了两种联合抽取模型。主要的工作内容如下:

1、针对流水线模型忽略两个子任务内在依赖的问题,提出了一种融合子句信息的联合抽取模型。模型基于参数共享的方法,使用预训练语言模型 BERT 作为实体识别和关系抽取的共享编码层,来建立两个子任务之间的联系,并且通过将实体对编码信息与子句信息相结合,提高了关系分类的性能。模型在 CoNLL04 数据集上实体识别和关系抽取的 F1 值分别达到了 89.2%和 71.5%,证明了本文提出模型的有效性。
2、针对信息冗余问题,构建了基于分解标注策略的联合抽取模型,将实体和关系联合抽取任务转化为头实体识别、尾实体和关系抽取两个子任务,并且在训练阶段引入偏置权重缓解了标注策略带来的类别不平衡问题,在预测阶段基于句子语义关系对模型结果进行修正,提高了模型的性能。模型在 NYT 数据集上 F1 值达到了 88.6%,相较于其它联合抽取模型取得了最好的性能。
3、将本文提出的两种联合抽取模型应用于面向音乐领域的实体和关系抽取系统中,实现了将音乐文本转化为结构化的三元组,为构建音乐领域知识图谱提供数据支持。

研究现状

1.命名实体识别

命名实体识别是指从文本中提取出有特定意义的实体的边界和类别。目前,命名实体识别的方法主要有基于规则和词典、基于统计机器学习以及基于深度学习三种方法。
基于规则和词典的方法基本设计思路是将文本与一个包含全部实体名称的字典按照一定的策略进行字符串匹配,或者通过领域专家人工大量定义语言学的规则对文本进行自动识别。王宁[1]等人通过分析研究金融文本总结公司名的上下文信息归纳成规则库,利用规则库对文本进行扫描来完成公司名的实体识别。Porteus[2]、NetOwl[3]等早期的实体识别系统都是基于字典和规则实现的。基于字典和规则的方法一般准确率比较高,并且不需要标注数据,但是该方法需要大量人力构建领域词典和制定规则,并且泛化能力差。

基于统计机器学习的方法的基本思想是利用训练预料中的信息来构建概率统计模型,运用模型来估计测试预料中的标注概率。部分学者将实体识别问题视为分类问题,运用支持向量机(Support Vector
Machine,SVM)[4]、最大熵(Maximum Entropy,ME)[5]等方法来训练分类器从而获取实体的边界和类别,但是这样存在的问题是捕获上下文关系的能力较弱,因此更多的学者使用序列模型来解决实体识别问题。Bikel 等人提出了基于隐马尔科夫模型(HMM)的英文实体识别方法,构建生成模型进行实体识别[6]。然而,HMM 基于观察序列每个元素都互相独立的假设,但是在真实世界中观察序列是由多个互相作用的特征和较长窗口内元素的依赖决定的。条件随机场[7](Conditional random field, CRF)打破了 HMM 的独立性假设,可以容纳任意长度的上下文信息,从而充分利用丰富的内部以及上下文特征信息,并且通过全局归一化来获取最优输出标签序列的概率,因此在机器学习方法中CRF 逐渐成为实体识别的主流模型。俞鸿魁[8]等人基于层叠 HMM 的方案,用一个统一的模型来实现人名、地名、机构名的识别,提高了模型的整体效果。Duan[9]等人增加词语的前后窗口词作为特征来训练 CRF 模型,在中文人名、机构名识别上取得了良好效果。Zhou[10]等人则提出了一个层叠随机场的中文机构名识别模型,通过低层的实体识别和高层的特征组合,提高复杂机构名的识别效果。

基于统计机器学习的方法需要人工选取词性、依存句法依赖、上下文等可能对任务结果有影响的特征作为模型的输入,而基于深度学习的方法可以让神经网络自动挖掘数据的深层次特征进行预测。
深度学习开始成为实体识别的主流方法。Collobert [11]等人提出了利用多层感知器和一层卷积神经网络(Convolutional Neural Networks, CNN)来分别提取窗口和句子的特征,最后传入 CRF 完成实体识别任务。Lample[12]等人提出了经典的循环神经网络(Recurrent Neural Network, RNN)和 CRF 模型相结合的实体识别模型,主要包括三层,Embedding 层将词或者字进行向量化,双向 RNN 层进行特征提取,CRF 层进行序列标注,实验表明 RNN-CRF 模型效果已经超过了基于丰富特征的CRF 模型。在 RNN-CRF 的基础上,Ma[13]等人提出了使用 CNN 提取基于字符向量的词表示,然后将词表示和词向量进行拼接后传入双向长短时记忆网络(Bi-directional Long Short Term Memory Network, BiLSTM)和 CRF 的结构中来提取句子中的实体,避免了对词向量的过度依赖;Rei[14]等人使用 Attention 机制动态选择词和字向量作为 RNN-CRF模型的输入,结果表明基Attention 的选择机制比简单的词和字向量拼接的效果更好。因为中文容易由于分词错误影响对实体边界的预测从而导致对实体的识别错误, Zhang[15]等人提出了 Lattice LSTM 结构,在字粒度信息的基础上添加序列中所有可能的词粒度信息,通过一个额外的门结构让模型自己控制字、词信息的取用,从而实现了引入词信息的同时避免中文分词错误。Devlin[16]等人基于海量无监督语料库来预训练Bidirectional Encoder Representations from Transformers(BERT)语言模型,然后基于有监督的语料对 BERT 进行微调,在实体识别领域刷新了 CoNLL2003 NER 数据集的最佳性能。

2.关系抽取

关系抽取是指判断给定实体对存在哪种语义关系。根据方法的不同,关系抽取可以分为基于模板、基于特征工程、基于核函数以及基于深度学习四类方法。
基于模板的方法主要靠模板对文本进行匹配来获取关系。主流的方法包括使用Boostrapping 策略获取模板以及基于聚类的方法筛选模板。Bootstrapping 是利用部分关系实例建立种子集合,然后基于种子集合中的实例从海量文本中抽取出模板,通过模板识别更多的实例加入种子集合中,重复以上过程来扩充种子集合和模板集合。基于聚类的方法通过计算实体对上下文的相似性进行聚类从而获取实体对的关系。如 Bollegala[17]等人基于联合聚类算法来测量实体对之间的关系相似性获取关系抽取模板,并利用 L1正则化和逻辑回归模型从模版集合中筛选出代表性的模板。

基于特征向量的方法主要是通过人工对语料进行分析,选取和集成诸如词性、实体的依存树等作为特征来训练分类器,从而获取实体间的关系。基于特征向量计算速度快,但是需要领域专家从语料中抽取各种词法和语义等特征并有效集成起来才能取得较好的效果。

基于核函数的方法可以将结构树映射到高纬的特征空间中计算关系间的距离,能够更好地计算结构的相似性,不再需要构建特征向量空间就可以实现关系的抽取。Zelenko[22]等人基于动态规划算法计算句法树核函数相似度,然后利用 SVM 算法获取实体间的关系。Culotta[23]利用依存规则将句法树转化为依存树,SVM 分类器使用依存树核函数实现关系抽取。Bunescu[24]等人提出基于三种子序列模式来计算字符串序列核函数,三种子序列模式可以由词、词性、实体类型、WordNet 同义词集等构成,最后将核函数与 SVM 相结合获取实体间的关系。庄成龙[25]等人往最短路径包含树中添加实体语义信息后对句法分析树进行裁剪后,生成实例树,使用卷积树核来计算实例树之间的结构相似度。

语义结构树是基于核函数的关系抽取的基础,但是生成语义结构树过程中带来的误差会影响后续关系模型的性能。而基于深度学习的方法可以让神经网络学习文本的潜在特征,从而减少自然语言处理工具所带来的误差。Socher[26]等人使用递归神经网络,从低往高迭代合并句子句法解析树,获取句子向量来解决关系分类问题。因为实体信息和词汇位置信息是关系抽取任务的重要特征,Zeng[27]等人将词向量和词位置向量进行拼接作为输入,传入带有卷积和最大池化层的卷积神经网络中获取句子级特征,将句子级的语义特征和包括实体及其相邻上下文的词汇级特征拼接来预测实体间的关系。为了减少人力标注的成本,Mintz[28]等人提出了远程监督的思想,即是将包含两个已知关系实体对的句子都作为该关系的正例,从而达到扩充训练数据集的目的。针对弱标注数据中的噪声,Zeng[29]等人采用 Piece Wise CNN+多实例学习的方法来进行关系抽取,首先将出现两个相同实体的句子集作为一个包,采用 Piece Wise CNN 网络结构将句子卷积后的值以两个实体为边界分为三段进行池化,对包中的每个句子进行关系预测,最后抽取包中置信度最高的样本作为模型的训练数据。Lin[30]等人在 Zeng[29]工作的基础上通过注意力机制来给包中每个句子进行分配权重,从而利用更多有效的句子用于训练。基于 CNN的方法难以建模句子中的长距离依赖关系,Zhou[31]等人利用BiLSTM 获取句子长距离的上下文信息,并利用 Attention 机制来学习不同位置的词的重要程度。Guo[32]等人使用递归循环神经网络获取词的上下文特征,使用 CNN 获取关系分类任务的句子特征,并利用词级和句子级的 Attention 增强模型的性能,结果在 SemEval-2018 task 7 和 KBP37等数据集中取得了最佳的性能。Christopoulou[33]等人引入了图神经网络到关系抽取任务中,将实体视为顶点,关系视为边,构建实体图从而利用图神经网络学习到一个句子中不同实体对的关系之间的互相影响,最终有效提高了关系分类任务的 F1 值。

现存问题

流水线模型的优点是可以针对实体识别和关系抽取任务的特点,灵活设计两个任务的模型,但是流水线模型存在以下的问题:
1、 错误传播问题:实体识别是关系抽取的前置任务,实体识别模型的错误会导致关系分类模型无法得到正确的结果。
2、 忽略了两个子任务的内在联系:流水线模型将实体识别和关系抽取当成两个独立的任务来分开训练,实际上两个任务之间存在着紧密的交互信息,如一个句子中如果存在“演唱”关系,那么句子中会包含“音乐人” 以及“歌曲”实体。
3、 信息冗余问题:实体识别结果中的部分实体与其它实体不存在语义关系,实际上是关系抽取任务中的冗余信息,会影响关系抽取结果的精度。

联合抽取模型

针对流水线模型中存在的缺陷,有的学者提出了联合抽取模型来同时抽取实体和实体间的关系。根据模型建模的方法的不同,又可以将联合抽取模型分为基于参数共享的方法、基于标注策略创新的方法以及基于图的方法。
在基于参数共享的方法中,通过让两个任务共享编码层,使得实体识别和关系抽取在训练时都能对共享编码层的参数进行更新,从而找到全局任务的最佳参数。
但是基于参数共享的方法在使用时还是依赖于实体识别的结果构造实体对,再进行关系分类,但是部分实体对间不存在语义关系,给关系分类任务带来了冗余信息。
为了避免基于参数共享方法中的信息冗余问题,部分科研人员提出了改变三元组标注的策略来实现实体和关系的联合抽取。如 Zheng 等人提出了一种新的标注策略把实体和关系联合抽取变成了一个序列标注问题,其中标注的序列信息包括实体词的位置信息、实体关系的类型信息以及实体的角色信息。Yu等人将联合抽取任务分解为 HE 和 TER 两个关联的子任务,HE 阶段提取句子中所有关系可能的头实体,TER 阶段为每个头实体识别所有对应的尾实体和关系,通过合理的任务分解策略使得模型可以捕获两个任务的语义依赖,并去除了冗余实体的影响,实现了对实体部分重叠情况下的关系抽取。
随着图神经网络的兴起,研究人员提出了基于图的实体和关系联合抽取方法。
1.基于转移的方法,将实体识别和关系抽取联合抽取任务转化成有向图的生成问题,利用图中的节点可以含有零个或多个有向边的特点来抽取重叠关系。
2.将实体和关系的联合抽取任务分为两个阶段,第一个阶段结合了 BiLSTM 提取的序列特征和图卷积神经网络(Graph Convolutional Networks,GCN)提取的依赖树特征,来计算每两个词的关系得分,构建关系权重连接图,并预测每个词的关系类型和实体类型;第二个阶段在第一个阶段输出的基础上,在每个关系权重连接图上使用 GCN 来综合词特征和关系得分,再次预测实体和关系,综合两个阶段的 loss 来对模型参数进行更新,实现端对端的实体和关系抽取模型。

本文研究内容

为了解决流水线模型中存在的错误传播、信息冗余以及没有建立两个子任务间联系的缺陷,本文基于深度学习的方法,从基于参数共享和基于标注策略创新两个角度出发,研究信息抽取领域中的实体和关系联合抽取
模型,并将上述的研究成果应用于构建音乐领域知识图谱的信息抽取任务中。本文的研究内容如下:

1、基于 BERT 对文本进行编码。使用 Word2vec 等词向量无法解决一词多义的问题,因此本文使用预训练的双向语言模型 BERT 来提取文本的语义特征,对于输入文本中的每一个词,根据其上下文信息来创建动态语义表征,并在模型的训练的过程中对BERT 模型的参数进行调整,得到高质量的词语义编码和句子语义编码。
2、提出了一种融合子句信息的联合抽取模型。模型使用预训练语言模型 BERT 作为两个子任务的共享编码层,从而建立起实体识别和关系抽取两个任务的依赖。在关系分类阶段,通过注意力机制获取子句表征息,与实体对编码信息相结合,进一步提高了关系分类的性能。
3、提出了基于分解标注策略的联合抽取模型,将实体和关系联合抽取任务转化为头实体识别、尾实体和关系抽取两个子任务,避免先识别实体后识别关系导致的信息冗余问题。同时,在训练过程中引入偏置权重来缓解尾实体和关系抽取任务中的类别不平衡问题,在预测阶段使用 BERT 中 CLS 字符对应的语义向量获取句子可能存在的语义关系,从而对预测结果进行筛选,进一步提高了模型的整体性能。
4、设计并实现了面向音乐领域的实体和关系抽取系统。通过将融合子句信息的联合抽取模型和基于分解标注策略的联合抽取模型应用在音乐领域,实现了从歌手介绍、专辑信息等文本中抽取出实体以及关系组合成结构化的三元组。

你可能感兴趣的:(基于深度学习的实体和关系联合抽取模型研究与应用(一、绪论))