基于深度学习的实体和关系联合抽取模型研究与应用(二、相关理论技术)

本章分别介绍论文涉及到的理论和技术,其中第一节介绍实体和关系联合抽取方法,第二节介绍广泛应用于处理序列数据的循环神经网络,第三节介绍 Word2vec、BERT 等语言表示模型,第四节介绍了条件随机场模型。

一、实体和关系联合抽取方法

(一)基于参数共享的联合抽取模型


1、嵌入层:基于随机初始化或者加载预训练好的字、词向量矩阵的方式,将输入的文本转化为向量形式。
2、共享编码层:使用能够提取更丰富上下文表征的模型,从嵌入层输出的向量中获取语法、句法等特征作为后续实体识别、关系抽取任务的语义编码。
3、实体和关系解码层:根据两个子任务的特点,采用不同的解码层,解码层主要的作用是根据编码层得到的语义编码来计算实体标签类别和关系类别的得分分布。
4、实体和关系得分层:利用交叉熵等代价函数来计算解码层预测的得分分布与真实分布的差异,作为模型的 loss,模型的整体 loss 为实体识别和关系抽取两个子任务的 loss之和。
5、优化层:在训练的过程中,利用梯度下降或者梯度下降的改进算法来计算模型参数的梯度,通过反向传播迭代更新模型的参数,使得模型逐渐收敛。

(二)基于标注策略创新的联合抽取模型

为了解决将实体识别和关系抽取分开进行产生的冗余信息,Zheng[36]等人首次提出了基于新的标注策略,将抽取实体-关系三元组任务建模成一个序列标注任务。一个实体单词的标记包含三个部分的信息:1、BIESO 标注单词在实体中的位置,其中 S 代表实体只包含一个词,B、I、E 分别代表实体的起点、中间、终点,O 代表非实体词;2、关系类型,如 CP 代表着 Country-President 关系;3、实体的语义角色,{1,2}分别代表为语义关系中的{头实体,尾实体}。 通过这种标注策略,使用一个端对端的序列标注模型就可以联合抽取出实体-关系三元组,解决了信息冗余问题。

二、循环神经网络


RNN 可以接受不限长度的输入,但是在反向传播过程中对 RNN 的参数进行优化时,如果输入序列过长,会因为权重矩阵和激活函数导数的连乘使得梯度增长或者缩小得非常快,导致对应的梯度爆炸或梯度弥散问题。针对 RNN 上述缺陷,Hochreiter 等人提出了基于长短时记忆(Long Short-Term Memory,LSTM)的循环神经网络,让模型能够学习到长距离的上下文依赖。LSTM 单元的结构如图 2-5 所示:

使用单向的 LSTM 只能获取从前往后的上文信息或者从后往前的下文信息,而在大部分的文本处理任务中,当前状态是由上下文信息共同决定的。通过将正向 LSTM 和反向 LSTM 对应的位置进行拼接,组成 Bi LSTM,可以让模型学习到长距离的上下文信息。BiLSTM 的网络结构如图 2-6 所示:


三、语言表示模型

深度学习模型需要将文本中的词转化为向量作为输入。最简单的词表示方法是采用独热向量。但是独热向量不能反映词与词之间的关系,并且容易导致维度灾难。真正让词向量广泛应用于自然语言处理任务中的工作是 Mikolov 等人提出 Word2vec。Word2vec 包含 CBOW(Continuous Bag-of-Word Model)和 Skip-Gram 两种获取词向量的模型。CBOW 模型是根据上下文来预测目标词,而 Skip-Gram模型则是利用目标词来预测它的上下文。不管是 CBOW 还是 Skip-Gram,其本质都是利用矩阵变换,将原来高维的独热向量转化为低维、具有一定语义信息的词向量。为了减少每条样本在输出层做 Softmax 时的计算开销,作者还引入了基于层次 Softmax 和负采样两种优化算法。
基于 Word2vec、Glove[45]等方法得到的词向量本质是静态的词向量,静态是指它们在训练完成后每个单词的表示就固定住了,在使用的时候词向量无法根据上下文语境的改变而变化。为了解决静态词向量无法区分多义词语义的局限性,科研人员提出了基于预训练语言模型来创建语境化的动态词向量的方法。Peters 等人提出了一种双向神经网络语言模型 Embeddings from Language Models (ELMo)来获取语境化的词嵌入。ELMo 能够根据每个单词的上下文语境,学习到每个单词的句法和语法特征,来创建单词在当前语境中的特征表示,从而解决了一词多义的问题。

ELMo 使用了前向(从左往右)和后向(从右往左)两种单向的 LSTM 语言模型来构成双向语言模型(biLM),如图 2-7 所示:

不同于 EMLo 将预训练语言表示当作下游任务模型的特征,Radford 等人提出一种基于微调使用的预训练语言模型 Generative Pre-Training(GPT)。GPT 可以分为无监督的预训练和有监督的微调两个阶段。由图 2-8 可以看出,GPT 采用了单向的语言模型,只采用了词的上文信息来预测当前词,并且使用多层 Transformer 结构提取句子编码信息来进行预训练。

四、条件随机场

一个整体由若干位置组成,并且每个位置根据某种分布进行赋值,这个整体就组成了随机场。马尔可夫随机场是符合马尔可夫特性的随机场,即当前位置的赋值仅与相邻节点有关,与其它节点无关。条件随机场假设马尔可夫随机场只有 X 和 Y 两种变量,在 X 已知的情况下计算 Y 的条件概率分布 P(Y|X)。

你可能感兴趣的:(基于深度学习的实体和关系联合抽取模型研究与应用(二、相关理论技术))