图神经网络关系抽取论文阅读笔记(一)

1 基于神经网络的关系分类任务图

关系分类/全监督关系抽取任务主要有以下几个主要过程:人工标记数据、特征提取、训练分类器、抽取新的关系。

图神经网络关系抽取论文阅读笔记(一)_第1张图片

2 特征提取

  • 词法特征:

    1. 每个实体对应的词性,如形容词、副词、代词、限定词等
    2. 被标记实体之间的单词序列:两个实体之间的单词
    3. 被标记实体的上位词
    4. 句子中首先出现的被标记实体左侧的K个单词及其对应的词性
    5. 句子中后出现的被标记实体右侧的K个单词及其对应的词性:
    6. 被标记的实体与其左右两侧的单词构成的当前实体的上下文信息。
  • 句法特征:

    1. 依存句法特征:使用Stanford CoreNLP得到的句子“The company fabricates plastic chairs."对应的依存句法树如图所示:

      图神经网络关系抽取论文阅读笔记(一)_第2张图片

    2. 位置特征:句子中每个单词相对于两个被标记实体的距离

3 基于文本语义特征的经典关系分类模型

3.1 基于卷积神经网络的关系分类

其中最具有代表性的是Zeng等人提出的CNN模型,该模型可以自动提取词级特征和句子级特征,并把两种特征串联作为最终的特征向量用于关系分类器的输入。该模型的主要结构如图所示:

论文:Relation Classification via Convolutional Deep Neural Network,2014

图神经网络关系抽取论文阅读笔记(一)_第3张图片

整个模型包括三个部分: Word Representation、Feature Extraction和Output。输入不需要经过复杂的处理,只输入带有两个被标记实体的句子即可。首先,将句子中的各个单词通过查找预训练的词向量矩阵转换成词向量;再提取词汇级特征和句子级特征,并将两个特征进行串联作为最终的特征向量;最后,将特征向量传入softmax分类器中得到针对每个关系的置信度,置信度最高的关系类型就是预测的两个被标记实体在当前句子中所表达的语义关系。该模型中使用两种形式的特征:词汇级特征和句子级特征

  • 词汇级特征:该文中的词汇级特征是:被标记的两个实体的词向量、被标记,实体及其左右Token也就是被标记实体的上下文、被标记实体在WordNet中的上位词对应的词向量。将上述特征串联后作为该实例对应的词汇级特征。
  • 句子级特征:1. 标记实体前后k滑动窗口,作为特征 2. 其他token相对标记实体未知向量

图神经网络关系抽取论文阅读笔记(一)_第4张图片

Zeng等人提出的CNN模型网络并不复杂,但是设计以及构思都十分巧妙,也是开始将神经网络用于关系分类任务的一次大胆的尝试**。而且在该模型中也首次提到了位置特征。单词与被标记实体之间距离的不同对于被标记实体语义理解的贡献也是不同的**。随着单词和被标记实体之间距离的增加,单词的贡献逐渐减小。因此之后的很多的尝试都将相对位置考虑在内。除此之外,该文中也有意识的使用外部知识库中的知识丰富关系分类的特征,在句子的词级特征获取过程中使用了WordNet中的上位词信息。但是该方法中也仅使用了知识库的词级特征,而忽略了知识库中知识间的语义联系和结构特征

3.1.1实验效果

本文提出的方法在当时的任务SemEval-2010任务8的数据集上,取得了STOA。从下面给出的实验结果中,看出:

图神经网络关系抽取论文阅读笔记(一)_第5张图片

从特征的作用上看,位置特征在关系抽取中起到最重要的作用,而组合特征也可以明显提高F1值。下表中L1 是实体名词1,L2是实体名词2,L3是实体1的上下文,L4是实体名词2的上下文,L5是实体的义原特征。

图神经网络关系抽取论文阅读笔记(一)_第6张图片

3.2 基于图神经网络的关系分类

论文:Graph Convolution over Pruned Dependency Trees Improves Relation Extraction,2018

已经有研究证明,图神经网络GNN不仅可以通过使用连通的邻居节点和边的信息来迭代的更新当前节点的向量表示,还可以捕获图中的结构特征,而CNN和RNN等模型在捕获类似依赖树等图的结构特征时就有些力不从心。因此研究者们开始使用图神经网络捕获句子依赖树中的长距离依赖句法特征,其中最具代表性的是Zhang等人提出的C-GCN模型,模型的整体结构如图所示:

图神经网络关系抽取论文阅读笔记(一)_第7张图片

首先,针对在依赖树修剪上出现的问题,该文作者提出一种新的修剪策略,即保留两个可能存在关系的实体之间最短路径中的单词,而且尽可能地删除树中无关的信息。然后,针对依赖树上相关特征抽取的问题,该文作者们为关系抽取任务定制了一种图卷积网络。

由于GNN无法编码长距离信息,本文首先将每个单词的词向量输入到BiISTM网络中,获取每个单词结合语序和上下文信息的向量表示。由BiLSTM输出的向量表示为h0");然后再将该向量作为GCN的输入使用邻居节点更新其表示

3.2.1实验效果

在两个关系抽取的数据集上进行了实验:

(1)TACRED:在(Zhang et al,2017)中被发布, TAC KBP包含了来自每年TAC KBP挑战的106k个实体对。它包含41种关系类型和一种特殊的的类型,即“无关系”,当实体对的关系不存在于41种给定的关系类型之内时,则会被标记为“无关系”。TACRED中的实体对是被标注好的,主语分为个人和组织,宾语被分为16种细粒度类型(例如日期和位置)。我们在这个数据集上报告了传统的微观平均F1分数。

(2)SemEval 2010 Task 8:SemEval数据集在最近的工作中被广泛使用,但其规模要小得多,其中包括8000个训练样本和2717个测试样本。它在未被标注的实体对上包含了19个关系类别:9个有向关系和一个特殊的Other类。在SemEval上,我们遵循惯例,给出了官方的宏观平均F1分数。

  • 在TACRED数据集上的结果

    图神经网络关系抽取论文阅读笔记(一)_第8张图片

  • SemEval 2010 Task 8数据集上的结果

    图神经网络关系抽取论文阅读笔记(一)_第9张图片

3.3 基于预训练语言模型的关系分类

论文:R-Bert:Enriching Pre-trained Language Model with Entity Information for Relation Classification,2019

随着预训练语言模型BERT在众多自然语言处理任务中取得的显著效果,研究学者开始将BERT应用到关系分类任务上来,其中最具有代表性的是Wu等人提出的R-BERT模型,模型的整体结构如图所示。

图神经网络关系抽取论文阅读笔记(一)_第10张图片

从论文中了解到,R-BERT模型首先使用BERT编码器得到整个句子及句子中每个单词对应的分布式向量表示;然后将每个被标记实体中包含的单词的分布式向量表示采用取平均的方式得到每个实体对应的分布式向量;最后将句子的分布式向量表示与两个被标记实体对的分布式向量表示串联后作为最终的特征向量用于完成关系分类任务。

该模型在使用BERT获取编码前,为了能够明确被标记实体对的位置,在每个被标记实体前后加了特殊的标记,在第一个被标记的实体前后加了“$”,在第二个被标记的实体前后加了“#”。然后通过BERT的输出来定位对应的目标实体。

整个R-BERT模型结构并不复杂,这也是将BERT用于关系分类任务的首次重大尝试,也取得了最好的结果。因为BERT在编码时可以获取双向的上下文信息。之后的很多工作都受到该模型中的启发,开始将BERT等预训练语言模型逐步运用到关系分类任务上并取得了不错的成果。

3.3.1 实验效果

R-BERT模型在SemEval-2010 Task 8数据集上的表现以及与其他模型的对比如下:

图神经网络关系抽取论文阅读笔记(一)_第11张图片

本文设计了三个消融实验,分别是仅使用[CLS]而不使用实体的词向量(BERT-NO-ENT)、不加上特殊标记 ‘$’ 和 ‘#’ (BERT-NO-SEP)以及既不加特殊标记也不使用[CLS](BERT-NO-SEP-NO-ENT),消融实验结果如下:

图神经网络关系抽取论文阅读笔记(一)_第12张图片

你可能感兴趣的:(NLP自然语言处理,论文阅读,NLP,pytorch,图神经网络,关系抽取)