文档级关系抽取-论文阅读:Entity Structure Within and Throughout

Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation

  • 1 论文动机
  • 2 论文贡献
  • 3 方法
    • 3.1 实体结构
    • 3.2 SSAN
    • 3.3 变换模块
  • 总结

这次阅读的论文是做文档级关系抽取任务的,发表于AAAI2021,作者来自于中国科学技术大学。目前主流的文档级关系抽取方法是构造文档级别的图,然后利用图学习的方法如图卷积、图注意力等获得实体结构特征用于关系抽取。但是这篇论文虽然也用了构造了文档级别的图。但是并没有使用上述图方法,而是使用双仿射变换在自注意力层加入图信息,提供了另外一种文档级关系抽取的思路。下面对这篇论文主要内容进行介绍。

1 论文动机

关系抽取的目标是从原始文本中发现关系事实来当作结构化的知识,在知识图谱构建、问答和生物医学文本分析等上具有重要的作用。虽然早期的研究主要把这个问题限制在单个句子和单个实体对上,但是现在很多工作努力把它扩展到文档级文本上。
文档级文本涉及到大量的实体,并且每个实体可能包含多个提及,所以在它们中间自然存在大量的依存关系,非常复杂。如下图所示是DocRED数据集上的一个例子。句子1中the Rolling Stones演唱了Coming Down Again,句2中Mick Jagger演唱了it,而it指代的是Coming Down Again,所以Mick Jaggerthe Rolling Stones中的一员。
文档级关系抽取-论文阅读:Entity Structure Within and Throughout_第1张图片
之前有大量的工作尝试探索这种实体结构,尤其是共指关系,但是这些方法大都只是在预处理或者后处理阶段用实体结构作为补充信息,而且它们除了利用共指外没有利用其它有意义的依存。最近有大量基于图的方法在建模实体结构的时候体现出了巨大优势,它们首先使用一个LSTM获取文档级的上下文词表示,然后构建一个合适的实体结构图并使用图模型学习。但是这种方法孤立了上下文推理和结构推理两个阶段,导致上下文表示不能从实体结构的推理中受益。

2 论文贡献

作者对上述问题进行改进,提出了本文方法,贡献主要如下:

  • 把实体结构放到一个统一的框架下,根据提及间的不同相互作用关系定义了多种提及依赖。

  • 为了利用定义的实体结构,构建了*SSAN (Structured Self-Attention Network)*模型,该模型对自注意力机制进行了扩展,使之能够学习实体结构信息。

  • 在三个文档级关系抽取的标准数据集上进行实验,并取得了SOTA结果,大量实验表明提出的方法能够缓解上述问题,有效提升文档级关系抽取的性能。

3 方法

3.1 实体结构

作者提出了两种提及间的结构关系:

  • 共现关系:两个提及是否出现在同一个句子中。
  • 共指关系:两个提及是否指向同一个实体。

这两种关系是两两组合共有四种情况,如下图所示:
文档级关系抽取-论文阅读:Entity Structure Within and Throughout_第2张图片
当一个提及有多个单词时,这种关系继承到每个单词。此外,除了提及间的依存关系,作者亦考虑了提及和句子内的单词间的依存关系、提及和跨句子单词间的依存关系,分别用intraNE和NA表示因此共有六种依存关系类型:{intra+coref, inter+coref, intra+relate, inter+relate, intraNE, NA}

3.2 SSAN

SSAN继承于Transformer框架,作者引入了一个变换模块来学习实体结构信息。对于一个输入序列x=(x1,x2,…,xn),构建了一个邻接矩阵S={sij},其中:sij∈{intra+coref, inter+coref, intra+relate, inter+relate, intraNE, NA},表示xi和xj的依存关系的一个离散值。SSAN的模型结构如下图所示,可以看到,在自注意力层加入了一个Transformation模块。
文档级关系抽取-论文阅读:Entity Structure Within and Throughout_第3张图片

3.3 变换模块

为了把离散的实体结构信息嵌入到模型种,作者引入了一个变换模块,可以使用两种方法:

  • 双仿射变换:公式如下,A(l,sij )是一个正态分布初始化的可学习参数。
    在这里插入图片描述
  • 分解线性变换:公式如下,Q(l,sij )和K(l,sij)都是可学习参数。
    在这里插入图片描述
    这里并没有用到sij,论文中也没有提到,查看论文源码后发现其实是在得到biasijl后,把它和sij相乘,也就是使用图的邻接矩阵作为一个mask矩阵。

总结

模型方法的主要内容如上,实验结果的话一个子,好!AAAI2021上还有有一篇做文档级关系抽取任务的论文,在DocRED数据集上本篇论文比其要高1个点左右。本论文构造文档图的方法和模型更为简单,但是却取得了更好的效果,是不是意味着虽然文档级关系抽取我们一般会构建文档图,但是图学习方法却不一定是最好的学习文档图特征的,我们也可以多尝试,说不定会有意外的惊喜。

你可能感兴趣的:(深度学习,人工智能,深度学习,python)