bert做文本摘要_语篇感知神经抽取式文本摘要

bert做文本摘要_语篇感知神经抽取式文本摘要_第1张图片
论文标题:Discourse-Aware Neural Extractive Text Summarization 论文来源:ACL2020 论文链接:arxiv.org/abs/19... 论文源码:github.com/jia...

Abstract

BERT模型在许多摘要任务中都发挥着出色的表现。但是,基于句子的提取模型通常会在提取的摘要中导致多余或无意义的短语;同样,整个文档中的远程依存关系也不能很好地被BERT捕获,因为BERT是对句子对(而不是文档)进行了预训练。

为了解决这些问题,作者提出了一种语篇感知神经摘要模型-DISCOBERT。DISCOBERT将次句子语篇单位(而不是句子)作为候选者,以进行更精细的抽取选择;为了捕获语篇单元之间的长期依赖关系,作者基于RST树和共指关系构建了结构化的语篇图,并使用图卷积网络进行了编码。

实验表明,与其他基于BERT的模型相比,该模型在流行的摘要基准上的性能要优于最新方法。

Introduction

作者提出的DISCOBERT模型是一种基于BERT的语篇感知神经提取摘要模型。为了同时执行压缩和提取并减少句子的冗余度,作者将基本语篇单元(EDU)而不是句子作为最小选择单元,其中EDU是源自RST(修辞结构理论)的子句短语单元。通过在话语单元级别上进行操作,模型可以丢弃子句中的多余细节,因此保留了包含更多概念或事件的额外功能,从而提供了更加简洁和信息丰富的摘要。

作者的贡献主要体现在以下三个方面:

  • 提出了一种语篇感知提取摘要模型DISCOBERT,该模型在实体语篇单元级别上运行,以生成简洁且内容丰富的摘要,而冗余度较低;
  • 使用两种类型的语篇图在结构上模拟句子间上下文;
  • DISCOBERT在两个流行的Newswire文本摘要数据集上达到了新的技术水平,优于其他基于BERT的模型。

Discourse Analysis

语篇分析的重点是文档或对话中的句子间关系,而修辞结构理论(RST)是一种基于文本局部之间关系的关于文本组织的描述理论。在RST框架中,文本的话语结构可以以树格式表示。整个文档可以分为连续的,相邻的和不重叠的文本范围,称为基本语篇单元(EDU)。每个EDU都被标记为“核”或“卫星”,这是其核能或显著性的特征。核节点通常位于中心位置,而卫星节点则位于外围位置,并且在内容和语法依赖性方面不太重要。 EDU之间存在依存关系,代表着它们的修辞关系。作者将EDU视为文本摘要中内容选择的最小单位,

在文本摘要的内容选择中,作者希望模型选择文档中最简洁,最关键的概念,并且冗余度较低。作者提出的方法可以选择一个或几个细粒度的EDU,以使生成的摘要较少冗余。这是DISCOBERT模型的基础。

bert做文本摘要_语篇感知神经抽取式文本摘要_第2张图片

RST Graph

当选择句子作为提取性摘要的候选者时,常假设每个句子在语法上都是独立的。但是对于EDU,需要考虑一些限制以确保语法。话语单元和结构的实现是EDU预处理的关键部分,需要两个步骤:话语分割和RST解析。在分割阶段,作者使用基于BiLSTM CRF框架的神经语篇分割器,分段器在RST-DT测试集中获得94.3 F1分数,其中人类表现为98.3。在解析阶段,使用平移-减少语篇解析器提取关系并识别神经质。

EDU之间的依赖性对于所选EDU的语法至关重要。所选EDU的数量取决于参考摘要的平均长度,跨EDU的依赖性以及现有内容的长度。根据开发集调整所选EDU的最佳平均数量。

RST Graph的构建不仅旨在在EDU之间提供本地段落级别的连接,而且还提供远程文档级别的连接。从第i个EDU到第j个EDU的相关性作为有向边,即

[i] [j] = 1。

Coreference Graph

文本摘要(尤其是新闻摘要)通常会遇到众所周知的“位置偏见”问题。大部分关键信息在文档的开头就进行了描述,但是,在文档的中间或末尾仍然散布了大量的信息,摘要模型通常会忽略这些信息;此外,在长篇新闻文章中,整个文档中经常有多个核心人物和事件。但是,现有的神经模型在建模这样的远程上下文时效果不佳,尤其是当存在多个模棱两可的共指关系要解析时。

为了鼓励和指导模型捕捉文档中的远程上下文,作者提出了基于话语单元的共指图,其算法如下图所示:

bert做文本摘要_语篇感知神经抽取式文本摘要_第3张图片

作者首先使用Stanford CoreNLP来检测文章中的所有共指簇。对于每个共同参照集群,将包含提及同一集群的所有语篇单元连接起来。在所有共指提及群集上重复此过程,以创建最终的共指图。

bert做文本摘要_语篇感知神经抽取式文本摘要_第4张图片

DISCOBERT Model

bert做文本摘要_语篇感知神经抽取式文本摘要_第5张图片

该模型由文档编码器和图形编码器组成。对于文档编码器,首先使用预训练的BERT模型在令牌级别对整个文档进行编码。然后,使用自注意跨度提取器从对应的文本跨度中获取EDU表示形式。Graph Encoder以Document Encoder的输出作为输入,并根据所构建的话语图用Graph Convolutional Network更新EDU表示形式,然后用于预测oracle标签。

假设文档D总共分为n个EDU,即D={

}。作者将提取摘要公式化为顺序标记任务,其中每个EDU
由神经网络评分,并根据所有EDU的评分做出决策。 oracle标签是二进制标签的序列,其中1代表被选择,0代表未被选择。作者将标签表示为Y={
}。在训练过程中,旨在预测给定文档D的标签Y的顺序。在推理过程中,需要进一步考虑语篇依赖性,以确保输出摘要的连贯性和语法性。

Document Encoder

BERT最初受过训练,可以对单个句子或句子对进行编码。但是,新闻文章通常包含500多个单词,因此需要进行一些调整才能将BERT应用于文档编码。具体来说,在每个句子的开头和结尾分别插入令牌,为了对新闻等较长的文档进行编码,作者还将BERT的最大序列长度从512扩展到768进行实验。

标记化后的输入文档表示为D={

},且
={
},其中
是第i个EDU中BPE令牌的数量。然后使用BERT模型对文档进行编码:

f74cf886d4259cf7b95902405ef93546.png

在BERT编码器之后,作者采用了Lee等人提出的自注意跨度提取器学习EDU表示形式。EDU表示计算如下所示:

bert做文本摘要_语篇感知神经抽取式文本摘要_第6张图片

其中

是第i个EDU中第j个单词的分数;
是第j个单词的归一化注意力;
是BERT输出的隐藏状态的加权和;W和b矩阵是要学习的参数。

在跨度提取步骤之后,整个文档被表示为一系列EDU表示形式:

8e0326d7e5732a27d01aac1b79f47ba8.png

而他们将被送往图形编码器。

Graph Encoder

给定构造的图形G =(V; E),节点V对应于文档中的EDU,而边E对应于RST话语关系或共指提及。然后,作者使用图卷积网络更新所有EDU的表示形式,以捕获BERT遗漏的远程依赖项,以便进行更好的摘要。为了使体系结构设计模块化,作者提出了一个语篇图编码器(DGE)层。实验中堆叠了多个DGE层,第k个DGE层的设计如下:

bert做文本摘要_语篇感知神经抽取式文本摘要_第7张图片

LN(.)表示归一化层;

表示第i个EDU节点的邻节点;
是第K个DGE层的第i个EDU节点的输出;而
是文档编码器的输出。在经过K层的图传播后,我们得到了最终的EDU表示:

对于不同的图,不共享DGE的参数。如果同时使用两个图(RST图和共指图),则它们的输出是串联在一起的:

05728af15726930dc1ba30353693a8c7.png

Training & Inference

训练中,

被用于预测oracle标签:

e29cd62a9a4215f9f3fa306e2ddaaa1f.png

该模型的训练损失是二进制交叉熵损失:

ee88232878c5f6efff577f2eb9236593.png

在inference过程中,给定一个输入文档,在获得所有EDU的预测概率后,进行降序排列,并相应地选择EDU。EDU之间的依赖性在预测中也得到强制执行,以确保生成的摘要的语法正确性。

Experiments

bert做文本摘要_语篇感知神经抽取式文本摘要_第8张图片
CNN/DM

bert做文本摘要_语篇感知神经抽取式文本摘要_第9张图片
NYT

bert做文本摘要_语篇感知神经抽取式文本摘要_第10张图片
语法性

bert做文本摘要_语篇感知神经抽取式文本摘要_第11张图片
人类评估结果

bert做文本摘要_语篇感知神经抽取式文本摘要_第12张图片
输出样例

Conclusion

在本文中,作者提出了DISCOBERT,它使用话语单元作为最小选择基础来减少摘要冗余,并利用两种类型的话语图作为归纳偏差来捕获话语单元之间的长期依赖性。作者在两个流行的摘要数据集上验证了所提出的方法,并观察到相对于基线模型的一致改进。

你可能感兴趣的:(bert做文本摘要)