利用主题模型提升抽取式文本自动摘要

文章链接(coling-2020):Enhancing Extractive Text Summarization with Topic-Aware Graph Neural Network

目录

  • 任务定义
  • 问题发现
  • 模型改进
  • 实验结果

任务定义

首先我们定义一下抽取式文本自动摘要。抽取式文本自动摘要就是直接从原文中抽取 重要的、相关的 句子,重新组合形成摘要。我们可以形式化的将其分化为三个子任务:

  1. 对文章的每个句子编码,用于后续句子相关性和重要性的打分。
  2. 建模句子关系,对句子赋予全局信息
  3. 抽取并重新组合句子。摘要句子一般按照原文中出现的顺序拼接。

问题发现

我们发现以往的模型大部分存在以下两个问题:长距离句子建模和全局信息建模问题。

  • 长距离句子建模

这一类问题又分为两个解决方案,基于层级编码器的模型和基于图卷积的模型,上述两类模型都可以缓解长距离依赖问题,但是还是存在各自的局限性。

利用主题模型提升抽取式文本自动摘要_第1张图片
上图便是基于层级编码器的模型存在训练 速度慢,容易过拟合,性能提升有限 的问题。

利用主题模型提升抽取式文本自动摘要_第2张图片
上图是基于图卷积的模型如果使用额外工具建图则存在错误累计问题,如果使用简单的字词特征又难以捕捉深层的语义信息

  • 全局信息建模
    利用主题模型提升抽取式文本自动摘要_第3张图片
    我们在模型中一般使用Bert作为句子编码器,Bert是一个在大规模的在较短文本上训练的预训练模型,对于句子和短的文档来说能很好的提取上下文信息,但是对于摘要任务而言,文本长度过长很难提取到文档的全局信息。

模型改进

利用主题模型提升抽取式文本自动摘要_第4张图片
针对以上的问题,文章作者提出了该模型

  • 对于长距离依赖问题,使用图卷积的方法解决,为了解决图卷积模型中所存在的问题,文章使用包含语义信息的主题节点建图,并将主题模型和摘要模型同时训练以缓解错误累计问题。
  • 对于全局信息建模问题,通过图卷积中主题节点(对应于全局信息)将信息传递给图中的句子节点。

模型的流程如下:
flow
整个文章的主要创新点在于将主题模型融入到摘要模型中,主题模型是基于变分自编码器的,其中变分自编码器的相关知识这里不再赘述,这里主要展示如果通过变分自编码器得到主题的表示。
利用主题模型提升抽取式文本自动摘要_第5张图片

由于我们建图包含了主题节点和句子节点,属于异质图。我们在原始的GAT模型上进行了小的改进,主要是通过两个不同的非线性变换函数将两个不同的特征空间映射到同一个特征空间中。最后则是损失函数,包含了摘要模型的损失函数和主题模型的损失函数。

利用主题模型提升抽取式文本自动摘要_第6张图片

实验结果

利用主题模型提升抽取式文本自动摘要_第7张图片
这是文章所使用的数据集,包含了新闻数据集CNN/DM , NTT 和科技论文数据集ArXiv和PubMed。
利用主题模型提升抽取式文本自动摘要_第8张图片
利用主题模型提升抽取式文本自动摘要_第9张图片
这是在相关数据集上的实验结果,可以看出模型在长文本上取得了优异的结果。
利用主题模型提升抽取式文本自动摘要_第10张图片

T W i = ∑ j = 1 K θ ( j ) α j , i TW_i = \sum_{j=1}^{K}\theta^{(j)}\alpha_{j,i} TWi=j=1Kθ(j)αj,i

其中 θ \theta θ表主题的分布, θ ( j ) \theta^{(j)} θ(j)表示第 j j j个主题在文档中的权重, α j , i 表 示 在 G A T 中 第 j 个 主 题 和 第 i 句 话 的 A t t e n t i o n \alpha_{j,i}表示在GAT中第j个主题和第i句话的Attention αj,iGATjiAttention

图中句子的深浅程度表示该句话对主题的贡献程度,颜色越深表示和主题越相关。下划线的句子表示摘要句。我们可以看出文章主题和摘要句有很强的一致性。

你可能感兴趣的:(NLP,自动文摘)