参考链接:
ACL2021 文本摘要 long paper 速读 - 知乎
研究背景:
临床概要。
本文的工作:
CLUSTER2SENT算法:
①提取摘要部分重要句子;
②聚合相关的句子;
③生成一个总结的句子。
生成更真实的、连贯的句子;
开源了代码、模型。
研究背景:
概括对话流,如会议、在线讨论。
分析长文档。
本文的工作:
提出一个概括EMAIL流的数据集,包含2549个邮件流(包含3-10封邮件)、每个邮件流都包含一个人工标注的短摘要(小于30个单词)和长摘要(小于100个单词)。
开源代码、数据。
提出了一个新任务:多时间轴摘要(MTLS)。
给定一个标记了时间的新闻文章集合,MTLS自动找出重要且互不相同的故事,并为每个故事生成一个时间轴。
只开源了数据集,没有开源代码。
标题解读:
把语言模型当作一个注释器:
探索使用DialoGPT来做对话总结
研究背景:目前的对话总结系统通常都是用很多通用语义特征(比如关键词和话题)来对文本进行编码,从而得到更有效的对话建模能力。但是这些特征是通过开放域工具包得到,非常依赖人工标注。
本文的工作:本文通过使用DialoGPT中已有的对话背景信息,把对话生成的预训练模型DialoGPT作为一个无监督的对话注释器。
在其中一个数据集上达到了Sota.
开源。
标题解读: 使用干扰和选择来为产品评论做出摘要
研究背景:
目前工作的两个缺点:
1. 摘要器倾向于生成那些出现在不同产品评论中都出现过的通用的话,由此生成的内容是模板化的、信息量不足的。(刷单???!)
2. 由于用户对于一个产品的优缺点看法不一致,因此摘要器生成的摘要通常是前后不一致的、自相矛盾的。
本文的工作:本文提出了一个PASS系统。这个系统的关键组成部分是在inference阶段的输入中设置系统扰动,使得模型为同一个产品生成不同的多个摘要。然后采用一个排序方法,使得模型避免出现自相矛盾的问题。
效果:生成信息量更大、更多样以及更连贯的摘要。
没有开源代码,只开源了本系统生成的摘要。
标题解读:从没有标记问题的资源中生成回答某个问题的摘要。
从一堆文档中生成一个短的摘要来回答一个特定的问题。
瓶颈:缺乏标记了问题的数据,目前主要的数据都是文档-摘要对的形式。
工作内容:本文把QFS任务分解成了2部分,分别是query建模和条件语言模型(比如生成摘要)。
模型取得了SOTA。
开源了数据和代码
维基百科摘要生成器旨在从维基百科网页中生成摘要,通过使用多文档总结技术取得了巨大成果。但是之前的工作仅仅把摘要看作是一段普通的文字,忽略了文本摘要其实是对于一个特定实体的描述,可以被拆分成多个话题。
本文提出了一个2阶段模型TWAG,用话题信息来引导摘要的生成。
1. 使用在维基百科文章上训练的分类器来对文章中的每个段落检测话题,把文本分成了多个话题。
2. 预测每个摘要句子的话题分布,用一个pointer-generator网络来从话题感知的表示中解码句子。
结果:超过了baselines, 可以生成全面的摘要。
开源代码和数据。
标题解读: 为抽取式摘要而做的深度差分放大器。
任务:句子级的抽取式摘要。
研究背景:由于”可被抽取成摘要“的句子和”不可被抽取成摘要“的句子之间是极度不平衡的,因此在优化分类器的时候会出现特征不足的情况。
本文的工作:本文提出把单文档的抽取摘要问题转化为一个再平衡问题,提出使用一个深度差分放大器框架来更好的捕捉摘要句子的特征。
1.首先计算并放大每个句子和其他句子之间的语义差别
2.然后应用一个残差单元来加深差分放大器结构
3.此外,对于占少数的类别,通过一个加权的交叉熵来增大了其损失函数。使得模型可以更加关注于一个句子的主要信息 。
超过了SOTA。
文章说稍后会开源到github,暂无。
标题解读: 包含2个参与者的对话的无监督的摘要式对话总结
研究背景:高质量的对话-总结二元组数据的获取成本很高,而且是domain-sensitive的。因此导致摘要式的对话总结很难。
本文提出了第一个无监督的摘要式对话总结模型,称为SuTaT, 分别给对话中的双方来做总结,同时保留二者之间的关系。
SuTaT包含一个条件生成模块以及2个无监督的总结模块。两个无监督的总结模型的encoder和decoder是相同的,而且包含句子级的自注意力机制,从而可以在不使用注释的情况下生成总结。
实验表明,SuTaT在无监督地总结对话时在自动和人工评估上都表现的不错,而且还可以做对话分类以及生成单轮对话。
没有开源
研究背景:专业的摘要是用文档级别的信息编写的,比如文档的主题。这与大多数seq2seq的decoder是相悖的,seq2seq decoder在每个生成步骤中都会专注于某个局部信息并决定生成什么。
本文的工作:提出了Focus Attention 机制,鼓励decoder来生成与输入文档相似主题的token. 作者还提出了一个Focus sampling方法,从而可以生成多样性的摘要。
效果:在两个SOTA模型上加上focus attention机制后生成了更加接近也更加正确的摘要,在ROUGE等指标上超过了加上此机制之前的情况。 还证明了focus sampling方法在生成多样的正确的摘要上比top-k或者nucleus采样的方法更好。
没有开源
背景:基于transformer的模型在很多NLP任务上取得了sota。
这些系统通常是通过微调一个大的预训练模型而训练从而实现的,问题之一就是他们很耗内存和计算量,随着输入长度而增长。因此,对于长文档的总结任务而言,训练或者微调都是比较困难的。
本文的工作:扩展了大的基于transformer的预训练模型,并且提出使用局部自注意力和显式选择内容的方法来解决了长距离依赖的问题。
通过合以上2种方法,可以在3个数据集上达到sota.
开源。
标题解读:通过QA来改善摘要式总结中的事实不一致的问题
研究背景:SOTA的摘要式总结模型的一个通用问题是生成的总结可能与输入文档在事实层面是不一致的。自动生成的总结可能听起来可以但实际上不正确。
本文的工作:
①提出一个有效的自动评估事实一致性的指标。
②提出一个新的学习算法,可以在训练阶段最大化这个指标。
结果表明本文提出的方法在提升事实一致性上面确实是有效的。
没有开源
标题解读: BASS: 用统一的语义图来促进摘要式总结
研究背景:seq2seq架构在摘要式总结任务上的表现不是很好,因为seq2seq不擅长于分析长距离关系。
本文的工作:本文提出了BASS,一个基于统一语义图的用于促进摘要式总结的全新架构,可以将分布在很长一段语境中的共指短语聚合起来,并且可以传达短语之间的丰富的关系。
本文还提出了一个基于图的encoder-decoder结构,通过使用图结构来改善文档表示以及摘要生成过程。特别的,还设计了一些图扩充方法来对文本中的显式和隐式关系做了编码,同时使用图传播注意力机制在解码阶段选择重要信息到摘要中。
结果表明,本文提出的方法在长文档以及多文档的摘要任务中都取得了实质性的进步。
没有开源
标题解读:通过Centrality-weighted Relevance and Self-referenced Redundancy实现无需训练也无需引用的摘要评估方法
研究背景:近年来有很多基于引用的、监督的摘要评估指标。但是收集人类标记的引用以及评分是费时费力的。
本文的工作:本文提出了一个无需reference的摘要评估方法。
这个方法包含一个centrality- weighted relevance分数以及一个self-referenced redundancy 分数。
relevance分数用于衡量摘要与原文的相关度。
redundancy分数是通过计算摘要本身的self-masked similarity(自掩蔽相似度)来衡量摘要文本中冗余信息的量。
结果表明,本文提出的方法在多文档和单文档上都超过了以前的方法。
开源。
标题解读:通过消融和归因来解析摘要生成模型中的生成模式
关键词: 可解释
研究背景:虽然基于神经网络的摘要模型表现的很好,但我们依旧不知道他们是如何生成摘要的、以及如何去理解他们是用什么在做决策。
本文的工作:本文提出一个2-step方法来解释摘要模型的决策。
step 1: 通过消融实验,从而把decoder的每个决策都分类到以下几个模式中:①模型表现的跟language model相似吗?②生成内容是否严重取决于输入文本?③模型表现是否既相似于language model又取决于输入内容?
step 2: 归因。比较了文本摘要模型在选择内容以及从输入文本中重构预测token的能力,从而揭示了那些被强调的归因是否真的对于生成摘要时产生下一个token很重要。
以上的2-step机制其实还可以被用到summarization之外的地方。
作者还论述了文本摘要模型可以记住从而识别词组,并且决定在训练过程中的哪一步执行记忆,还研究了生成摘要过程中的一些复杂现象,比如sentence fusion以及per-instance basis.
开源。
标题解读: 使用有限的平行语料来做跨语言的摘要式总结任务
研究背景:平行的跨语言总结数据是稀缺的,因此需要模型更好的利用有限的跨语言数据。 现有的方法通常是使用seq2seq的方法来结合多任务框架,这种方法使用多个decoder,每个decoder都用于做某个特定的任务。 但是这些相互独立的decoder没有共享参数,因此无法捕捉不同语言间词语的关系,从而阻碍了资源丰富的语言到资源匮乏语言的知识迁移过程。
本文的工作:
为了建立起这个联系,本文为低资源情况下的跨语言摘要式总结任务提出了一个新的多任务框架,MCLAS.
这个框架使用一个统一的decoder来序列化连接了其语言和跨语言的摘要总结,把单语言总结任务当作成了跨语言总结任务的一个预备动作。由此一来,共享的decoder可以学习对齐以及跨语言的文本总结模式,从而鼓励知识迁移。
在2个CLS数据集上的实验表明,在低资源和全数据集下都显著的超过了3个baseline模型。
通过在生成的摘要以及注意力头上的深度分析,表明了MCLAS确实学习到了交互,这个交互提升了低平行语料场景下的CLS任务的表现。
数据和代码都开源
有3篇文章提出了新的文本摘要任务,分别是:
有3篇改进对话摘要的文章,分别是:
(1)改进abstract式的对话摘要;
(2)(3)都是尝试结合预训练模型来无监督的做对话摘要。
还有7篇是做传统意义上的文本摘要的文章,
有2篇是改进abstract式文本摘要的,分别是:
(1)先找到话题然后再做文本摘要;
(2)用QA改善生成的文本中事实不一致的问题。
还有2篇是针对文档很长的情况的改进,分别是:
(1)通过加入局部自注意力机制和显式地选择内容来改进transformer,使之适用于长文档;
(2)引入统一语义图。
剩下的3篇文章则从3个不同的角度对文本摘要进行了改进,分别是:
(1) 生成基于某个特定问题的摘要(Query-focused)
(2) 在extract式的文本摘要中设计一个包含差分放大器的模型,从而平衡了分类。
(3) 用Focus attention机制代替seq2seq。
extractive(抽取式)
优点:简单快速。
缺点:(1) 信息冗余;(2) 句子长度很长; (3)语义连贯度不高; (4) 对于那些散布在多个句子中的信息无法合适地概括出来。(5)内容选择错误
abstractive(生成式)
优点:相比extractive更加接近人类生成的摘要,更加简洁。
缺点:(1) 生成摘要的质量取决于NLG的质量,NLG本身发展未成熟。(2)重复描述事实性信息(引入coverage损失机制,计算前步权重)(3) 未登录词(引入copy机制,概率从原文拷贝)
混合方法而言(抽取生成式
使用句子级别的抽取概率作为句子级别的attn权重
使用句子级别权重来re-weight词语级别的attn权重)
优点:同时吸纳了extractive和abstractive方法的优点
缺点:生成摘要的质量比纯abstractive方法低。extractive方法的错误会传递给rewrite过程。
参考链接:
ACL2021 文本摘要 long paper 速读 - 知乎