读论文2018 ACL A unified model for extractive and abstractive summarization using inconsistency loss

Abstract

提出了一个兼具抽取式和生成式优点的摘要模型。一方面,简单的抽取式模型可以包含句子级别的attention,且句子集合的ROUGE分数很高,但句子可读性差。另一方面,一个非常复杂的摘要模型可以包含句子级别动态计算的注意力来生成一个可读的段落。本论文提出的模型:句子级别的注意力被用来改善词级别的注意力,如在句子中参与少的词生成的概率更少。此外,inconsistency loss function被用来惩罚词级别注意力和句子级别注意力的不一致。用inconsistency loss和original loss训练end-to-end该extractive and abstractive 模型,得到了state-of-the-art的ROUGE分数,而且在CNN/Daily Mail数据集的solid human evaluation评测的摘要结果中,包含信息量和可读性最好的。

introduction

Text summarization is the task of automatically condensing a piece of text to a shorter version while maintaining the important points. The ability to condense text information can aid many applications such as creating news digests, presenting search results, and generating reports. There
are mainly two types of approaches: extractive and abstractive. Extractive approaches assemble summaries directly from the source text typically
selecting one whole sentence at a time. In contrast, abstractive approaches can generate novel words and phrases not copied from the source text.
读论文2018 ACL A unified model for extractive and abstractive summarization using inconsistency loss_第1张图片
所以生成式可以比抽取式更加连贯简明。抽取式方法更简单,已有很多工作集中于抽取式摘要。其中Nallapati2017年的摘要工作ROUGE分数最高;另一方面,生成式方法包含了复杂的神经网络用以概述,生成不在源文本中的词,其中attentional encoder-decoder模型能生成ROUGE分数较高的摘要,但是生成式摘要有错误信息并且无法处理OOV问题。最近See 2017提出了pointer-generator模型不但生成源文本中不在的词而且从源文档中复制词。尽管生成式摘要取得了很多进步,但是抽取式方法和Lead-3方法依旧在ROUGE测试中表现优异。
本论文明确提出综合利用目前表现最好的抽取式和生成式的优点的摘要模型。首先,我们把抽取式方法(Nallapati 2017)计算的每个句子的概率作为句子级别的attention,其次,用句子级别的注意力调整生成模型的词级别的注意力,以此来降低不在句子中的词被生成的概率。用这种方法,抽取式摘要所获取的句子级别的attention来减缓那些错误的词级别的attention,而且本论文提出的inconsistency loss函数促进这两种attention之间的一致性。inconsistency loss函数的计算不需要更多的标签而且对抽取式和生成式双方都有益。本论文提出的抽取生成联合模型在CNN/Daily Mail数据集中获取了state-of-the-art的结果,比extractive方法中表现好的抽取基准如lead-3表现更好。最后,为了确保联合模型的输出,进行了可靠的手工评测,评测结果确保了我们的方法生成的摘要在信息量和可读性中都比最近的最好的工作都要好。
本论文的主要贡献是两方面的:1.联合模型-联合句子级别的attention和词级别attention综合利用了抽取式和生成式的优点。 2.提出inconsistency loss function 来确保联合模型对抽取式和生成式都有益。

Related Work

neural-network-based extractive summarization表示句子,并选择句子;利用辅助信息如图片描述/题目等进行句子分类来选择句子。利用graph convolutional network计算句子的salience或者importance。虽然很多抽取方法获取的摘要Rouge分数很高,但是其可读性普遍都低。

abstractive summarization Rush2015年第一次提出了生成式摘要任务——通过attention-based encoder来读输入文本来产生摘要,基于Rush任务,Miao and Blunsom 2016年提出variational auto-encoder,Nallapati 2016b使用了一个更强大的sequence-to-sequence模型,除此之外,还提出了一个新的文章级别的摘要数据集——CNN/DM为了适应DeepMind question-answering dataset。等等Ranzato et al. (2015) change the traditional training method to directly optimize evaluation metrics (e.g., BLEU and ROUGE). Gu et al. (2016), See et al. (2017) and Paulus et al. (2017) combine pointer networks(Vinyals et al., 2015) into their models to deal with out-of-vocabulary (OOV) words. Chen et al. (2016) and See et al. (2017) restrain their models from attending to the same word to decrease repeated phrases in the generated summary. Paulus et al. (2017) use policy gradient on summarization and state out the fact that high ROUGE scores might still lead to low human evaluation scores. Fan et al. (2017) apply convolutional sequenceto-sequence model and design several new tasks for summarization. Liu et al. (2017) achieve high readability score on human evaluation using generative adversarial networks.
Hierarchical attention Attention mechanism 第一次被Bahdanau2014年提出,Yangon 2016年提出Hierarchical attention mechanism用于文本分类,本论文利用了Nallapati2016b提出的联合sentence-level attention和word-level attention,但是sentence attention是动态变动的——对于每个生成的词的attention是不同的。但我们的sentence attention针对所有的生成的词是固定的,基于抽取式的优异表现,我们提出使用固定的sentence attention。我们的模型通过联合sentence-level attention(来自抽取式)和word-level attention(来自生成式)来联合state-of-the-art 抽取式模型和生成模型,最后我们设计了不一致损失函数来促进抽取式和生成式的模型的合作。

our Unified Model

Probelm define extractor和abstractor的输入都是句子序列,句子由词序列组成;extractor的输出式每个句子被抽取到摘要中的概率,另一方面,attention-based abstractor 动态计算word-level的attention来生成之阿姨文本中的词。
Combining attention 通过简单的标量乘法(scalar multiplication)和重正则化(renormalization)来联合sentence-level的attention和word-level的attention;乘法保证了只有当词级别的attention和sentence级别的attention都大的适合,该词的attention才会很大;因为extractor获取的句子ROUGE值已经比较高,所以句子级别的attention用来缓解错误的词的attention——在句子中出现少的词被生成的概率低。通过此方式计算所得的词attention对abstractor的decoding 的影响很大,本文中,通过句子级别attention更新的词级别attention式我们提升生成式摘要的主要方法。
Inconsistency loss 除了利用sentence-level和word-level的attention互补特性,在训练种为了更加要确保这两种attention的一致性,作为一个无代价的潜在学习目标。明确一点,当word-level的attention高的时候sentence-level的attention也高,所以我们设计了以下损失函数Inconsistency loss:
读论文2018 ACL A unified model for extractive and abstractive summarization using inconsistency loss_第2张图片
其中K是top K words,T是summary中word数,该损失函数要求词级别的attention的分布清晰明了,也要求句子注意力较高。更新词级别的注意力是extractor跟abstractor唯一的一次交互。我们提出的inconsistency loss促进了end-to-end联合模型的训练,并且对extractor和abstractor都有利。
Extractor Nallapati 2017年提出的extractor,我们的extractor没有使用extractor的最终摘要输出,仅包含了召回率较高的一个句子列表,来帮助abstractor。
首先介绍***Architecture***:模型包含一个抽取句子表示的hierarchical bidirectional GRU和一个预测句子attention的classification layer。读论文2018 ACL A unified model for extractive and abstractive summarization using inconsistency loss_第3张图片

然后介绍***extractor loss function***:

其中gn的取值范围0-1,是第n个句子的ground-turth label,N是句子数。当gn=1时,第n个句子严格被用来生成摘要。
最后定义***ground truth important sentences***:我们的extractor的目标是抽取包含大量信息的句子,即抽取句子应该尽可能包含生成摘要时需要的信息。获取ground-truth label {gn}:首先计算句子和reference abstractive summary的ROUGE-L分数得每个句子的信息量;然后通过信息量对句子排序并选择得分较高的句子,我们每次只添加一个句子,如果新的句子相对于所有已选择的句子集合有新的信息补充;最后,我们通过获取的ground-truth label通过最小化extractor loss funtion来选择ground-truth sentences。因为我们的目标是获取信息量最大,所以我们使用ROUGE recall分数来包含尽可能多的信息。
abstractor
我们模型的第二步是一个读取文本然后word-by-word来生成摘要的abstractor,我们使用pointer-generator network(See 2017年提出)联合extractor(通过联合句子级别和词级别的attentions)
Pointer-generator network Pointer-generator network 是一个sequence-to-sequence attentional model——通过从原文中copying words或generating words from a fixed vocabulary; 该模型包含一个bidirectional LSTM——作为encoder,encode输入的words,和一个非bidirectional LSTM——作为decoder来输出摘要。
Notations定义一些符号:读论文2018 ACL A unified model for extractive and abstractive summarization using inconsistency loss_第4张图片
读论文2018 ACL A unified model for extractive and abstractive summarization using inconsistency loss_第5张图片
Final word distribution读论文2018 ACL A unified model for extractive and abstractive summarization using inconsistency loss_第6张图片
读论文2018 ACL A unified model for extractive and abstractive summarization using inconsistency loss_第7张图片
coverage model See 2017年提出
Training Procedure
预训练时,abstractor的输入,

为了联合extractor和abstractor,本论文提出了两个训练方法:1)two-stages training 2)end-to-end training;
Two-stages training: 连接extractor和abstractor只是把extractor的输出作为abstractor的输入;通过abstractor 调整抽取的初始摘要集合
End-to-end training: 本论文通过四个损失函数来训练extractor和abstractor;最终的损失函数如下:在这里插入图片描述
引入四个超参数;在本研究中,给extractor损失函数最大的比例,例如5,原文inconsistency loss相对很大以至于extractor会忽略Lext;
Experiments
介绍数据集和实验模型的具体执行细节;
Dataset CNN/Daily Mail(non-anonymized)
Implementation Details 本实验训练extractor和abstractor都用128维的word embedding,字典的规模针对源文本和目标文本都是50K。我们follow Nallapati 2017 和 See 2017将extractor和abstractor的隐藏层状态分别设置未200和256;我们使用Ada优化和根据validation set的early stop;在测试阶段,我们将摘要的长度限制到120;
Pre-training 训练extractor和abstractor时,learning rate=0.5;
emmm 后面好多细节了 省略。

你可能感兴趣的:(论文阅读笔记)