ACL 2017| 指针生成网络:自动生成长段文本的抽象摘要

Point-Generator网络可以被视为提取和抽象方法之间的平衡,类似于Gu等人(2016)CopyNet和Miao and Blunsom(2016)强制注意句子压缩,适用于短文本摘要。文章提出了神经机器翻译的覆盖向量的新变体(Tu et al,2016),用它来跟踪和控制源文档的覆盖范围,覆盖率对于消除重复非常有效。

论文地址:
https://arxiv.org/abs/1704.04368

引言

摘要是将每个文本压缩到包含原始主要信息的较短版本的任务。 摘要有两种方法:提取和抽象。 提取方法仅从源文本中的段落(通常是整个句子)汇总,而抽象方法能生成源文本中没有的新单词和短语。

数据集

使用CNN /每日邮报数据集(Hermann等,2015; Nallapati等,2016),其中包含在线新闻文章(平均781个令牌)与多句话摘要(平均3.75个句子或56个令牌)配对使用了Nallapati等人提供的脚本。 (2016)获得相同版本的数据,具有287,226个训练对,13,368个验证对和11,490个测试对。

模型

1.序列到序列的注意力模型

1)模型的输入为 h i , s t h_i,s_t hi,st,输出为 a t a^t at

2)模型的输入 h i , a i t h_i,a_i^t hi,ait,输出为context vector h i ∗ h_i^* hi

3)模型的输入 h i ∗ , s t h_i^*,s_t hi,st,输出为单词概率分布

2.定位-生成网络

1)模型的输入 h t ∗ , s t , x t h_t^*,s_t,x_t ht,st,xt,输出为生成概率pgen用作软开关,用于选择从词汇表中通过Pvocab采样生成词汇,或者从输入序列中复制一个词

2)对于每个文档,扩展词汇表示词汇表的联合源文档中出现的所有单词,从扩展词汇表中获得以下概率分布

3.覆盖机制

1)覆盖矢量 c t c^t ct,它是所有先前解码器时间步长上的注意分布的总和

2)模型输入 h i , s t h_i,s_t hi,st, 这确保了注意机制当前的决定(选择下一个参加者)通过提醒其先前的决定(在 c t c^t ct中总结)

3)损失函数定义

结论

这篇论文提出了一个具有覆盖范围的混合指针生成器架构,它可以减少不准确性和重复性。模型将应用于一个新的具有挑战性的长篇文本数据集,并且显著优于抽象的最新结果,其展示了许多抽象的能力,但获得更高的抽象水平仍然是一个开放的研究问题。


ACL 2017| 指针生成网络:自动生成长段文本的抽象摘要_第1张图片
扫码识别关注,获取更多论文解读

你可能感兴趣的:(ACL 2017| 指针生成网络:自动生成长段文本的抽象摘要)