A Neural Attention Model for Abstractive Sentence Summarization 论文阅读笔记

作者:Rush, A. M., Chopra, S., & Weston, J.

单位 :Facebook AI Research / Harvard SEAS

关键词:Neural Attention, Abstractive Sentence Summarization

文章来源:EMNLP 2015


问题

这篇来自Facebook的paper的主题是基于attention based NN的生成式句子摘要/压缩。

模型

该工作使用提出了一种encoder-decoder框架下的句子摘要模型。

作者在文章中介绍了三种不同的encoding方法,分别为:

  1. Bag-of-Words Encoder。词袋模型即将输入句子中词的词向量进行平均。

  2. CNN encoder

  3. Attention-Based Encoder。该encoder使用CNN对已生成的最近c(c为窗口大小)个词进行编码,再用编码出来的context向量对输入句子做attention,从而实现对输入的加权平均。

模型中的decoder为修改过的NNLM,具体地:式中y_c为已生成的词中大小为c的窗口,与encoder中的Attention-Based Encoder同义。与目前主流的基于seq2seq的模型不同,该模型中encoder并未采用流行的RNN。

数据

该文章使用了English Gigaword作为语料,选择新闻中的首句作为输入,新闻标题作为输出,以此构建平行语料。具体的数据构建方法参见文章。此外,该文章还使用了DUC2004作为测试集。

简评

在调研范围内,该文章是使用attention机制进行摘要的第一篇。且作者提出了利用Gigaword构建大量平行句对的方法,使得利用神经网络训练成为可能,之后多篇工作都使用了该方法构建训练数据。


你可能感兴趣的:(A Neural Attention Model for Abstractive Sentence Summarization 论文阅读笔记)