今天学累了,读论文冷静下
本篇论文主要是用了copy机制,从输入中拷贝结果到输出,缓解OOV问题。本文提出一种新颖的架构:使用两种方式增强标准的seq2seq注意力模型。一,使用混合指针生成网络,利用指针从原文精确地复制单词,同时保留生成器产生新单词的能力。二,使用覆盖机制跟踪哪些单词已经被摘取,避免生成重复文本。
提示:以下是本篇文章正文内容,下面案例可供参考
在encoder-decoder结构中,需要通过固定的词典对平行语料进行表示,为提高效率,常减少词表的大小。同时还希望文本长度尽可能的短,因为文本长度的增加会降低效率并增加神经模型传递信息所需的距离(LSTM),文本越长信息丢失的可能性越大。这就导致了很多未登录词(OOV)和罕见词(Rare Words)。另外,新词每时每刻都可能被创造出来,这些新词显然也不在词汇表中,也是属于未登录词的一种。
1.ovv问题
2.生成重复词
3.难以准确复述原文细节
模型十分友好,将的模型应用于CNN/Daily Mail摘要任务,比当前抽象的最新技术至少要多2个ROUGE
ROUGE是Recall-Oriented Understudy for Gisting Evaluation的简写,在2004年由ISI的Chin-Yew Lin提出的一种自动摘要评价方法,是评估自动文摘和机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较,统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的相似度。(简言之,通过比较机器生成的结果和人工生成的结果得出分值。通过多专家人工摘要的对比,提高评价系统的稳定性和健壮性。准确路
在Attention机制出现之前,我们主要还是依靠RNN来解决编解码的问题。要读懂这篇论文主要用到的东西就是Bahdanau Attention机制以及seqtoseq。 Attention机制,俗点讲,就是让解码部分可以选择性地使用编码部分的信息,注意力本质上就是一个经过softmax层输出的向量。Decoder中每一时刻的输出是由好几个变量共同决定的,其中包含了Encoder中每一时刻的隐藏状态向量(hn),和上一时刻的输出 y t-1 ,以及当前时刻Decoder中的隐藏状态向量 st 。传统 RNN Encoder-Decoder 中t时刻的输出 。可以发现,我们不再使用固定的语义编码向量 ,而是使用一个动态的语义编码向量 ,它是由Encoder中每一时刻的隐藏状态向量计算得到 。图片来源:知乎【论文解读】Bahdanau Attention
指针生成网络是基准网络与指针网络的混合,它允许通过指针复制单词,同时可以从固定词汇表生成单词一个词不出现在常规的单词表上时 ()为0,当该词不出现在源文档中∑:=为0,至此,使用复制机制解决了OOV问题。