《Incorporating copying mechanism in sequence-to-sequence learning》阅读笔记

论文来源:http://www.aclweb.org/anthology/P/P16/P16-1154.pdf


从输入句中选择性的复制certain segments到输出句中。

本文:encoder-decoder 结合了copying机制,称为COPYNET。 text summarization tasks


《Incorporating copying mechanism in sequence-to-sequence learning》阅读笔记_第1张图片
copynet

Encoder:将source sequence转换成隐状态,每个隐状态ht与单词wt相关联。source序列的表示为{h1,....hTs} 作为M


Decoder:一个RNN读取M然后预测目标序列。创新点在于:1. Prediction:通过两个modes的mixed概率来预测单词:generate-mode和copy-mode,后者从source序列中挑选词   2. State Update:以前t-1的词用来更新t的状态,但是copynet只使用word-embedding同时也联系其在M中的位置信息。  3. Reading M:“selective read” to M

下面分别介绍这三点:

1. 通过copying和generation来预测:

词汇: vocabulary  V,  out-of-vocabulary(OOV) 为UNK, 所有unique words 在source sequence中的  X。。。所有词汇为三个的并集 V U UNK U X

《Incorporating copying mechanism in sequence-to-sequence learning》阅读笔记_第2张图片
generate-mode和copy mode

这两个mode的概率分别为:

《Incorporating copying mechanism in sequence-to-sequence learning》阅读笔记_第3张图片
两个mode的概率
《Incorporating copying mechanism in sequence-to-sequence learning》阅读笔记_第4张图片
打分方程,和归一化


打分函数分别为:

《Incorporating copying mechanism in sequence-to-sequence learning》阅读笔记_第5张图片
score

2. state update

yt-1 用如下形式表示:

yt-1
《Incorporating copying mechanism in sequence-to-sequence learning》阅读笔记_第6张图片

我的理解: e(yt-1)是word embedding, 后者是将yt-1的一些信息与M相关联起来,与source text中的词和词的位置都相关。如果yt-1没有在source text中,将后者设置为0

3. hybrid addressing of M

content-based and location-based

你可能感兴趣的:(《Incorporating copying mechanism in sequence-to-sequence learning》阅读笔记)