Transformer论文详解,论文完整翻译(三)

Transformer论文详解,论文完整翻译(三)

第二章 背景

减少序列计算的方法有几种形式,建立超强的GPU,ByteNet和ConvS2S,这些都是用cnn作为基本模块,并行计算所有输入和输出位置的隐层表示。在这些模型中,计算开销与两个输入或者输出的位置相关,随着距离的增加而增加,ConvS2S是线性的而ByteNet是对数的,这让学习长距离依赖变得困难。在Transformer中,计算开销减少到一个常量,即使计算开销变少,依然有一个较好的效果因为使用了对位置的加权attention,我们使用的Multi-Head attention效果描述在3.2节。

self-attention,也叫intra-attention,是一种attention结构,这种结构与序列中不同位置有关,用来计算序列表示。self-attention已经被成功的用于很多任务中,包括阅读理解,摘要,文本蕴含和学习任务依赖的句子表示。

End-to-end的记忆网络使用循环attention来代替序列都循环。在简单的语言问答和语言模型上取得了较好的效果。

据我们所知,Transformer是第一个完全依赖self-attention来计算输入和输出表示,而不使用类似与RNN和卷积的序列校准的转换模型。在下面几章中,我们将描述Transformer,self-attention的动机,讨论我们模型的优点。

(本人总结,请勿转载)

你可能感兴趣的:(#,nlp:论文)