【Attention Is All You Need】Transformer详解

年代:2018年

团队:Google

1. 前言:

  • Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成,更准确地讲,Transformer由且仅由self-AttenionFeed Forward Neural Network组成。
  • 一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建,作者的实验是通过搭建编码器和解码器各6层,总共12层的Encoder-Decoder

2. activation:

对于RNN计算智能从左向右依次计算,这种机制带来了两个问题:

  • t时刻的计算依赖于t-1时刻,这样先知了模型的并行能力
  • 顺序计算过程中信息会丢失,尽管LSTM等门结构可以一定程度上缓解了长期依赖的问题,但是对于特别长期的依赖现象,lstm依旧无能为力

3. Transformer 结构

Self-Attention:核心内容是为输入向量的每个单词学习一个权重,例如在下面的例子中我们判断it代指的内容

The animal didn't cross the street because it was too tired

通过加权之后可以得到类似图8的加权情况

【Attention Is All You Need】Transformer详解_第1张图片

在Self-attention中,每个单词有三个不同的向量,他们分别是Qu

你可能感兴趣的:(深度学习,人工智能)