transformer的encoder和decoder的差别

  • decoder包含两个 Multi-Head Attention 层。
  • decoder第一个 Multi-Head Attention 层采用了 Masked 操作。
  • decoder第二个 Multi-Head Attention 层的K, V矩阵使用 Encoder 的编码信息矩阵C进行计算,而Q使用上一个 Decoder block 的输出计算。
  • decoder最后有一个 Softmax 层计算下一个翻译单词的概率。

更详细的介绍见

详解Transformer (Attention Is All You Need) - 知乎

Transformer模型详解(图解最完整版) - 知乎

你可能感兴趣的:(transformer,机器学习,深度学习)