解析Transformer基本结构与实现

1.基本结构

​    Transformer总体架构可分为4个部分:

  •  输入部分
  • -输出部分
  • -编码器部分
  • -解码器部分

解析Transformer基本结构与实现_第1张图片

  • 输入部分包含: 

  1. 原文本嵌入层(Input embedding)及其位置编码(position encoding)
  2. 目标文本嵌入层及其位置编码器

解析Transformer基本结构与实现_第2张图片  

  • 文本嵌入层的作用:

       无论是源文本嵌入还是目标文本嵌入,都是为了将文本中词汇的数字表示(word to index)转变为向量(eg. one-hot,但这里不是)表示,希望在这样的高维空间捕捉词汇间的关系。

  • 输出部分包含:

  1. 线性层(得到output size)
  2. softmax处理器(找到最大概率)

 解析Transformer基本结构与实现_第3张图片

  • 编码器部分:

  1.     由N个编码器层堆叠而成 每个编码器层由两个子层连接结构组成
  2.     第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
  3.     第二个子层连接结构包括一个前馈全连接子层(Linear)和规范化层以及一个残差连接

解析Transformer基本结构与实现_第4张图片

  • 解码器部分:

  1. 由N个解码器层堆叠而成 每个解码器层由三个子层连接结构组成
  2. 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
  3. 第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接
  4. 第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

解析Transformer基本结构与实现_第5张图片

你可能感兴趣的:(transformer,深度学习,人工智能)