Transformer——台大李宏毅详讲Transformer

文章目录

    • 李宏毅老师讲Transformer
      • Encoder
      • Decoder
        • Decoder整体逻辑
        • non-autoregressive
        • Decoder中的Cross Attention
      • 训练Seq2seq的一些Tips

老师讲的超级棒,激动哭了:

视频链接:台大李宏毅21年机器学习课程 self-attention和transformer

李宏毅老师讲Transformer

  • Transformer本质就是Seq2seq问题:

Transformer——台大李宏毅详讲Transformer_第1张图片

Transformer——台大李宏毅详讲Transformer_第2张图片

Encoder

  • 作用:输入一系列向量,输出同样长度的一系列向量,将向量编码到一种机器空间。

Transformer——台大李宏毅详讲Transformer_第3张图片

Transformer——台大李宏毅详讲Transformer_第4张图片

  • 每一个模块都是Residual的设计;
  • norm:求平均值和标准差,计算归一化。

Transformer——台大李宏毅详讲Transformer_第5张图片

Transformer——台大李宏毅详讲Transformer_第6张图片

Decoder

Transformer——台大李宏毅详讲Transformer_第7张图片

Transformer——台大李宏毅详讲Transformer_第8张图片

Decoder整体逻辑

  • 有一个初始vector:BOS,在Decoder可能输出的向量前加一个即可;
  • 输出的向量vector:是对你所有可能结果(如果是英文翻译中文,则是中文词料库所有词)的softmax后分数最高的对应的vector;
  • 然后以此类推。
    Transformer——台大李宏毅详讲Transformer_第9张图片

Transformer——台大李宏毅详讲Transformer_第10张图片

  • 在Decoder的Masked Self Attention中,每一次输出的vector只和前边已生成的vector进行交互,不能包括还未生成的vector;

Transformer——台大李宏毅详讲Transformer_第11张图片

  • 通过预测END符号来表示sequence的结束;

Transformer——台大李宏毅详讲Transformer_第12张图片
Transformer——台大李宏毅详讲Transformer_第13张图片

non-autoregressive

Transformer——台大李宏毅详讲Transformer_第14张图片

  • 优势:并行化,可控制输出长度;
  • 用self attention也可以得到;

Transformer——台大李宏毅详讲Transformer_第15张图片

Decoder中的Cross Attention

Transformer——台大李宏毅详讲Transformer_第16张图片

  • 通过Cross Entropy计算loss;
    Transformer——台大李宏毅详讲Transformer_第17张图片
  • 训练时会给deocder输入正确答案;
    Transformer——台大李宏毅详讲Transformer_第18张图片

训练Seq2seq的一些Tips

  • 训练时给Decoder加入一些错误的GT。

你可能感兴趣的:(Paper,transformer,深度学习,人工智能)