认识Transformer:入门知识

视频链接:
https://www.youtube.com/watch?v=ugWDIIOHtPA&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4&index=60

文章目录

      • Self-Attention layer
      • Multi-head self-attention
      • Positional encoding
      • Seq2Seq with Attention
      • Transformer
      • Universal Transformer

Seq2Seq

RNN不容易被平行化
提出用CNN来代替RNN,CNN 可以平行化,但是需要的层数比较深,才能看完所有的输入内容。

Self-Attention layer

认识Transformer:入门知识_第1张图片
b1 到b4 是可以同时被算出。
可以用来取代RNN。

来源: Attention is all you need

认识Transformer:入门知识_第2张图片
然后用每一个a 去对每个k 做attention

认识Transformer:入门知识_第3张图片
认识Transformer:入门知识_第4张图片
认识Transformer:入门知识_第5张图片
加速的矩阵乘法过程
认识Transformer:入门知识_第6张图片

Multi-head self-attention

不同的head 可以关注不同的内容,达到一个更好的注意力效果。
认识Transformer:入门知识_第7张图片

Positional encoding

self-attention 没有考虑位置信息。
因此需要再ai的同时加ei,表示位置信息,有人工控制。

认识Transformer:入门知识_第8张图片

Seq2Seq with Attention

认识Transformer:入门知识_第9张图片

Transformer

认识Transformer:入门知识_第10张图片

Universal Transformer

认识Transformer:入门知识_第11张图片

你可能感兴趣的:(Transformer,transformer,深度学习,人工智能)