Transformer相关

架构图

Transformer相关_第1张图片

Transformer相关_第2张图片

Transformer相关_第3张图片

注意点

第一个点 为什么要用scaled attention

image.png
https://blog.csdn.net/qq_3743...

  1. Q,K的维度越高,QK的内积方差越大。
  2. QK的内积方差越大,softmax后,会出现有的维度接近1,其余接近0,的现象,这种情况下,梯度是最低的,接近0,学习效率低。

第二个点 Multi-Head Attention

image.png

你可能感兴趣的:(算法机器学习)