Transformer的自注意力计算图示

自注意力机制是Transformer最核心和最难懂的部分,理解了Self-Attention,理解后面的就容易多了。结合图示,记录一下我的推导过程,重点关注矩阵是怎么计算得来的,看起来会比较清晰易懂。不当之处敬请批评指正:
Transformer的自注意力计算图示_第1张图片
图1 “The”注意力集中在了哪些词?

Transformer的自注意力计算图示_第2张图片图2 自注意力计算图解

说明一下,手写里面说到期望得到一个同样的矩阵,不是说和输入的维度一模一样的,只是说各个单词之间具有关联的矩阵而已。

你可能感兴趣的:(NLP)