Transformer简明教程 P3 计算注意力

attention的QKV向量:
Transformer简明教程 P3 计算注意力_第1张图片
自注意力计算流程:
Transformer简明教程 P3 计算注意力_第2张图片
换成用矩阵计算,(计算机)效率更高/(数学上,矩阵和向量复杂度一样):
Transformer简明教程 P3 计算注意力_第3张图片
单头注意力机制和多头注意力机制:
单头注意力机制:即只有一组QKV;
Transformer简明教程 P3 计算注意力_第4张图片
多头注意力机制计算过程:
有多个Wq,Wk,Wv矩阵得到多个QKV
Transformer简明教程 P3 计算注意力_第5张图片

你可能感兴趣的:(transformer,transformer,深度学习,机器学习)