transformer理解

transformer的理解

Q、K、V的理解

核心是自注意力机制。即每个位置的结果为所有位置的加权平均和。为了得到每个位置的权重,需要Q*K得到。
transformer理解_第1张图片

整个多头的self-attention过程

transformer理解_第2张图片

单个encoder

transformer理解_第3张图片

encoder-decoder

encoder中的K和V会传到decoder中的encoder-decoder attention中。
transformer理解_第4张图片

整个过程

transformer理解_第5张图片

参考:
http://jalammar.github.io/illustrated-transformer/
https://

你可能感兴趣的:(自动驾驶,深度学习理论,transformer,深度学习,人工智能)