Gavin老师Transformer直播课感悟 - Transformer基于Bayesian思想拥抱数据的不确定性
Transformer基于Encoder-Decoder的架构、Multi-head注意力机制、Dropout和残差网络等都是Bayesian神经网络的具体实现:上图中左边的Multi-HeadAttention是指"Encoderself-attention",通过Encoder的states来计算queries,keys,values,然后由前馈神经网络来进行处理。右边的"MaskedMult