Vision Transformer(vit)的Multi-Head Self-Attention(多头注意力机制)结构
前置学习:详解Transformer中Self-Attention以及Multi-HeadAttention_transformermultihead-CSDN博客图解:核心公式:代码:classAttention(nn.Module):def__init__(self,dim,#输入token的dimnum_heads=8,#多头注意力中的头数(默认值为8)qkv_bias=False,#是否在