>>>【YOLO创新改进&Paper交流合作】<<<
>>>欢迎交流,思想触碰<<<
Swin Transformer V2是一种高效的视觉Transformer网络结构,用于图像分类和目标检测任务。与传统的Transformer网络不同,Swin Transformer V2通过使用窗口化的Self-Attention机制来处理图像,并引入了局部信息交换来减少计算复杂度。
此外Swin Transformer V2与Swin Transformer V1的不同:
1)窗口化的Self-Attention模块改进:Swin Transformer V2在窗口化的Self-Attention模块中引入了Shifted MLP,通过平移局部窗口内的特征来增加模型的感受野(receptive field)并减少计算复杂度。
2)下采样模块改进:Swin Transformer V2的下采样模块使用stride为2的卷积操作,而不是传统的池化操作。这种改进可以更好地保留特征的空间位置信息,从而提升模型的性