深度学习之图像分类(十三)Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解(二)
S-transformer摘要摘要文章提出一个新的结构叫swintransformer,可以作为计算机视觉的通用骨干。将transformer从语言实体应用到视觉实体中存在挑战:1、视觉实体的尺度变化较大,需要能够融合多尺度信息,但是ViT的stage尺度是固定的,2、图像中的像素是高分辨率的,形成的token往往具有很大的维度,通常计算代价和输入图像的分辨率成平方比,带来巨大的计算代价;解决办法