基本思路:借助强化学习等方法搜索表现最佳的网络
代表工作:NASNet (2017)、MnasNet (2018)、EfficientNet (2019) 、RegNet (2020) 等
使用Transformer 替代卷积网络实现图像分类,使用更大的数据集训练,达到超越卷积网络的精度
代表工作:Vision Transformer (2020),Swin-Transformer (2021 ICCV 最佳论文)
将Swin Transformer 的模型元素迁移到卷积网络中,性能反超Transformer
Vision Transformer 的特征图是是直接下采样16 倍
得到的,后面的特征图也是维持这个下采样率不变,
缺少了传统卷积神经网络里不同尺寸特征图的层次化
结构。所以,Swin Transformer 提出了分层结构
(金字塔结构)Hierarchical Transformer。
同时,相对于Vision Transformer 中直接对整个特征
图进行Multi-Head Self-Attention,Swin
Transformer 将特征图划分成了多个不相交的区域
(Window),将Multi-Head Self-Attention 计算
限制在窗口内,这样能够减少计算量的,尤其是在浅
层特征图很大的时候。
由于将Multi-Head Self-Attention 计算限制在窗口内,窗口与窗口之间无法进行信息传递。所以, Swin
Transformer 又提出了Shifted Windows Multi-Head Self-Attention (SW-MSA) 的概念,即第 + 1 层的窗
口分别向右侧和下方各偏移了半个窗口的位置。那么,这就让信息能够跨窗口传递。
通过4 个Stage 构建不同大小的特征图
重复堆叠Swin Transformer Block:这里的Block 有两种结构,如图(b) ,一个使用了W-MSA 结
构,一个使用了SW-MSA 结构。这两个结构成对使用,所以堆叠Swin Transformer Block 的个数
都是偶数。
代码仓库:https://github.com/open-mmlab/mmclassification
文档教程:https://mmclassification.readthedocs.io/en/latest/