文献阅读(59)CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows

本文是对《Swin Transformer-Hierarchical Vision Transformer using Shifted Windows》一文的浅显翻译与理解,如有侵权即刻删除。

更多相关文章,请移步:
文献阅读总结:计算机视觉

文章目录

  • Title
  • 总结
    • 1 整体框架
    • 2 移动窗口

Title

《Swin Transformer-Hierarchical Vision Transformer using Shifted Windows》

——CVPR2021

Author: 刘泽

总结

该文是CVPR的best paper,作者胡瀚对其进行了介绍:https://www.bilibili.com/video/BV1eb4y1k7fj?from=search&seid=4785679647044800045&spm_id_from=333.337.0.0

Transformer在NLP领域的成果吸引了CV领域研究者的注意,期待为NLP和CV建立一个通用的模型架构。本文提出了Swin Transformer算法,将transformer结构引入到了CV领域中,并加入了先验知识如层次性hierarchy、局部性locality和平移不变性translational invariance等。此外,还构造了移动窗口shifted window来代替常用的滑动窗口,相比使用卷积架构的方法,效果更佳。

1 整体框架

文章将transformer结构代替了传统的卷积网络结构,将给定的图像切分为多个区块,在每个区块patch中使用self-attention方法提取特征。具体而言,每个区块会被初始化为44的大小,每个像素点有用RGB值进行表示,因此每个区块的大小为443,这些区块可以用经典方法表示成为维度大小为C的向量。而后,通过叠加多层Swin Transformer blocks,来不断压缩和提取信息。每次将22范围的区块信息压缩成一个区块,同时生成2C长度的向量。其结构如下所示:

文献阅读(59)CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows_第1张图片

右图是对单层transformer结构模型的拆解,W-MSA即基于window的multi-head self attention,其公式如下所示:

文献阅读(59)CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows_第2张图片

2 移动窗口

注意到,文章对每个区块进行了自注意力的信息提取,但没有考虑多个区块间的联系。因此,文章提出了移动窗口shifted window来替换传统的滑动窗口sliding window,建模区块与区块间的联系。滑动窗口往往按照规定的步长在数据间进行滑动提取信息,但这样的方法往往计算较为复杂。进而,文章通过利用图像不断循环滑动,来实现了窗口的移动。

文献阅读(59)CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows_第3张图片

如图所示,上图最左侧区块大小不同的切分图,正是由第二个图的变换得到的,将右下方ABC三部分提取出来,拼接到左上方,就得到了最左侧的切分图,其实际效果如下:

文献阅读(59)CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows_第4张图片

此外,文章还提出了模型的多个变体,在此不再赘述。

你可能感兴趣的:(文献阅读,transformer,计算机视觉)