Swin Transformer : Hierarchical Vision Transformer using Shifted Windows

论文地址

本文主要研究学习一种新的Transformer架构——Swin Transformer,其目的:新建一个通用架构

Transfoemer从NLP应用到CV领域存在以下几个挑战

痛点:CV中视觉块的变化尺度大;图像像素的高分辨率;——动机

  • scale:视觉元素在规模上可能有很大的差异;
  • High Resolution:像素级,更高分辨率,自注意力的计算复杂度是二次的。

本文:提出一个Hierarchical(分层)Transformer ,通过shifted windows(Swin)进行特征表示,将自注意力限制在无重叠的局部窗口,结合交叉窗口连接——模型灵活,在图像分类、稠密预测(目标检测、语义分割),都取得了一定提升。获得了更低的时延。

Hierarchical(分层)Transformer——捕获分层特征图+线性复杂度

  • 分层特征图:小尺寸的patch,融合neighbor patch
  • 线性复杂度:计算局部自注意力机制,fixed patch,local
  • 核心:连续的自注意层之间移动窗口分区

架构学习

  • swin transformer block:用基于Shifted-window替代原标准多头自注意力模块,线性复杂度替代二次计算。
  • 基于自注意力的移动窗口:局部窗口自注意力计算;窗口间的连接(移动窗口分区方案);
  • 第一个模块使用从左上角像素开始的规则窗口划分策略(New),将8×8特征映射均匀划分为2个大小为4×4的窗口。然后,下一个模块采用一种窗口配置,从前一层的窗口配置中移动,通过从规则划分的窗口中替换(M/2,M/2)像素的窗口。
  • 针对移位配置的高效批计算:以前的pad的填充再屏蔽的方法,在窗口过小的情况下,会提高计算量;本文整改:循环移位-向左上方移动。——降低计算量。

Deconvolution - 简书 (jianshu.com)

你可能感兴趣的:(【论文研读-图像处理】,深度学习,迁移学习,人工智能)