CV学习——day32 读论文:顶会ICCV · 会议CV——2021 Swin Transformer

会议CV——(2021 ICCV)Swin Transformer:Hierarchical Vision Transformer using Shifted Windows

  • 请对照论文观看笔记
  • chap1
    • 1)现有问题:
    • 2)创新点:
  • chap2 Method
    • 1)Swin Transformer架构的概述(a)
    • 2)Swin Transformer block(b)
  • chap3 基于移动窗口的self-attention
    • 1)非重叠窗口中的self-attention
    • 2)在连续块中移位的窗口分区
    • 3)相对位置偏差(Table 4)
    • 4)Architecture Variants
  • chap4 实验总结
  • chap5 成果

请对照论文观看笔记

点击下载资源

变压器专为序列建模和转导任务而设计,以其对数据中的远程依赖关系建模的关注而著称,它对计算机视觉的适应,在某些任务上展示了有希望的结果,特别是 图像分类 和联合视觉-语言建模

chap1

1)现有问题:

① 在现有的基于transformer的模型中,tokens都是固定比例的,这一特性不适合这些视觉应用


② 如语义分割,需要在像素级别进行密集预测,这对于高分辨率图像上的Transformer来说是很困难的,因为它的self-attention的计算复杂度是图像大小的二次方

o

2)创新点:

论文提出了一种通用的Transformer 结构,称为Swin Transformer,它构造了分层的特征映射,并且计算复杂度与图像大小成线性关系
o

通过从小尺寸的补丁(Figure 1.a)开始,并逐渐合并更深的变压器层中的相邻补丁来构造分层表示


每个窗口中的patches数量是固定的,因此复杂度与图像大小成线性关系。

o
Swin Transformer的一个关键设计元素是窗口分区在连续的self-attention层之间的移动,如图2所示。移动的窗口桥接了前一层的窗口,提供了它们之间的连接,显著增强了建模能力。
o

chap2 Method


o

1)Swin Transformer架构的概述(a)

o

stage1:首先通过patch分割模块(如ViT)将输入的RGB图像分割成不重叠的patch(token),每个块的特征维度4 * 4 * 3 = 48 ,将线性嵌入层应用于该原始值特征以将其投影到任意维度(表示为C)


stage2:为了产生分层表示,随着网络的深入,通过patch合并层来减少tokens的数量


重复两次,即stage3 和stage 4,这些Stage共同产生具有与典型卷积网络(如VGG和ResNet)相同的特征映射分辨率的分层表示。因此,该体系结构可以方便地取代现有方法中的骨干网络,用于各种视觉任务。

o

2)Swin Transformer block(b)

o

将变压器块中的标准多头自我注意 (MSA) 模块替换为基于移位窗口的模块,其它层保持不变。

chap3 基于移动窗口的self-attention


o

1)非重叠窗口中的self-attention

o

全局MSA模块和基于h×w patch图像的窗口的计算复杂度分别为式(1)、(2);前者与patch数H * W为平方关系,后者在M固定时是线性的

o

2)在连续块中移位的窗口分区

o

式(3)中ˆzl和zl分别表示块1的(S)WMSA模块和MLP模块的输出特征;W-MSA和SW-MSA分别表示使用规则和移位窗口分区配置的基于窗口的多头self-attention

o

3)相对位置偏差(Table 4)

o

与没有这种偏差项或使用绝对位置嵌入的同行相比,有显著的改进。进一步向输入添加绝对位置嵌入会略微降低性能,因此在论文的实现中不采用它

o

4)Architecture Variants

o

论文构建了名为Swin-B的基本模型,其模型大小和计算复杂度与ViTB/Deit-B相似。还提出了Swin-T、Swin-S和Swin-L,它们的模型规模和计算复杂度分别约为0.25×、0.5×和2倍。

chap4 实验总结

论文提出的Swin Transformer在图像分类、目标检测和语义分割等识别任务中取得了较好的性能。它在三个任务上的延迟与Vit/Deit和ResNe(X)t模型相比要高得多。

chap5 成果

促进视觉和文本信号的联合建模,并且可以更深入地共享计算机视觉和自然语言处理两个领域的建模知识。

你可能感兴趣的:(学习,transformer,深度学习)