【NeurIPS2022】ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer

【NeurIPS2022】ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer

这篇论文来自清华大学深圳研究生院和字节跳动。

从Swin开始,attention一般都包括局部 window attention 和 全局attention 两个部分。模型的改进一般有两个:局部注意力和全局注意力。这篇论文也是如此,整体框架如下图所示,核心包括:局部注意力 Interactive Window Self-Attention (IWSA) 和 全局注意力 Scalable Self-Attention (SSA) 两个部分。

【NeurIPS2022】ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer_第1张图片

Interactive Window Self-Attention (IWSA)

IWSA框架如下图所示,首先在局部窗口中分别计算 attention,然后将得到的结果拼接起来,得到Z。各个windows经过 FC 层得到的 value,合并在一起,使用 depth-wise conv 处理(作者称之为 local interactive module),得到Y。将 Z与Y相加,得到输出。

【NeurIPS2022】ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer_第2张图片

Scalable Self-Attention (SSA)

模块结构如下图所示,以前的PVT,只是对Q和K降维(spatial 降维)。在这里,作者不但对Q和K降维,还对V进行降维(channel降维),以达到 scalable 的目标。

【NeurIPS2022】ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer_第3张图片

关键就是看这个缩放怎么取值了。比较有趣的是,作者说,随着网络加深,图像块减少,冗余程度在减少,因此 r n r_n rn 越往后越大。因为空间信息减少较多,需要通道增加来补偿,因此在 ScalableViT-S 和ScalableViT-B 中设置 r c ≥ 1 r_c\ge1 rc1,在 ScalableViT-L 中设置 r c < 1 r_c<1 rc<1。具体如下表所示。

【NeurIPS2022】ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer_第4张图片

你可能感兴趣的:(论文推介,transformer,深度学习,人工智能)