《Twins: Revisiting the Design of Spatial Attention in Vision Transformers》论文阅读

作者认为:

空间注意力是非常重要的

足够大的接受野对于性能的提高是非常重要的

Vision Transformer的核心问题:

如何设计空间注意力

作者提出了两中vision Transformer结构:Twins-PCPVT和Twins-SVT

Twins-PCPVT

作者发现PVT中的global sub-sampled attention采用一个合适的位置编码是非常有效的,它的性能可以超过Swin Transformer,在这篇论文中,作者认为PVT的性能偏低的原因是因为它使用的绝对位置编码,Swin Transformer采用了相对位置编码

作者将PVT中的绝对位置编码替换为CPVT中conditional position encoding,将position encoding generator(CPE)放在每一个stage中第一个encoder block的后面

《Twins: Revisiting the Design of Spatial Attention in Vision Transformers》论文阅读_第1张图片

《Twins: Revisiting the Design of Spatial Attention in Vision Transformers》论文阅读_第2张图片

Twins-SVT

对于一个给定HxW的输入,自注意力的计算复杂度为H22,其中d是注意力维度

作者提出了一个空间可分离的自注意力SSSA用来解决平方复杂度

SSSA由locally-grouped self-attention (LSA) 和 global sub-sampled attention (GSA)组成

Locally-grouped self-attention (LSA)

将2Dfeature maps划分为很多个sub-windows,自注意力通信只在每一个sub-window内,具体来说,feature maps被划分为mxn个sub-windows

《Twins: Revisiting the Design of Spatial Attention in Vision Transformers》论文阅读_第3张图片

《Twins: Revisiting the Design of Spatial Attention in Vision Transformers》论文阅读_第4张图片

Global sub-sampled attention (GSA)

作者使用了一个单独的representative来summarize mxn的sub-windows中的重要的信息,然后使用representative来和其他的sub-window进行通信

《Twins: Revisiting the Design of Spatial Attention in Vision Transformers》论文阅读_第5张图片

ImageNet-1k 分类任务

《Twins: Revisiting the Design of Spatial Attention in Vision Transformers》论文阅读_第6张图片

 

ADE20K 分割

《Twins: Revisiting the Design of Spatial Attention in Vision Transformers》论文阅读_第7张图片

 

COCO 目标检测(Retina 框架)

《Twins: Revisiting the Design of Spatial Attention in Vision Transformers》论文阅读_第8张图片

 

COCO 目标检测(Mask-RCNN 框架)

《Twins: Revisiting the Design of Spatial Attention in Vision Transformers》论文阅读_第9张图片

 

你可能感兴趣的:(Transformer,cv,深度学习)