作者认为:
空间注意力是非常重要的
足够大的接受野对于性能的提高是非常重要的
Vision Transformer的核心问题:
如何设计空间注意力
作者提出了两中vision Transformer结构:Twins-PCPVT和Twins-SVT
Twins-PCPVT
作者发现PVT中的global sub-sampled attention采用一个合适的位置编码是非常有效的,它的性能可以超过Swin Transformer,在这篇论文中,作者认为PVT的性能偏低的原因是因为它使用的绝对位置编码,Swin Transformer采用了相对位置编码
作者将PVT中的绝对位置编码替换为CPVT中conditional position encoding,将position encoding generator(CPE)放在每一个stage中第一个encoder block的后面
Twins-SVT
对于一个给定HxW的输入,自注意力的计算复杂度为H22,其中d是注意力维度
作者提出了一个空间可分离的自注意力SSSA用来解决平方复杂度
SSSA由locally-grouped self-attention (LSA) 和 global sub-sampled attention (GSA)组成
Locally-grouped self-attention (LSA)
将2Dfeature maps划分为很多个sub-windows,自注意力通信只在每一个sub-window内,具体来说,feature maps被划分为mxn个sub-windows
Global sub-sampled attention (GSA)
作者使用了一个单独的representative来summarize mxn的sub-windows中的重要的信息,然后使用representative来和其他的sub-window进行通信
ImageNet-1k 分类任务
ADE20K 分割
COCO 目标检测(Retina 框架)
COCO 目标检测(Mask-RCNN 框架)