#今日论文推荐# CVPR22 Oral|通过多尺度token聚合分流自注意力,代码已开源

#今日论文推荐# CVPR22 Oral|通过多尺度token聚合分流自注意力,代码已开源

最近的视觉Transformer(ViT)模型在各种计算机视觉任务中取得了令人鼓舞的结果,这得益于其通过自注意力建模图像块或token的长期依赖性的能力。然而,这些模型通常指定每个层内每个token特征的类似感受野。这种约束不可避免地限制了每个自注意力层捕捉多尺度特征的能力,从而导致处理具有不同尺度的多个对象的图像的性能下降。为了解决这个问题,作者提出了一种新的通用策略,称为分流自注意力(SSA),该策略允许VIT在每个注意力层的混合尺度上对注意力进行建模。SSA的关键思想是将异质感受野大小注入token:在计算自注意力矩阵之前,它选择性地合并token以表示较大的对象特征,同时保留某些token以保留细粒度特征。这种新的合并方案使自注意力能够学习不同大小对象之间的关系,同时减少了token数和计算成本。跨各种任务的大量实验证明了SSA的优越性。具体来说,基于SSA的Transformer达到了84.0%的Top-1精度,优于ImageNet上最先进的Focal Transformer,模型尺寸和计算成本仅为其一半,在相似的参数和计算成本下,在COCO上超过了Focal Transformer 1.3 mAP,在ADE20K上超过了2.9 mIOU。

最近的视觉Transformer(ViT)模型在各种计算机视觉任务中表现出了卓越的性能。与专注于局部建模的卷积神经网络不同,ViTs将输入图像划分为一系列patch,并通过全局自注意力逐步更新token特征。自注意力可以有效地模拟token的长期依赖性,并通过聚合来自其他token的信息来逐步扩大其感受野的大小,这在很大程度上解释了VIT的成功。

然而,自注意力机制也带来了昂贵的内存消耗成本,即输入token数量的平方比。因此,最先进的Transformer模型采用了各种降采样策略来减少特征大小和内存消耗。一些方法努力计算高分辨率特征的自注意力,并通过将token与token的空间缩减合并来降低成本。然而,这些方法倾向于在一个自注意力层中合并过多的token,从而导致来自小对象和背景噪声的token的混合。这种行为反过来会降低模型捕获小对象的效率。

此外,以前的Transformer模型在很大程度上忽略了注意力层内场景对象的多尺度性质,使得它们在涉及不同大小对象的野生场景中变得脆弱。从技术上讲,这种无能归因于其潜在的注意机制:现有方法仅依赖token的静态感受野和一个注意层内的统一信息粒度,因此无法同时捕获不同尺度的特征。

为了解决这一局限性,作者引入了一种新的通用自注意力方案,称为分流自注意力(SSA),该方案明确允许同一层内的自注意力头分别考虑粗粒度和细粒度特征。与以前合并过多token或捕捉小对象失败的方法不同,SSA有效地在同一层的不同注意头上同时对不同规模的对象建模,使其具有良好的计算效率和保留细粒度细节的能力。

论文题目:Shunted Self-Attention via Multi-Scale Token Aggregation
详细解读:https://www.aminer.cn/research_report/62f4fe4a7cb68b460f00c8a9icon-default.png?t=M666https://www.aminer.cn/research_report/62f4fe4a7cb68b460f00c8a9
AMiner链接:https://www.aminer.cn/?f=cs

你可能感兴趣的:(深度学习)