ViTAE 2021-12-20

  • ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias
    NeurlPS 2021

背景

  • 当前的vision transformer模型往往需要在更大的数据集进行训练,或者需要更长的训练时间
    > 他们将图像建模为一维token序列,这忽略了对图像局部相关性、目标的尺度不变性的建模,影响收敛速度、模型性能

  • Backbone

显著提高了transformer的收敛速度和性能

Transformer

  • 自注意力机制:建模长距离依赖
  • mha:模拟cnn的多输出通道
  • 编码器解码器架构

方法

ViTAE中引入两种模块结构设计,即卷积旁路分支--对图像局部相关性的建模,和多尺度卷积--提取不同尺度物体的特征,对物体的尺度不变性的建模。
对应两种基础模块:

  • reduction cell (RC) 绿 | normal cell (NC) 蓝


MHSA Multi-Head Self-Attention、a parallel convolutional module、FFN Feed Forward Layer Norm


Pyramid Reduction -金字塔缩减: Dilation Rates -扩张率 atrous convolutions -空洞卷积(将多尺度上下文嵌入到tokens中)

  • 空洞卷积(Dilated/Atrous Convolution) [zhihu] [计算]
    扩大感受野,捕获多尺度上下文信息。填充个0。
    网格效应gridding问题--稀疏采样,缺少依赖)
    解决方案:增加图像级特征,使用全局池化获取图像全局信息,而其他部分的卷积为了捕获多尺度信息,这里的卷积不同于deeplabv2,加了batch normalization。
    [8] Rethinking Atrous Convolution for Semantic Image Segmentation//2017

你可能感兴趣的:(ViTAE 2021-12-20)