CVPR 2021 Involution: Inverting the Inherence of Convolution for Visual Recognition

动机

卷积操作具有两个显著特性,即spatial-agnostic和channel-specific。

  1. spatial-agnostic:图像所有位置都使用同一个卷积核,实现了平移不变性。但它剥夺了卷积核在不同空间位置采用不同视觉模式的能力,从而限制了卷积核提取特征的的能力。此外,它还限制了卷积的感受野,对识别小目标或者模糊图像构成了挑战。

  2. channel-specific:每个channel都提取不同类型的特征,产生了数据冗余。这使得卷积核对于不同通道的灵活性受到限制。

方法

CVPR 2021 Involution: Inverting the Inherence of Convolution for Visual Recognition_第1张图片

提出了Involution卷积(如上图所示),可构建用于构建新型的神经网络架构。提出的Involution结构与普通卷积完全相反。具有Spatial-Specific和Channel-Agnostic两个对称反向特性。具体地说,Involution核在空间范围上是不同的,但在通道上是共享的。由于Involution核的空间特性,如果将其参数化为Involution核等固定大小的矩阵,并使用反向传播算法进行更新,则会阻碍学习到的对Involution核在不同分辨率的输入图像之间的传输。在处理可变特征分辨率的最后,属于特定空间位置的Involution核可能仅在对应位置本身的传入特征向量的条件下作为实例生成。此外,还通过在通道维数上共享Involution核来减少核的冗余。

具体来说,Involution核是专门为对应坐标位置的像素定制的,但在通道上共享。以一个滑动窗口的方式对输入特征映射进行乘加运算,得到Involution的输出特征映射。与卷积核不同,Involution核的形状取决于输入特征映射的形状。想法是生成以原始输入张量为条件的Involution核,使输出核与输入核对齐。

Involution核以单个像素为条件的函数产生的。一个像素的通道维上的信息编码在核生成步骤中隐性地分散到其空间附近,然后利用大量动态的involution核来收集丰富的感受野中的信息。线性变换被穿插用于通道信息交换。

对于每个Involution核,2个线性变换共同构成bottleneck结构,中间通道维数由降阶比控制,以便有效处理。然后对2个线性变换做非线性激活,并做批处理归一化。在做Channel到Spatial的重排后,将Involution的乘加运算分解为2个步骤,即跨C个信道传播的乘法运算和在空间邻域内聚合的求和运算。

本文提出的Involution本质上可以成为Self-Attention的一般化表达。通过计算Query与Value的对应关系Q和K得到的关联度,得到Self-Attention pool Value。相似之处在于,这2种操作都通过加权和来收集邻域或较小范围内的像素。一方面,Involution的计算机制可以看作是空间域上的一种注意力集中。另一方面,Attention Map,或者说Self-Attention中的affinity矩阵 ,可以看作是一种Involution核。

在ResNet的主干和主干的所有bottleneck位置上使用Involution替换掉了3×3卷积,但保留了所有的1×1卷积用于通道映射和融合。这些精心重新设计的实体联合起来,形成了一种新的高效主干网络,称为RedNet。

实验细节

所有的网络模型都是用PyTorch库实现的。

实验证明,对于目标分类,在ImageNet训练集上从头开始做主干训练,RedNet与现有的SOTA模型相比,获得了更好的参数、更高的精度;对于目标检测,在COCO 2017上进行测试,RedNet作为Backbone的检测框架,不管是RetinaNet、Faster R-CNN还是Mask R-CNN都可以在参数量下降的情况下,还取得了明显的AP提升;对于语义分割,在在Cityscapes数据集上进行测试,RedNet在参数量下降的情况下,还取得了2.4的mIoU提升。

结论

1、重新思考卷积与空间和通道范围有关的内在原理。这一思考促使其提出使用其他具有辨别能力和表达能力的潜在算子作为视觉识别的替代,突破了卷积现有的归纳偏见。

2、将把Self-Attention融入视觉表征的学习过程。在此背景下,关系建模中对像素对的组合要求受到了挑战。此外,统一了Self-Attention和卷积的观点。

3、Involution驱动的体系结构的泛化能力强,在图像分类、目标检测、实例分割和语义分割等一系列视觉任务中都有很好的应用,比基于卷积的方法具有更好的性能。

你可能感兴趣的:(CVPR,2021)