Deformable ConvNets v2: More Deformable, Better Results

1. 介绍

在机器视觉的问题中,经常要面对物体具有很大形变的情况。在可变形卷积v1中,引入了deformable convdeformable RoIpooling来应对,它们对卷积和RoIpooling分布加入来offset,来使得神经网络关注真实的物体形状。
通过对引入offset后的感受野进行可视化,作者发现卷积以及pooling的采样点,采样框,在特定的物体上进行了聚集,但是这些感受野覆盖的地方并不是特别的精确,这可能导致引入了一些无关信息,作者发现这种问题在一些困难的任务中更加明显。
在这篇论文中,作者提出了可变形卷积v2,DCNv2,它有更加强大的学习可变形卷积的能力。一是,增加可变形卷积层数,二是增加了调整模块,也就是除了学习offset,还学习了一个特征缩放(也就是权重)。

2. 可变形卷积分析

2.1 Spatial Support Visualization

为了更好地理解可变形卷积,作者可视化了神经网络中节点的有效感受野,有效采样位置,以及error-bounded saliency regions。这三种形式反应了造成节点response的不同视角。

Effective receptive field 感受野里不同像素对于节点的贡献是不同的,它们贡献的不同可以通过有效感受野来表示,有效感受野是通过节点的response对图片每个像素点的intensity perturbations的梯度计算得到。
Effective sampling/bin locations 在可变形卷积v1中,作者可视化了采样点,或者采样bin,但是它们的贡献程度没有刻画出来,为此,作者在这里可视化了effective sampling/bin locations,它通过节点对不同采样点的梯度得到。
Error-bounded saliency regions 有时候直接去除图片的一些没有影响的区域,节点的值并不会改变。因此,作者定义,一个节点的支持区域为图片上能够得到error-bounded的节点值的最小区域。也就是
error-bounded saliency region*。

2.2 Spatial Support of Deformable ConvNets

从左往右依次为小物体,大物体,背景。
从上往下依次为effective sampling locations, effective receptive field, and error-bounded saliency regions
普通卷积:


Deformable ConvNets v2: More Deformable, Better Results_第1张图片
regular conv

可变形卷积v1


deformable conv@conv5 stage (DCNv1)

可变形卷积v2(Effective sampling locations和v1类似,因此省略)


Deformable ConvNets v2: More Deformable, Better Results_第2张图片
modulated deformable conv@conv3∼5 stages (DCNv2)

作者发现:

  1. 普通的卷积有一定刻画物体几何形变的能力。
  2. 通过引入可变形卷积,网络刻画几何形变的能力得到了加强。spatial support区域扩展到了整个物体,对于背景,也变得更大了。但是spatial support可能是不准确的
  3. 这三种可视化比deformable v1提出的可视化提供了更多的信息

论文中还展示了fc层的情况。

3. 更多的可变形卷积

3.1 堆叠更多的可变形卷积层

作者将resnet-50的conv3-5都的3*3卷积换成了可变形卷积

3.2 调整可变形卷积

作者在offset的基础上加了调整模块,用于决定采样点的权重,给定一个卷积的个采样位置,表示权重,表示偏置。因此,可变形卷积的结果可以表示为:

其中是学习到的偏置和权重。遇到小数作为偏置,采用bilinear插值。
因此,输出应该是个通道,前个表示x和y的偏置,最后个表示的就是modulation scalars,它需要sigmoid来归一化。
RoIpooling类似。

3.3 R-CNN Feature Mimicking

对于每个RoI分类节点来说,它的error-bounded saliency region会超出这个RoI。这种多余的环境信息可能对结果有害。
作者使用了feature mimicking来改善,让可变形卷积关注更集中的部分,但是不应用于背景类别。如下图


Deformable ConvNets v2: More Deformable, Better Results_第3张图片
Network training with R-CNN feature mimicking

给定RoI,对应原图的区域被crop并缩放成224*224大小。然后通过和R-CNN流程,区别是RoI是整个图片,最后的两个FC得到这个patch的特征表示,用表示。用一个维的softmax分类层,另一个Feature Mimicking,用于和左边faster 得到的特征进行对比得到一个loss。公式如下:

mimic loss

两边的参数是共享的。

你可能感兴趣的:(Deformable ConvNets v2: More Deformable, Better Results)