《Deformable ConvNets v2: More Deformable, Better Results》

1. 研究问题

尽管可变形卷积网络在几何变化建模方面具有卓越的性能,但其空间支持远远超出了感兴趣的区域,导致特征受到无关图像内容的影响。

2. 研究方法

提出了 Deformable ConvNets 的重构DCN v2,通过增加建模能力和更强的训练来提高其专注于相关图像区域的能力。通过堆叠更多可变形卷积层,并通过引入可变形卷积模块中的调制机制(引入加权因子),以调制来自不同空间位置的输入特征幅度(权重),增强了建模能力。为了有效地利用这种丰富的建模能力,本文通过提出的特征模仿方案指导网络训练,该方案帮助网络学习反映 RCNN 特征的对象焦点和分类能力的特征。

2.1 Stacking More Deformable Conv Layers

通过堆叠更多可变形的卷积层,以进一步加强整个网络的几何变换建模能力。本文将可变形卷积应用于 ResNet-50 中 conv3、conv4 和 conv5 阶段的所有 3*3 conv 层。 因此,网络中有 12 层可变形卷积。

2.2 Modulated Deformable Modules

为了进一步增强 DCN 在操纵空间支持区域方面的能力,引入了一种调制机制,以调制来自不同空间位置的输入特征幅度。在极端情况下,模块可以通过将其特征幅度设置为零来决定不感知来自特定位置的信号。因此,来自相应空间位置的图像内容对模块输出的影响将大大减少或没有影响。因此,调制机制为网络模块提供了另一个维度的自由来调整其空间支持区域。

给定一个卷积核,它有K个采样位置,定义 w k w_k wk p k p_k pk为卷积核第k个位置的权重和偏移量。比如, K = 9 K=9 K=9以及 p k p_k pk属于{ ( − 1 , − 1 ) , . . . , ( 1 , 1 ) (-1,-1),...,(1,1) (1,1),...,(1,1)}可以定义一个3*3卷积核。令 x ( p ) x(p) x(p) y ( p ) y(p) y(p)为输入和输出,扩展的可变形模块的公式如下所示。

在这里插入图片描述
Δ p k \Delta p_k Δpk Δ m k \Delta m_k Δmk分别是学习的对应于第 k k k个位置的偏移量和调整标量(权重), Δ m k \Delta m_k Δmk属于[0,1], Δ p k \Delta p_k Δpk的范围没有限制, p + p k + Δ p k p+p_k+\Delta p_k p+pk+Δpk是小数,所以 x ( p + p k + Δ p k ) x(p+p_k+\Delta p_k) x(p+pk+Δpk)通过双线性插值得到。学习的偏移量和调制量通过应用在同一输入特征图x上的单独卷积层得到的。该卷积层与当前卷积层具有相同的空间分辨率和膨胀,输出是3K个通道,其中前2K个通道对应于学习的偏移,其他K个通道进一步馈送到sigmoid层以获得调制标量。偏移量和调制量的卷积核权重被初始化为0,这样,偏移量被初始化为0,调制量被初始化为0.5,偏移量和调制量的卷积层的学习率被设置为其他卷积层学习率的0.1倍。

还有调制的变形RoIPooling,这一块没有弄明白,以后看了DCN v1 再补充。

3. 实验结果

4. 结论

Deformable ConvNets v2 比原始模型产生了显着的性能提升,并在对象检测和实例分割的 COCO 基准上产生了领先的结果。

参考文献

[8] J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, and Y. Wei. Deformable convolutional networks. In ICCV, 2017.

你可能感兴趣的:(图像处理,DCN,v2)