[DCN]Deformable Convolutional Networks

文章目录

  • 1. Motivation
  • 2. Contribution
  • 3. Deformable Convolutional Networks
    • 3.1 Deformable Convolution
    • 3.2 Deformable RoI Pooling
    • 3.3 Position-Sensitive (PS) RoI Pooling
    • 3.4 Deformable ConvNets

1. Motivation

​ 由于CNNs固定的几何结构,它们在建模几何变化中受到了限制。

Convolutional neural networks (CNNs) are inherently limited to model geometric transformations due to the fixed geometric structures in their building modules.

​ 视觉识别中的一个关键挑战是如何在对象比例,姿势,视点和零件变形中适应几何变化或模型几何变换,传统的方法有以下2种:

A key challenge in visual recognition is how to accommodate geometric variations or model geometric transformations in object scale, pose, viewpoint, and part deformation.

  • 第一种方法是建立具有足够理想变化的训练数据集,这个通常对训练数据进行数据增强来实现,但是这会增加昂贵的训练和复杂的模型参数。

  • 第二个方法是使用变换不变性特征和算法,例如SIFT(scale invariant feature transform)和建立在目标检测器中的滑动窗口方法。

​ 但是这2个方法都存在2个drawbacks。首先,假设几何变换是固定的并且是已知的。这种假设组织了对于新任务处理位置的集合变化的泛化性。其次,手工设计的特征不变性和算法难以应对复杂的变换,即使它们是已知的。

​ CNNs也具有以上2种drawbacks,CNNs受到大模型位置变换的限制,这些限制来源于CNN模块固定的几何特征:卷积层中卷积核在输入特征图上固定的位置上进行采样,池化层通过固定的比例来减少spatial resolution,RoI Pooling层将一个RoI分离成固定的bins等等。

​ 这些都缺乏geometric transformations。这就有2个问题:

For one example, the receptive field sizes of all activation units in the same CNN layer are the same.

For another example, while object detection has seen significant and rapid progress [14, 47, 13, 42, 41, 36, 6] recently, all approaches still rely on the primitive bounding box based feature extraction. This is sub-optimal, especially for non-rigid objects.

2. Contribution

​ 在本文中,作者提出了2个新的模块,可以极大的增强CNNs对于建模几何变换的能力。

​ 第一个是deformable convolution,对于标准的2D卷积中,在标准的网格采样的locations加入了2D offsets,如图1所示。offsets通过先前的特征图以及额外添加的卷积层得到。因此,可变的方式是以一种local,dense和adaptive的准则建立在输入的特征上。

​ 第二个是deformable RoI pooling,它对于每一个RoI Pooling中的每一个bin所在的position添加了offset,与deformable convolution类似,offsets是通过前者特征图学习到的,使得不同形状的object都可以变化自适应的localization。

图1 标准和可变的3x3卷积的采样点

3. Deformable Convolutional Networks

3.1 Deformable Convolution

普通的2D卷积操作包含2个步骤。

  • 通过一个规则的网格R来对整个输入的特征图x进行sampling。
  • 接着通过卷积核权重w来对采样值values进行加权。

​ 其中R表示卷积核的大小,左上角为 ( − 1 , − 1 ) (-1, -1) (1,1),右下角为 ( 1 , 1 ) (1, 1) (1,1)。。其中 p n p_n pn表示R中的所有位置。普通的卷积操作由公式1和公式2所示:

​ 在可变卷积中,R利用offsets { Δ p n ∣ n = 1 , . . . , N } \{\Delta p_n |n=1,...,N \} { Δpnn=1,...,

你可能感兴趣的:(学习)