Convolutional neural networks (CNNs) are inherently limited to model geometric transformations due to the fixed geometric structures in their building modules.
A key challenge in visual recognition is how to accommodate geometric variations or model geometric transformations in object scale, pose, viewpoint, and part deformation.
第二个方法是使用变换不变性特征和算法,例如SIFT(scale invariant feature transform)和建立在目标检测器中的滑动窗口方法。
CNNs也具有以上2种drawbacks,CNNs受到大模型位置变换的限制,这些限制来源于CNN模块固定的几何特征:卷积层中卷积核在输入特征图上固定的位置上进行采样,池化层通过固定的比例来减少spatial resolution,RoI Pooling层将一个RoI分离成固定的bins等等。
这些都缺乏geometric transformations。这就有2个问题:
For one example, the receptive field sizes of all activation units in the same CNN layer are the same.
For another example, while object detection has seen significant and rapid progress [14, 47, 13, 42, 41, 36, 6] recently, all approaches still rely on the primitive bounding box based feature extraction. This is sub-optimal, especially for non-rigid objects.
第一个是deformable convolution,对于标准的2D卷积中,在标准的网格采样的locations加入了2D offsets,如图1所示。offsets通过先前的特征图以及额外添加的卷积层得到。因此,可变的方式是以一种local,dense和adaptive的准则建立在输入的特征上。
第二个是deformable RoI pooling,它对于每一个RoI Pooling中的每一个bin所在的position添加了offset,与deformable convolution类似,offsets是通过前者特征图学习到的,使得不同形状的object都可以变化自适应的localization。
其中R表示卷积核的大小,左上角为 ( − 1 , − 1 ) (-1, -1) (−1,−1),右下角为 ( 1 , 1 ) (1, 1) (1,1)。。其中 p n p_n pn表示R中的所有位置。普通的卷积操作由公式1和公式2所示:
在可变卷积中,R利用offsets { Δ p n ∣ n = 1 , . . . , N } \{\Delta p_n |n=1,...,N \} { Δpn∣n=1,...,