【目标检测】不同结构的感受野对CNN网络的影响

一、什么是感受野?

1、生物学的感受野

万物能见于人,依靠的是人类的视觉系统,其中视网膜起到了关键作用,在视网膜上有许多光感受器细胞,这些光感受器把光信号转换为神经信号(电脉冲),从而刺激大脑皮层中与视觉相关的特定神经细胞,从而在人脑中显现出万物的影像。我们把所有刺激了某一特定神经细胞的光感受器称为该特定神经细胞的感受野(receptive field)。


2、卷积神经网络的感受野

感受野用来表示网络内部的不同神经元对原图像感受范围的大小,即每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小。

假设现在有一个三层的卷积神经网络,其中每一层卷积核的 _ = 3 , = 1,则每层的感受野如下图所示(已将二维简化为一维,具体的计算可以参看另一篇文章《关于不同卷积核大小的思考》):

二、在卷积网络中感受野如何影响特征的表征能力?

一个特征点的感受野可以用离心率(与中心点位置的距离)和大小(size)来描述:

  • 离心率:某卷积特征点所对应的感受野上并不是所有像素都是同等重要的,就好比人的眼睛总有要 focus 的焦点。对于感受野来说,距离中心点越近的像素对输出特征图的贡献就越大。

  • 大小:神经元感受野的值越大,表示其能接触到的原始图像范围就越大,也意味着它可能蕴含了更为全局,语义层次更高的特征;相反,值越小则表示其所包含的特征越趋向局部和细节。因此感受野的值可以用来大致判断每一层的抽象层次。[1]

三、不同结构感受野的特征融合解决什么问题?

在目标检测场景中,检测目标在整个图像中突出部分的大小差别很大。如下图中每张图像中狗所占的区域与大小是不一样的。


由于目标的信息位置存在巨大差异,在设计卷积神经网络时,为卷积操作选择合适的卷积核大小就比较困难。信息分布更全局性的图像偏好较大的卷积核,信息分布比较局部的图像偏好较小的卷积核,如果只是简单地堆叠不同大小的卷积层会非常消耗计算资源,并且层数很深的网络更容易过拟合。

既然从深度上堆叠会存在问题,为什么不从宽度上进行扩展呢?是的,在同一层级上运行具备多个尺寸的卷积操作,使网络变得“更宽”而非“更深”,这就是经典网络 GoogleNet (Inception v1) 的设计思想。

四、有哪些基于感受野融合的算法?

1、Inception[2]

如上图所示,Inception Module基本组成结构有四个部分:1x1卷积,3x3卷积,5x5卷积,3x3最大池化。在卷积操作时,核大小不一样的卷积层和池化层都以 padding='SAME' 的方式来保证输出的特征图像具有相同的尺寸,以便最后对结果进行Depth通道上的组合。这就是Inception Module的核心思想。通过多个卷积核提取图像不同尺度的信息,最后进行融合,可以得到图像更好的表征。

Inception考虑了多种尺寸的感受野,因而采用具有不同大小 kernel 的多个分支来捕获多尺度信息。但是,Inception中的所有 kernel 都基于同一中心进行采样,这需要更大的kernel才能达到相同的采样覆盖率,从而丢失了一些关键细节。

2、ASPP[3]

对输入的特征图应用几个具有不同膨胀率的空洞卷积,以改变与中心点的采样距离。但是这些特征仅具有来自相同 kernel 大小的先前卷积层的均匀分辨率,所得特征往往不那么独特。

3、Deformable CNN[4]

Deformable CNN,即可变卷积网络,它与正常卷积的区别在于卷积操作时的采样方式上。如下图所示,卷积核大小为 3x3 的正常卷积和可变形卷积的采样方式:



其中(a) 所示的正常卷积规律的 9 个采样点(绿点),(b)(c)(d) 为可变形卷积,在正常的采样坐标上加上一个位移量(蓝色箭头)。

可变卷积具体是如何做到deformable的呢?其实,Deformable Conv操作并没有改变正常卷积的计算操作,而是在卷积作用域的基础上,加入了一个可学习的偏移参数,如下图所示:


可变形卷积试图根据物体的尺度和形状自适应地调整感受野的空间分布。尽管其采样网格是灵活的,但并未考虑到离心率对感受野的影响,感受野中的所有像素对输出的贡献相同,并未有强调中心最重要的信息。

4、RFB Net[5]

RFB Net(Receptive Field Block Net),考虑了感受野中尺寸和离心率之间的关系,认为越靠近中心的位置,应该获得更重要的关注。RFB模块的设计如下图所示:



其中所设计的多个卷积核是结合了Inception和ASPP两者的优点,以不同的核大小和不同的采样距离进行空洞卷积,达到模拟人类视觉系统中的菊花形状的感受野空间分布的效果。

下图对比总结了上面提到的4种不同的卷积核设计方式:


【参考文献】

[1] Understanding the Effective Receptive Field in Deep Convolutional Neural Networks https://arxiv.org/abs/1701.04128
[2] Going Deeper with Convolutions https://arxiv.org/abs/1409.4842
[3] Rethinking Atrous Convolution for Semantic Image Segmentation https://arxiv.org/abs/1706.05587
[4] Deformable Convolutional Network https://arxiv.org/abs/1703.06211
[5] Receptive Field Block Net for Accurate and Fast Object Detection http://arxiv.org/abs/1711.07767

你可能感兴趣的:(【目标检测】不同结构的感受野对CNN网络的影响)