Dilated Convolution介绍

Dilated Convolution介绍

相关的两篇论文分别是[ICLR2016]MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS[CVPR2017]Dilated Residual Networks。作者为Fisher Yu(http://www.yf.io/) 。

1.问题背景

  • 语义分割,目标检测检测任务需要高分辨率的featuremap来获得更准确的结果。
  • 要想保证高分辨率的特征图可能导致感受野过小,而上述语义分割,目标检测需要大量上下文信息。
  • 于是出现下采样再上采样的U型结构网络,同时兼顾感受野和featuremap分辨率。但pooling操作会损失信息。

2.解决方法

通过pooling不断下采样会损失信息,降低精度。单纯地增大卷积核会导致计算复杂度增加。而 dilated convolution 可以解决上述问题。

3.Dilated Convolution

通常被译作扩张卷积空洞卷积。(个人观点:因为dilated和形态学处理的膨胀运算单词一样,所以我经常叫作膨胀卷积。)

2-dilated卷积如下图所示,就是卷积核的元素间隔拉大了。所以2-dilated 3 * 3卷积实际上会覆盖一个5*5的区域。覆盖的区域更大,自然而然感受野就更大。(图片引自水印出处)

dilation_kernel_size = dilation * (original_kernel_size - 1) + 1

Dilated Convolution介绍_第1张图片

此外,论文作者在2015年12月就向caffe提交了dilated卷积的实现代码,有兴趣的话可以到github caffe的提交记录中看到大家当时对于是否用dilation命名的讨论,还挺有意思。

caffe中配置dilation参数如下,直接在prototxt中配置dilation参数即可:

repeated uint32 dilation = 18; // The dilation; defaults to 1

4.dilated卷积核的感受野

  • F1 F 1 由 1-dilated 卷积产生,每个元素感受野为3*3
  • F2 F 2 F1 F 1 基础上由2-dilated卷积产生,每个元素感受野为7 * 7
  • F3 F 3 F2 F 2 基础上由4-dilated卷积产生,每个元素感受野为15 * 15

所以感受野计算公式: Fi+1=(2i+21)(2i+21) F i + 1 = ( 2 i + 2 − 1 ) ∗ ( 2 i + 2 − 1 )

Dilated Convolution介绍_第2张图片

5.存在问题

  • dilated卷积使得卷积核不连续,损失了连续性信息,容易导致网格化问题
    Dilated Convolution介绍_第3张图片

  • dilated卷积虽然可以获得较大感受野,但不利于小物体分割

6.解决网格化问题

Dilated Convolution介绍_第4张图片

出自第二篇文章《Diltated Residual Resnet》。因此作者的实验都是在ResNet上进行的,作者通过实验证明了一些结构可以消除网格化问题:

  • 去除Max pooling
  • 在dilated 卷积后面增加普通卷积的残差block
  • 去掉后接block的shortcut

7.实验结果

  • 分类

Dilated Convolution介绍_第5张图片
* 目标定位

Dilated Convolution介绍_第6张图片

  • 语义分割

Dilated Convolution介绍_第7张图片
首先实验证明了作者提出的消除网格化的结构是非常有效的。

其次证明了dilated卷积与ResNet相结合效果优秀,用更少的block达到甚至超过了更深的ResNet才有的效果。

7.个人体会

  • 对于需要较大感受野和featuremap的任务例如语义分割,关键点定位,dilated 卷积是非常有用的操作。在2017年COCO人体关键点检测竞赛中获得第一名的CVPR2018文章《Cascaded Pyramid Network for Multi-Person Pose Estimation 》也提到ResNet+dilated卷积的效果与U型网络hourglass相当。
  • 对于dilated卷积的优化还有一篇文章待读《Understanding Convolution for Semantic Segmentation》,文章提出了一些标准化设计Hybrid Dilated Convolution (HDC)。https://arxiv.org/pdf/1702.08502.pdf

你可能感兴趣的:(CV,DeepLearning)