DeepLab V3++ 论文笔记

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

DeepLab v3++

论文链接: https://arxiv.org/abs/1802.02611

DeepLab v1 论文笔记
DeepLab v2 论文笔记
DeepLab v3 论文笔记

一、 Problem Statement

作者认为SPP结构可以有效的提取multi-scale contextual information,而encoder-decoder结构可以提取shaper object boundaries。因此想把这两个结构进行结合。

二、 Direction

Deeplab V3进行改进。

  1. 结合ASPP和encoder-decoder结构
  2. 提出atrous depwith separable convolution
  3. 使用modified Xception 作为backbone。

三、 Method

先来看一下整体的结构:
DeepLab V3++ 论文笔记_第1张图片

1. ASPP + encode-decoder 结构

由于在backbone中使用了striding convolution operation和pooling,会使得目标边界的信息丢失。而对于encoder-decoder结构来说,它是通过decoder path逐渐恢复目标边界,因此把这两个结构进行结合,如下图所示。

DeepLab V3++ 论文笔记_第2张图片

可以看到,decoder path只连接了一层,作者做过实验,表明添加多几个path并没有很大的提升,因此采用了一个最简单且有效的结构,如上图 c c c所示。

通常low-level feature的通道数较多,作者采用了一个1x1卷积来减少其通道数(防止与两个拼接的通道数不一样,导致失衡和使得网络训练困难),与进行bilinear插值的特征进行拼接,然后使用几个3x3卷积来进行调整,最后再使用bilinear进行插值到原像素。

因此,作者考虑了三个问题:

  • 使用1x1卷积来减少low-level feature的通道数,那这个1x1使用的是多少通道数呢?
  • 需要使用多少个3x3卷积来获得sharper segmentation results?
  • 哪一个low-level features应该被使用?

对于第一个问题,作者做了对比实验之后,发现 [ 1 × 1 , 48 ] [1 \times 1, 48] [1×1,48]是最优参数。
对于第二个问题,作者发现使用两个 [ 3 × 3 , 5 ] [3 \times 3, 5] [3×3,5]卷积比使用1个或者3个更有效。
对于第三个问题,作者也尝试过和U-Net类似,每个encoder feature都添加一个path到decoder中,但是实验表明,并没有很大的差异。因此采用了一个最简单且有效的结构。

2. Atrous depwith separable convolution

深度可分离卷积出现在Mobile-Net系列里面,主要是分为了depthwise convolution 和 pointwise convolution,能够提升速度。因此,作者把其与atrous convolution进行结合,降低计算复杂度,如下图所示。

DeepLab V3++ 论文笔记_第3张图片

3. Modified Xception

作者对Xception进行了修改,具体如下:

  1. deeper Xception,除了不修改入口网络结构以实现快速计算和内存效率。
  2. 所有的max pooling替换成depthwise separable convolution with striding,能够使得我们使用atrous separable convolution。
  3. 对每个3x3 depthwise convolution操作后面添加batch normalization 和 ReLU操作。

DeepLab V3++ 论文笔记_第4张图片

作者也对比了ResNet-101和Xception,发现后者的性能表现较好。没有使用multi-grid方法,因为并没有性能上的提升。

4. Training

依旧使用DeepLab v3训练方法,采用’poly’ learning rate schedule, crop size 513x513, fine-tuning BN参数和random scale 数据增强方式。

四、 Conclusion

结合了ASPP, encoder-decoder结构。把深度可分离卷积应用到了空洞卷积,提升了DeepLab V3的性能。

DeepLab 系列总结对比:
DeepLab V3++ 论文笔记_第5张图片

Reference

  1. https://www.cnblogs.com/vincent1997/p/10889430.html

你可能感兴趣的:(实例分割论文笔记,计算机视觉,神经网络,深度学习)