ESPNet:Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation-------论文理解

参考博客:https://blog.csdn.net/sinat_37532065/article/details/85723068

论文链接:https://arxiv.org/abs/1803.06815v2

1. 概述

提出在资源约束的情况下仍然能有效的对高分辨率图片进行语义分割的网络,ESPNet,基于一个新的卷积模块,即高效的空间金字塔(ESP),它在计算,内存和功率方面都很有效。


目前多数CNN通过增加深度和宽度来提高精度,但大型网络速度慢,耗电量大。这些网络需要大量资源,并且不适用于边缘设备,边缘设备具有有限的能量开销,限制性存储器约束和降低的计算能力。

卷积分解方法已经在多个网络上证实了它的有效性,如.Inception,ResNext,和Xception。

因此,我们提出ESP基于卷积分解原则,讲一个标准卷积分为两部分:

  • 逐点卷积;
  • 扩张卷积的空间金字塔

其中逐点卷积可以减少计算量;扩张卷积的空间金字塔重新对特征图进行采样,以得到更大感受野的表示。

实验证明,ESPNet与其他网络(如MobileNet和ShuffleNet,均是基于卷积分解方法)在相同的内存和计算约束的条件下,仍然能有很好的表现。 其次,ESP运算高效,并且可以用在CNNs的不同空间级别上(主要是相对ASP而言)。

2. ESP网络

2.1 ESP模块

ESP网络是基于ESP模块的。ESP模块的核心是“reduce-split-transform-merge”,由逐点卷积和扩张卷积的空间金字塔两部分组成。过程如下:

  • Reduce:对于H x W x M的输入,先使用1x1降维,输出H x W x N/K。
  • Split:将上一步的输出分为K个平行分支。
  • Transform:将每一个分支使用n x n的卷积核以及 2k−1的扩张率卷积。
  • Merge:将K个带有空洞卷积的输出拼接,得到输出H x W x N。

ESPNet:Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation-------论文理解_第1张图片

相对于普通卷积的参数量 ,ESPNet两步总的参数量只有,并且增加了的感受野。在参数 n = 3,N = M = 128,K = 4的情况下,ESPNet相对于普通卷积参数量减少了约3.6倍,同时有效感受野约为17x17。

  • 但是,在将空洞卷积后的输出进行拼接时出现了网格效应(gridding artifact), 如图2。为解决该问题,提出了HFF方法(图1b),即从最小的膨胀卷积核输出的那张feature map开始,逐级叠加。这样的做法并没有引入任何新的参数,同时计算量上也没有增加太多,但却有效地改善了网格效应。同时,为改善网络内的梯度流,ESP模块的输入和输出拼接使用“逐元素求和”方法。

ESPNet:Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation-------论文理解_第2张图片

2.2 与其他模块的对比

 

ESPNet:Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation-------论文理解_第3张图片

与MobileNet module相比,ESPNet的主要优势是感受野大。

ShuffleNet module即bottleneck的一个变种,降维-提特征-升维,不足的是占用较大内存且无法扩大感受野。

Inception module遵循“split-transform-merge”策略,但ESPNet在参数量、内存占用、感受野三个方面都优于该模块。

借鉴了ResNext module的“reduce-split-transform-merge”思想,但同样在参数量、内存占用、感受野三个方面占优势。

ASP module扩大了感受野,在分割任务上表现出色。但不足是对内存有较高要求且参数量大。

3. 实验

3.1 网络设计

ESPNet:Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation-------论文理解_第4张图片

  四个版本的对比:

ESPNet-A:基础结构。对于每一个 l 级别的空间金字塔,通道数是相同的。为了学习不同空间级别的表示,执行下采样操作。

ESPNet-B:相对于A增加了跳跃连接。通过共享前一个跨步ESP模块和之前的ESP模块之间的特征映射,改善ESPNet-A内部信息的流动。

ESPNet-C:加强ESPNet-B内部的输入图像,进一步改善信息流。跳跃连接的是下采样后的输入图像。

以上三个结构的输出都是原图像的1/8。

ESPNet-D:在C的基础上又添加了反卷积模块,使输出和输入具有相同分辨率的掩码。

3.2 对比实验

图5是ESPNet-C与其他网络结构的性能比较。

ESPNet:Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation-------论文理解_第5张图片

在其他数据集上的实验结果(Unseen dataset、PASCAL VOC2012 dataset、Breast biopsy dataset):

ESPNet:Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation-------论文理解_第6张图片

你可能感兴趣的:(深度学习,目标检测,计算机视觉)