DeepLabv3+

DeepLabv3+

引言

语义分割中的DCNN主要有两种结构:空间金字塔池化SPP和编码器-解码器encoder-decoder

SPP通过多种感受野池化不同分辨率的特征来挖掘上下文信息。

Encoder-decoder逐步重构空间信息来更好的捕捉物体的边缘。

DeepLabv3+_第1张图片DeepLabv3+对DeepLabv3进行了拓展,在encoder-decoder结构上采用SPP模块。encoder提取丰富的语义信息,decoder恢复精细的物体边缘。encoder允许在任意分辨率下采用空洞卷积。

DeepLabv3+贡献

  • 提出一个encoder-decoder结构,其包含DeepLabv3作为encoder和高效的decoder模块。
  • encoderdecoder结构中可以通过空洞卷积来平衡精度和运行时间,现有的encoder-decoder结构是不可行的。
  • 在语义分割任务中采用Xception模型并采用depthwise separable convolution,从而更快更有效。

相关工作

SPP

收集多尺度信息。
PSPNet、DeepLab

Encoder-decoder

encoder逐渐减小feature map并提取高层语义信息。
decoder逐渐恢复空间信息。

Depthwise separable convolution

深度可分离卷积或group convolution,在保持性能前提下,有效降低了计算量和参数量。

方法

Encoder-Decoder
空洞卷积:
该部分见DeepLabv2

在这里插入图片描述

深度可分离卷积:
深度可分离卷积将标准卷积分解为depthwise conv后跟一个pointwise conv,有效地降低了计算复杂度。
depthwise conv对每个输入通道分别进行spatial conv。
pointwise conv合并depthwise conv的输出。
我们提出atrous separable conv,其在保持性能前提下,有效降低了计算量和参数量。

DeepLabv3作为encoder:
令outputstride等于输入图像分辨率和输出分辨率的比值。
图像分类任务,最终的feature map通常比输入图像分辨率小32倍,因此outputstride=32。
语义分割任务,令outputstride=16or8,通过移除最后1or2个blocks并应用空洞卷积(rate=2or4

)来密集提取特征。

在我们的encoder-decoder结构中,采用DeepLabv3最后的feature map作为encoder的输出,包含256
个通道并富含语义信息。此外,可以通过空洞卷积以任意分辨率提取特征,取决于计算量。

decoder:
DeepLabv3+_第2张图片
DeepLabv3以factor=16上采样。
DeepLabv3+首先以factor=4上采样,然后和尺寸相同的低层特征相拼接。低层特征采用1×1卷积降维,因为低层特征维度一般比较高(256or512),将占较大权重(我们的模型只有256),使得训练变困难。拼接之后,我们采用3×3的卷积来细化特征,然后再以factor=4双线性插值。

改进 Aligned Xception
Xception模型用于图像分类任务,Aligned Xception用于物体检测任务,我们对Xception做了一些变化使其可用于语义分割任务。
1)更多的层,为了计算量和内存,不对Entry flow网络结构进行修改。
2)所有池化层替换为depthwise separable conv,以便采用 atrous separable conv提取任意分辨率的特征。
3)类似于MobileNet,在每个3×3后添加额外的BN和ReLU。

DeepLabv3+_第3张图片
DeepLabv3+_第4张图片

你可能感兴趣的:(deeplab)