6-DeepLab v1&v2&v3 论文解读

Atrous(Dilated)

Atrous,也叫convolution with holes(空洞卷积或扩张卷积),和pooling相比,atrous convolution也是下采样,只是采样的位置是固定的,可以更好的保持空间结构信息。此处引入一个扩充率参数(dilated rate),用来控制扩张(空洞填充)的大小。池化在增大感受野(接受域)会丢失空间结构信息,而空洞卷积在增大感受野的同时,可以很好的保持空间结构信息。
6-DeepLab v1&v2&v3 论文解读_第1张图片
图(a)卷积kernel=3,stride=1,pad=0,rate=1,接受域=3 x 3 。
图(b)卷积kernel=3,stride=1,pad=1,rate=2,接受域=7 x 7 。
图(c)卷积kernel=3,stride=1,pad=3,rate=4,接受域=15 x 15 。

Dilated convolution在CNN方面的应用可以参考论文《Multi-Scale Context Aggregation by Dilated Convolutions》
6-DeepLab v1&v2&v3 论文解读_第2张图片6-DeepLab v1&v2&v3 论文解读_第3张图片6-DeepLab v1&v2&v3 论文解读_第4张图片
DCNN,deep convolution neural network做密集的语义分割任务缺点:

  • 由于下采样导致的分辨率下降(Atrous convolution)
  • 对空间不敏感导致部分细节问题不太好(CRFs)

DeepLab v1
6-DeepLab v1&v2&v3 论文解读_第5张图片
在DeepLab v1中,虽然采用了hole算法在DCNN里,但是论文主要的侧重点是后面定位所采用的全连接CRFs,即
在这里插入图片描述

ASPP(Atrous Spatial Pyramid Pooling)
6-DeepLab v1&v2&v3 论文解读_第6张图片
为了利用多尺度特征对中心像素(橙色)进行分类,ASPP使用不同采样率的多个并行滤波器。
6-DeepLab v1&v2&v3 论文解读_第7张图片

DeepLab v26-DeepLab v1&v2&v3 论文解读_第8张图片
6-DeepLab v1&v2&v3 论文解读_第9张图片
在DeepLab v2中,论文着重强调了Atrous的重要性,并设计了ASPP利用多尺度进行分类,即在这里插入图片描述

BN

BN(Batch Normalization),就是对数据做批规范化,使得数据满足均值为0,方差为1的正太分布。BN操作就是把数据分布压缩在[-1,1],服从均值为0,方差为1的正太分布。主要是缓解DNN训练中的梯度消失/爆炸现象,加快模型的训练速度。
论文参考:https://arxiv.org/abs/1502.03167

BN的优点:

  • 提高推理速度,加快网络收敛;
  • 防止过拟合;
  • 对初始化参数权重不太敏感,允许使用较大的学习率。

DeepLab v3

6-DeepLab v1&v2&v3 论文解读_第10张图片
将模型block4复制三份block5-7,rate逐渐变大的采用级联效应。每一个小模块又相应使用一个ASPP,此处的ASPP结合BN模型,并且这个网络把后面的CRFs去掉了。
6-DeepLab v1&v2&v3 论文解读_第11张图片
这里的ASPP模块由(a)一个1 x 1卷积和3个3 x 3空洞卷积组成,其中空洞卷积的rate=6, 12, 18 。(b)另一部分是普通的全局平均池化,Global Average Pooling 。
在这里插入图片描述

你可能感兴趣的:(语义分割)