《DeepLab v2》论文笔记

论文名称:《DeepLab v2:Semantic Image Segmentation with Deep Convolutional Nets,Atrous Convolution,and Fully Connected CRFs》

1. 概述

导读:这篇文章是在DeepLab v1的基础上改进而来的,基础网络略有不同v2版本中使用的是ResNet网络,而v1中是VGG网络。除此之外主要的改进主要体现为如下几点:
1)强调具有上采样filter的卷积与膨胀卷积在密集预测任务中是很有用的工具。膨胀卷积可以准确控制深度神经网络中的特征响应,同时可以在不增加参数与计算量的前提下提升感受野;
2)提出Atrous Spatial Pyramid Pooling(ASPP)网络增强在多尺度下多类别分割时的鲁棒性,使用不同的采样比例与感受野上提取输入的特征,能在多个尺度上捕获目标与上下文信息;
3)通过图模型(fully connected Conditional Random Field,CRF(DenseCRF))来精准确定分割目标的边界;
该方法在VOC-2012数据集上IoU达到了79.7%

文中认为使用深度CNN网络进行语义分割所面临的问题与对应的解决办法:

  • 1)尺寸减小的特征图。文章通过去掉最后的几个几个下采样池化提高了卷积特征的大小,并且通过引入膨胀卷积在没有增加参数与计算量情况下增大感受野。
  • 2)需要分割的目标具有多样的尺度大小。针对这个问题,文章参考了空间金字塔池化的思想,这里使用不同比例的膨胀卷积构造“空间金字塔结构”(Atrous Spatial Pyramid Pooling,ASPP)。
  • 3)由于深度CNN网络具有平移不变性影响分割准确性。文章引入全连接条件随机场(fully-connected Conditional Random Field,CRF)使得分割边界的定位更加准确,从而解决该问题。

2. 网络设计

2.1 网络结构

下图展示的是文章使用方法运算流程,整体的流程与v1的相差不大。在卷积网络、特征池化与CRF上做了一些改进。
《DeepLab v2》论文笔记_第1张图片

2.2 膨胀卷积

文章采用了模块化的膨胀卷积层,下面是膨胀卷积与普通卷积的对比:
《DeepLab v2》论文笔记_第2张图片
膨胀卷积与普通卷积的卷积结果对比:
《DeepLab v2》论文笔记_第3张图片

2.3 使用ASSP从多尺度角度表征图像

为了适应分割目标中不同的大小的目标文章提出了两种解决办法:

  • 1)这里变化输入图像的尺寸构造图像金字塔,使用相同的CNN网络去生成这些图的特征,这些特征恢复到原分辨率之后按位取最大值融合。使用该方法确实能够提升分割的性能,但是带来较大计算量开销;
  • 2)上面的方法计算开销较大,为了在多尺度上更好分割目标,这里就在一个固定的特征图上是用不同ratio的膨胀卷积并行地去提取特征,其结构见下图所示:
    《DeepLab v2》论文笔记_第4张图片

2.4 引入Fully-Connected CRF

原始CNN网络的输出见图5的第二列所示,可以看到该分割的结果非常粗糙,这是由于CNN网络的平移不变性导致的边界定位精度低。
《DeepLab v2》论文笔记_第5张图片
在之前的v1版本中也使用了CRF,其形式差不太多,能够更加精准地确定目标的边界,这里采用的能量函数是:
E ( x ) = ∑ i θ i ( x i ) + ∑ i j θ i j ( x i , x j ) E(x)=\sum_i \theta_i(x_i)+\sum_{ij}\theta_{ij}(x_i,x_j) E(x)=iθi(xi)+ijθij(xi,xj)
对于 θ i j ( x i , x j ) \theta_{ij}(x_i,x_j) θij(xi,xj)的表达,这里采用的表达形式为:
θ i j ( x i , x j ) = u ( x i , x j ) [ w 1 e x p ( − ∣ ∣ p i − p j ∣ ∣ 2 2 σ a l p h a 2 − ∣ ∣ I i − I j ∣ ∣ 2 2 σ β 2 ) + w 2 e x p ( − ∣ ∣ p i − p j ∣ ∣ 2 2 σ γ 2 ) ] \theta_{ij}(x_i,x_j)=u (x_i,x_j)[w_1exp(-\frac{||p_i-p_j||^2}{2\sigma_{alpha}^2}-\frac{||I_i-I_j||^2}{2\sigma_{\beta}^2})+w_2exp(-\frac{||p_i-p_j||^2}{2\sigma_{\gamma}^2})] θij(xi,xj)=u(xi,xj)[w1exp(2σalpha2pipj22σβ2IiIj2)+w2exp(2σγ2pipj2)]

3. 实验结果

整体分割性能与现有方法的对比:
《DeepLab v2》论文笔记_第6张图片
训练策略对于分割性能的影响:
《DeepLab v2》论文笔记_第7张图片
ASPP中感比例(感受野)对性能的影响:
《DeepLab v2》论文笔记_第8张图片
不同因素对分割性能的影响:
《DeepLab v2》论文笔记_第9张图片

你可能感兴趣的:([6]语义分割)