DeepLab系列之V2

  1. DeepLab系列之V1
  2. DeepLab系列之V2
  3. DeepLab系列之V3
  4. DeepLab系列之V3+

  • 论文地址:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
  • 收录:TPAMI 2017 (IEEE Transactions on Pattern Analysis and Machine Intelligence)
  • 论文代码: deeplab-public-Caffe

概述

  1. DCNNs中语义分割存在三个挑战:
  • 连续下采用和重复池化,导致最后特征图分辨率低
  • 图像中存在多尺度的物体(和v1不同之处)
  • 空间不变性导致细节信息丢失
  1. 处理方案:
  • 移除部分池化操作,使用空洞卷积(后来都叫膨胀卷积)
  • 利用不同膨胀因子的空洞卷积融合多尺度信息—atrous spatial pyramid pooling(ASPP)(和v1不同之处)
  • Fully-connected Conditional Random Field(CRF)

3.优势

  • 速度很快,DCNN 8fps,CRF需要0.5秒
  • 准确率高,当时在PASCAL VOC 2012、PASCAL-Context、PASCAL- Person-Part、Cityscapes效果最好(实验数据集更多)
  • 结构简单,DCNN和CRF的组合

膨胀卷积

论文中给出的一维上示意图:


DeepLab系列之V2_第1张图片

其中rat是膨胀因子,卷积公式如下:


DeepLab系列之V2_第2张图片

y是输出信号,x是输入信号,w是卷积模板,可以发现r用来控制对输入信号的采样间隔。更多介绍在v1中。
膨胀卷积有两种实现方式:
  • 上采样卷积核,参数之间插入r-10。例如K大小的卷积核上采样之后大小为k+(k-1)(r-1)
  • 下采样输入特征图,隔行去采样产生r平方个子特征图,然后正常卷积,最后插值返回输入大小的分别率。(当你发现随着膨胀因子增大,网络训练时间增加的很快时,不用怀疑底层实现肯定是这样的)

ASPP结构

作者尝试了两种方案物体多尺度问题:

  • 通过resize多尺度输入图片,最终结果取对象像素点位置最大的响应结果。
  • 受R-CNN的spatial pyramid pooling(SPP)启发,得到ASPP结构。
    具体结构如图所示:


    DeepLab系列之V2_第3张图片

    通过不同的rate构建不同感受野的卷积核,用来获取多尺度物体信息。

CRF

主要利用CRF来优化物体细节信息,并且此处是全连接CRF。具体分析看v1中介绍。
CRF能量函数:


DeepLab系列之V2_第4张图片

第一个式子一元项保证像素分类的准确率,第二个式子二元项保证约束关系。
一元项结构由DCNN产生。
二元项具体如下:


DeepLab系列之V2_第5张图片

由两个高斯核构成,第一个核保证了相似颜色和位置的像素具有相似的标签;第二个核保证了光滑性。

实验

  1. 作者验证了学习策略polystep更有效(caffe平台)
    DeepLab系列之V2_第6张图片
  2. 自对比实验


    DeepLab系列之V2_第7张图片
  • MSC—多层次融合
  • COCO—预训练
  • Aug—随机resize输入图片(0.5—1.5)
  • LargeFOV—fc6的rate为12(v1中有介绍)
  • ASPP—空洞金字塔池化
  • CRF—全连接条件随机场
  1. Cityscapes上结果
    DeepLab系列之V2_第8张图片

    其中StrongWeak使用了cityscapes的粗糙标注集
    其它数据集结果就不依依列出了。

展望

如果一元项结果并不准确,即使使用CRF,效果也得不到提升,将探索编解码结构解决这个问题。

你可能感兴趣的:(DeepLab系列之V2)