DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution--阅读笔记

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs –阅读笔记

论文来源: IEEE Transactions on Pattern Analysis and Machine Intelligence
论文链接:https://export.arxiv.org/pdf/1606.00915

  • Abstract
  • Introduction
  • Related Work
  • Methods
    • Atrous Convolution for Dense Feature Extraction and Field-of-View Enlargement
    • Multiscale Image Representations using Atrous Spatial Pyramid Pooling
    • Structured Prediction with Fully-Connected Conditional Random Fields for Accurate Boundary Recovery

Abstract

本文用深度学习处理语义图像分割的任务,并且通过实验证明有三个主要贡献具有实质的实用价值。

  1. 首先,我们强调使用上采样滤波器进行卷积,或者将“atrous convolution”作为密集预测任务中的强大工具。 Atrous卷积允许我们明确地控制在深卷积神经网络中计算特征响应的分辨率。它还允许我们有效地扩大滤波器的视野以并入较大的上下文,而不增加参数的数量或计算量。
  2. 第二,我们提出atrous spatial pyramid pooling(ASPP)来分割多个尺度的对象。 ASPP使用多个采样率和有效视场的滤波器来探测进入的卷积特征层,从而捕获多个尺度的对象以及图像上下文。
  3. 第三,通过组合DCNN和概率图形模型的方法,提高对象边界的本地化。 DCNN中通常部署的最大汇集和下采样的组合实现了不变性,但对定位精度有一定的限制。我们通过将最终DCNN层的响应与完全连接的条件随机场(Conditional Random FieldC,RF)进行组合来克服这一点,这在定性和定量上都显示出提高定位性能。

Introduction

DCNNs(Deep Convolutional Neural Networks)对局部图像变换存在内在不变性(built-in invariance),因此可以学习越来越多的数据表达。不变性意味着分类,对如语义分割等密集预测任务存在如下挑战:

  1. 降低特征分辨率;
  2. 多尺度物体的存在;
  3. 由于DCNN不变性导致的定位精度降低。

挑战1的解决方案:

  • 从DCNN的最后几个最大合并层中去除下采样算子,而是在随后的卷积层中对滤波器进行上采样,导致以较高采样率计算的特征图。
  • 通过一个组合的atrous卷积来恢复全分辨率特征图,该卷积更加密集地计算特征图,随后是对原始图像大小的特征响应的简单双线性插值。

挑战2的解决方案:

  • 一个标准的处理方法就是将图像转换成图像,然后聚集特征或分数图。
  • 作者提出一个由空间金字塔池(spatial
    pyramid pooling)衍生的方案:在乘法优先级到卷积的情况下对给定特征层进行重采样。这种方法用具有互补有效视角的多个滤波器来阻止原始图像,从而捕获对象作为多尺度的有用图像上下文。有效地使用具有不同采样率的多个并行无穷大卷积层来实现该映射,称之为“atrous space pyramid pooling”(ASPP)技术。

挑战3的解决方案:

  • 一个方法是在计算最终分割结果时,使用跳过层从多个网络层提取“超列(hyper-column)”特征。
  • 我们通过使用完全连接的条件随机场(CRF)来提高我们的模型捕获细节的能力。 CRFs广泛用于语义分割,将通过多方式分类与由像素和边缘的局部相互作用捕获的低级信息或超像素组合的类得分(score)。

作者提出的DeepLab模型框架如下:
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution--阅读笔记_第1张图片

的DeepLab系统的三个主要优点是:

  1. 速度;
  2. 准确性;
  3. 简单性:仅由DCNN和CRF的级联组成。

作者的模型和代码

Related Work

  • 基于DCNN的第一系列语义分割系统通常采用级联的自下而上的图像分割,其次是基于DCNN的区域分类。虽然这些方法可以通过良好细分的尖锐边界获益,但它们不能从任何错误中恢复。
  • 第二系列系统依赖于使用卷积计算的DCNN特征进行密集图像标注,并将它们与独立获得的分割结合在一起。这些方法采用与DCNN分类器结果分离的分割算法,使得有能产生过早的决策。
  • 第三系列使用DCNN直接提供密集的类别级别的像素标签,这使得甚至可以完全丢弃分割。

DeepLab系统的关键因素:Atrous卷积有效的密集特征提取和通过全连接CRF对 raw DCNN scores 改进。

Methods

Atrous Convolution for Dense Feature Extraction and Field-of-View Enlargement

Atrous concolution 允许以任何所需的分辨率计算任何层的响应。

首先考虑一维信号:

  • 输入一维信号: x[i]
  • 具有长度 k 的滤波器: w[k]
  • 对输入信号进行采样的步幅: r
  • atrous 卷积输出: y[i]

y[i]=k=1kx[i+rk]w[k]

Atrous卷积1-D图示:
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution--阅读笔记_第2张图片

Atrous卷积2-D图示:
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution--阅读笔记_第3张图片

Atrous convolution 还允许在任何DCNN层任意扩大滤波器的field-of-view。

  • 速率 r 的积分卷积在连续滤波器值之间引入 r1 个零,有效地将一个 k×k 滤波器的核大小扩大到 ke=k+(k1)(r1) ,而不增加参数数量或计算。
  • 因此,它提供了一种有效的机制来控制field-of-view,并确定精确定位(small field-of-view)和上下文同化(large field-of-view)之间的最佳权衡。

实现:

  • 通过插入孔(0)来隐含地对采样滤波器进行采样,或者等效稀疏地对输入特征图进行采样。
  • 将输入特征图分解成等于atrous卷积率r的因子,deinterlacing(逐行) 该因子去产生 r2 降低分辨率图,这可能是通过将标准卷积应用于这些中间特征图并将它们重新交织到原始图像分辨率上。

Multiscale Image Representations using Atrous Spatial Pyramid Pooling

处理语义分割中规模变异性的两种实现方法:

  • 第一种方法等于标准多尺度处理。使用共享相同参数的并行DCNN分支从原始图像的多个重新缩放版本中提取DCNN得分图。将来自并行DCNN分支的特征图双向内插到原始图像分辨率,并通过在每个位置获取跨不同尺度的最大响应来融合它们。
  • 第二种方法受到R-CNN空间金字塔汇集方法的成功启发,表明可以通过对单个尺度提取的卷积特征进行重采样,对任意尺度的区域进行准确有效的分类。作者实现了他们的一个变体:“atrous spatial pyramid pooling” (DeepLab ASPP),它使用不同采样率的多个并行的无穷卷积层,为每个采样率提取的特征在不同的分支中进一步处理并融合以产生最终结果。下图所示:
    DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution--阅读笔记_第4张图片

Structured Prediction with Fully-Connected Conditional Random Fields for Accurate Boundary Recovery

CDNN 和 CRF的得分图:
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution--阅读笔记_第5张图片

作者通过耦合DCNN的识别能力和完全连接的CRF的细粒度定位精度来寻求精确的语义分割结果,并在一定程度上恢复了对象边界细节。

该模型采用能量函数如下:

E(x)=iθi(xi)+ijθij(xi,xj)

  • x :pixel 的标签;
  • unary potential θi(xi)=logP(xi) P(xi) 是某个label通过DCNN计算是pixel i 的概率。

成对电位具有允许在使用完全连接的图形时进行有效推理的形式,对于图中所有的连接的像素对 i,j 有:
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution--阅读笔记_第6张图片

  • μxixj = 1,如果 xixj ,否则为0,意味着只有具有不同标签的节点受到惩罚。
  • 第一个“双边”高斯内核取决于像素位置(表示为 p )和RGB颜色(表示为 I ),强制具有相似颜色和位置的像素具有相似的标记
  • 第二个内核只取决于像素位置。超参数 σα σβ σγ 控制高斯核的尺度。在执行平滑度时考虑空间接近度。

你可能感兴趣的:(deep-learning)