(DeepLabV1)基于深度卷积网络和全连接条件随机场的语义图像分割

摘要

a.结合DCNN与概率图模型做像素级的分类(语义分割)。

b.我们的实验表明DCNN最后一层的响应不能对精确的物体分割做出充分的局部化,其原因是DCNN的不变性。为了解决这个问题,我们把DCNN最后一层的响应与一个全连接的条件随机场(CRF)结合。

1.引言

a.端到端的DCNN方法明显优于基于精心设计表示(如SIFT、HOG)的方法,这可以部分归因于DCNN固有的对局部图像变换的不变性,也印证了它学习数据分层抽象的能力。虽然这种不变性对高层视觉任务有用,但它会妨碍低层次的任务,如位姿估计和语义分割,在这些任务中,我们想要精确的位置而不是空间细节的抽象。

b.DCNN应用于图像标签任务有两个技术障碍:信号降采样和空间不敏感(不变性)。

  1. 第一个问题是由于标准DCNN层中重复的池化和降采样造成的信号分辨率减少。我们采用最初为高效计算离散小波变换开发的"空洞"(带孔)算法。这样可以高效密集地计算DCNN响应,且比早期的方案简单很多。
  2. 第二个问题涉及到这样一个事实,即从分类器获取以对象为中心的决策需要对空间变换具有不变性,这从本质上限制了DCNN模型的空间精度。我们采用全连接的条件随机场获取更好的细节来提升模型的能力。

c.条件随机场已广泛应用于语义分割,把多路分类器计算的类别分数与像素和边缘或超像素相互作用获取的低级信息相结合。尽管一些对分割的分层依赖和/或高阶依赖进行建模的更复杂的工作被提出,我们用全连接的成对的CRF对它进行高效计算,可以获取更好的边界细节同时满足长期依赖的需要。

2.相关工作

3.用于稠密图像标注的CNN

下面将讲述我们怎样为我们的稠密语义图像分割系统把公用的Imagenet,一个Simonyan和Zisserma2014年提出的流行的预训练的16层分类网络(VGG-16),重新设计并优化成一个高效实用的稠密特征提取器。

3.1带空洞算法的高效稠密滑动窗口特征提取

稠密空间分数评估有助于我们稠密CNN特征提取器的成功。第一步,我们把VGG-16的全连接层改为卷积层,以卷积的形式在图像原始分辨率上运行网络。但这样是不够的,因为计算的检测分数非常稀疏(步长为32像素)。为了在8像素步长上计算更稠密的分数,我们在Giusti、Sermanet等人2013年的方法的基础上设计一个变种。在Simonyan和Zisserman2014年的网络的最后两个最大池化层后不做下采样,并通过填充0修改后面的卷积滤波器以增加长度(最后三层卷积是2X,第一个全连接层是4X)。我们通过保持滤波器的完整性来更高效地实现这一点,分别用2和4像素步长对它们的特征图稀疏采样。这个算法在图1中描述,称为"空洞算法",之前用于高效计算小波变换。我们在Caffe框架的im2col函数(它把多通道特征图转化为矢量块)中添加选项来稀疏地采样下层特征图。这是通用的方法,使我们不用近似就能以任意采样率高效计算稠密CNN特征图。

(DeepLabV1)基于深度卷积网络和全连接条件随机场的语义图像分割_第1张图片 图1:一维空洞算法图解,这里kernel_size = 3,input_stride = 2,output_stride=1。

按照Long的方法,我们直接微调 Imagenet-pretrained VGG-16网络的模型权重使它适应图像分类任务。我们把VGG-16最后一层的1000路Imagenet分类器改为21路。我们的损失函数是CNN输出图(和原图相比以8做降采样)每个空间位置的交叉熵之和。所有位置和标签在总损失函数中被给予相同权重。目标是实际标签(以8做降采样)。我们用标准的SGD优化所有网络层的目标函数。

测试时,我们需要和原始图像分辨率大小相同的类别分数图(score maps)。如图2和4.1所述,类别分数图(与对数概率对应)很平滑,我们可以使用简单的双线性插值以可忽略的计算代价把分辨率增加8倍。Long等人的方法没有使用空洞算法,CNN输出产生的分数很粗糙(降采样系数是32)。这迫使他们使用学习过的上采样层,大大增加了系统的复杂度和训练时间:在PASCAL VOC 2012数据集上微调我们的网络需要大概10小时,但他们给出的训练时间是几天(都使用流行的GPU)。

3.2 控制感受野大小、卷积网络加速稠密计算

为了计算稠密分数,修改网络的另一个重要因素是控制网络的感受野大小。最近大部分基于DCNN的图像识别方法都依赖在Imagenet大规模分类任务的基础上预训练的网络。这些网络的感受野都很大:如VGG-16网络,如果用于卷积,它的感受野大小是224x224(用0填充)和404x404像素。把网络改成全卷积后,第一个全连接层有4096个大小为7x7的滤波器,称为计算稠密分数的瓶颈。

我们把第一个全连接层空间降采样到4x4(或3x3)的空间大小来解决这个实践问题。这样感受野的大小就降为128x128(0填充)或308x308(在卷积模型中),在第一个全连接层减少2到3倍的时间。

4.细节边界恢复:全连接的条件随机场和多尺度预测

4.1深度卷积网络和定位问题

如图2所示,DCNN分数图能可靠地预测图像中物体的大致位置,但不能精确地画出物体的轮廓线。卷积网络的分类精度和定位精度是相互矛盾的:带有多层最大池化层的较深模型更有利于分类任务,但不变性的增加和感受野的扩大使从顶层输出分数中推断出位置变得更具挑战性。

最近的工作从两个方向解决这个定位挑战:第一个方法利用卷积网络的多层信息更好地估计物体边界,如2014年Long等人和2014年Eigen、Fergus的方法。第二个方法利用超像素表现(super-pixel representation),本质上是用低级(low-level)分割方法做定位。这个方法主要是遵循Mostajabi等人的思路,他们在2014年提出了一个很成功的方法。

在4.2中,我们联合DCNN的识别能力和全连接CRFs精确定位细密纹理的能力提出一个新的方向,并证明这在解决定位挑战、产生精确的语义分割结果、恢复物体边界问题上比现有方法有明显优势。

4.2用于精确定位的全连接条件随机场

(DeepLabV1)基于深度卷积网络和全连接条件随机场的语义图像分割_第2张图片 图2:飞机的分数图(在softmax函数前输入)和信念图(softmax函数的输出)。图中展示的是每次平均场迭代后的分数图(第一行)和信念图(第二行)。DCNN的最后一层输出作为平均场推理的输入。

 

传统意义上,条件随机场用于平滑噪声分割图(Rother et al., 2004; Kohli et al., 2009)。通常这些模型包含耦合相邻节点的能量项(energy terms),有利于为空间上相近的像素分配相同的标签。定性地说,这些短程(short-range)CRFs的主要功能是清除建立在局部手工设计特征基础上的弱分类器的错误预测。

这些较弱的分类器和现代的DCNN架构,就像我们在该项目中使用的,相比产生的分数图和语义标签预测有本质区别。如图2所示,分数图通常很平滑,产生同质分类结果(homogeneous classification results)。这种情况下,使用短程CRFs是不利的,因为我们的目的应该是恢复细致的局部结构而不是使之更平滑。将对比度敏感势能(contrast-sensitive potentials,Rother et. al., 2014)与局部范围(ocal-range)CRFs结合,可以潜在地改善定位,但仍然丢细小结构(thin-structures),并且通常需要解决高代价的离散优化问题。

(DeepLabV1)基于深度卷积网络和全连接条件随机场的语义图像分割_第3张图片 图3:模型展示。用双线性插值对来自DCNN(带全卷积层)的粗糙分数图进行上采样。全连接的CRF用于改善分割结果。

 

为了解决短程CRFs的这些局限,我们在系统中引入Krahenbuhl和Koltun在2011年提出的全连接CRF模型。模型的能量函数是:

E\left ( x \right )=\sum_{i}^{} \right \theta _{i}\left ( x_{i} \right )+\sum_{ij}^{} \right \theta _{ij}\left ( x_{i},x_{j} \right ). (1)

其中x是指派给像素的标签。我们把\theta _{i}\left ( x_{i} \right )=-\log P\left ( x_{i} \right )作为单点势能(unary potential),其中P\left ( x_{i} \right )是DCNN计算出的像素i的标签分配概率。对势(pairwise potential)是\theta _{ij} \left ( x_{i}, x_{j} \right )=u\left ( x_{i}, x_{j} \right )\sum_{m=1}^{K} w_{m} \cdot k ^{m} \left ( f_{i}, f_{j} \right ),其中如果x_{i} \neq x_{j}u\left ( x_{i}, x_{j} \right )=1,否则为0(即波茨模型)。不论图像上任意两个像素ij的位置有多远,它们之间都有一个成对项(pairwise term),也就是说模型的因子图是全连接的。k^{m}是像素ij的特征(用f表示)的高斯核,其权重是w_{m}。我们用双方(像素ij)的位置和颜色来构造核,具体来说核是

w_{1}exp\left (-\frac{\left | \left | p_{i}-p_{j}\right |\right |^{2}}{2\sigma _{\alpha }^{2}}- \frac{\left \| I_{i}-I_{j} \right \| ^{2}}{2\sigma _{\beta }^{2}} \right )+w_{2}exp\left ( - \frac{\left \| p_{i}-p_{j} \right \|^{2}}{2\sigma _{\gamma }^{2}}\right ). (2)

其中第一个核与像素位置(用p表示)和像素颜色强度(用I表示)有关,第二个核只与像素位置有关。超参数\sigma _{\alpha }\sigma _{\beta }\sigma _{\gamma }控制高斯核的"尺度"。

重要的是该模型能进行有效的近似概率推理。在完全可分解的平均场近似b(x)=\prod_{i}b_{i}(x_{i})下传递更新的消息可以表示为一个高斯核在特征空间卷积。高维滤波算法(Adams et. al,2010)显著地加速了这个计算,促成了一个在实践中快速的算法,用Krahenbuhl和Koltun在2010年公开的实施方法处理Pascal VOC图像平均少于0.5秒。

4.3多尺度预测

参考最近Hariharan和Long等人2014年的杰出成果,我们也探索了一个多尺度的预测方法来增加边界定位精度。我们把输入图片和前4个最大池化层的每一个输出与一个两层的MPL绑定(第一层:128个3x3的卷积滤波器,第二层:128个1x1的卷积滤波器),MPL的特征图和主网络的最后一层特征图连接在一起。输入softmax层的聚合特征图因此被提升到5x128=640通道。我们只调整新加的权重,其它网络参数保持它们在本文第3部分学习的结果。像实验部分讨论的那样,从精分辨率(fine-resolution)层引入这些额外的直接连接提高了定位精度,产生的效果并不如全连接的CRF效果显著。

(DeepLabV1)基于深度卷积网络和全连接条件随机场的语义图像分割_第4张图片 表1:(a)我们的模型在PASCAL VOC 2012验证集(在增广的训练集上训练)上的表现。最好的表现是通过利用多尺度特征和大视野获得的。(b)我们的模型(在增广的训练验证集上训练)的表现与当前主流的方法在PASCAL VOC 2012测试集上的对比。

5.实验评估

你可能感兴趣的:(深度学习)