Fully Convolutional Networks for Semantic Segmentation 翻译

摘要

卷积网络是功能强大的可视化模型,可以产生功能的层次结构。我们展示了卷积网络自身,像素到像素的端对端训练超过了语义分割的最新水平。我们的关键洞察力是建立“完全卷积”网络,可以输入任意大小的数据,并通过有效的推理和学习生成相应大小的输出。我们定义和详细说明完全卷积网络的空间,解释它们在空间密集预测任务中的应用,并且绘制与先前模型的连接。我们将当代分类网络(AlexNet [19],VGG网络[31]和GoogLeNet [32])适应于完全卷积网络,并通过微调[4]将它们的学习表示转移到分割任务。然后,我们设计了一种新颖的架构,它将来自深层粗略层的语义信息与来自浅层精细层的外观信息相结合,以生成准确和详细的分段。我们的完全卷积网络实现了PASCAL VOC(2012年相对于平均IU为20%的相对改进为62.2%),NYUDv2和SIFT Flow的最好的效果,而对一张典型的图像推断的时间不到五分之一秒。

引言

卷积网络正在推动着认知的进步。 Convnets不仅改进了整体图像分类[19,31,32],而且在结构化输出的本地任务方面取得了进展。这些包括边界框对象检测[29,12,17],部分和关键点预测[39,24]以及局部对应[24,9]方面的进展。
从粗到细推演的下一步自然是对每个像素进行预测。先前的方法已经将语义分割用于语义分割[27,2,8,28,16,14,11],其中每个像素用其封闭对象或区域的类标记,但是具有该工作解决的缺点。
Fully Convolutional Networks for Semantic Segmentation 翻译_第1张图片
我们表明,完全卷积网络(FCN),端到端训练,像素到像素的语义分割超过了最新的技术水平,无需进一步加工。据我们所知,这是第一项针对像素预测端对端培训FCNs(1)的工作,以及(2)来自超级预培训的培训。现有网络的完全卷积版本预测来自任意大小输入的密集输出。学习和推理都是通过密集的前馈计算和反向传播一次完成的。网内上采样层使像素预测和学习与子采样池共享网络。
这种方法效率高,渐近和绝对,并且排除了其他作品中复杂性的需要。 间歇训练是常见的[27,2,8,28,11],但缺乏完全卷积训练的效率。 我们的方法不使用前处理和后处理的方法,包括超像素[8,16],提议[16,14],或者通过随机场或局部分类器进行事后细化[8,16]。我们的模型通过将分类网络重新解释为完全卷积并从他们学习的表示中进行微调,将最近的分类成功[19,31,32]转移到密集预测。 相比之下,之前的作品在没有受过监督的预训练的情况下应用了小小的卷积[8,28,27]。
语义分割面临着语义和位置之间固有的关系:全局信息解决了本地信息在何处解析的情况。 深层特征层次结构将本地到全球金字塔中的位置和语义联合编码。 我们定义了一种新颖的“跳过”架构,将4.2节的深度,粗糙,语义信息和浅而精的外观信息(见图3)相结合。在下一节中,我们将回顾有关深度分类网络,FCN和近期使用网格进行语义分割的相关工作。 以下部分解释FCN设计和密集预测折衷,将我们的架构与网内上采样和多层组合相结合,并描述我们的实验框架。 最后,我们在PASCAL VOC 2011-2,NYUDv2和SIFT Flow上展示了最先进的结果。

相关工作

我们的方法利用了深度网络在图像分类[19,31,32]和迁移学习方面取得的最新成果[4,38]。转移首先在各种视觉识别任务[4,38]上展示,然后进行检测,并在混合建议分类器模型中进行实例和语义分割[12,16,14]。我们现在重新设计和调整分类网络,以指导密集的语义分割预测。我们绘制了FCN的空间,并在此框架中放置了历史和近期的先前模型。

完全卷积网络据我们所知,扩展到任意大小输入的想法首先出现在Matan等人[25],它扩展了经典的LeNet [21]以识别数字串。由于他们的网络仅限于一维输入字符串,Matan等人使用维特比解码来获得它们的输出。沃尔夫和普拉特[37]将邮箱地址输出扩展到邮政地址块四角的检测分数的二维地图。这两个历史着作都是为了检测而进行推理和学习的完全卷积。宁等人。 [27]用完全卷积推断定义线虫组织粗糙多细胞分割的转折点。

完全卷积计算在当今许多分层网络的时代也被利用。 Sermanet等人的滑动窗口检测。 [29],Pinheiro和Collobert [28]的语义分割,以及Eigen等人的图像恢复。 [5]做完全卷积推理。 完全卷积训练很少见,但Tompson等人有效地使用。 [35]为了学习端到端的部件检测器和姿态估计的空间模型,虽然他们不解释或分析这种方法。

或者,He等人 [17]丢弃分类网络的非卷积部分来制作特征提取器。 他们将提案和空间金字塔池合并在一起,以产生用于分类的本地化的固定长度特征。 虽然快速有效,但这种混合模式无法从头到尾学习。
使用最近点的密集预测最近的一些工作已经将密码学应用于密集预测问题,其中包括Ning等人的语义分割。 [27],Farabet et al。 [8],Pinheiro和Collobert [28]; Ciresan等人对电子显微镜的边界预测。 [2]和Ganin和Lempitsky的混合神经网络/最近邻模型的自然图像[11]。以及Eigen等人的图像恢复和深度估计。 [5,6]。

这些方法的共同要素包括
•限制容量和接受范围的小模型;
•拼凑式训练[27,2,8,28,11];
•超像素投影后处理,随机场
正则化,过滤或局部分类[8,2,11];
•密集输出的输入移位和输出交错
[28,11]由OverFeat [29]介绍;
•多尺度金字塔处理[8,28,11];
•饱和tanh非线性[8,5,28];和
•合奏[2,11],

而我们的方法没有这个机制。但是,我们从FCN的角度来研究拼凑式训练3.4和“移位 - 拼接”密集输出3.2。我们还讨论了网内上采样3.3,其中Eigen等人完全连接的预测。 [6]是一个特例。

与这些现有的方法不同,我们使用图像分类作为监督预训练来调整和扩展深度分类体系结构,并且完全卷积地微调以从整个图像输入和ground truth中简单而有效地学习。

Hariharan等人[16]和Gupta等人。同样,深度分类网络适用于语义分割,但是在混合建议分类器模型中也是如此。这些方法通过对边界框和/或区域提议进行抽样以检测,语义分割和实例分割来微调R-CNN系统[12]。这两种方法都不是端对端学习的。

他们分别获得了PASCAL VOC分段和NYUDv2分段的最新结果,所以我们直接比较了我们的独立端到端FCN和它们在第5节中的语义分割结果。

3. FCN

convnet中的每一层数据都是尺寸为h×w×d的三维数组,其中h和w是空间维数,d是特征或通道维数。 第一层是图像,像素大小为h×w,d色彩通道。 较高层中的位置对应于它们路径连接的图像中的位置,这些位置称为它们的接受域。
Convnets建立在翻译不变性的基础上。 它们的基本组件(卷积,合并和激活函数)在局部输入区域上运行,并且仅依赖于相对空间坐标。 在特定层中的位置(i,j)处为数据矢量写入xij,并且针对后一层中的yij,这些函数将计算输出yij

这里写图片描述

其中k称为内核大小,s是步长或二次采样因子,fks决定图层类型:用于卷积或平均池的矩阵乘法,用于最大池的空间最大值或激活函数的元素非线性等等 在其他类型的层上。这种功能形式是在组合下维护的,其内核大小和步幅遵守转换规则

这里写图片描述

虽然一般的深网络计算一般的非线性函数,但只有这种形式的层的网络计算非线性滤波器,我们称之为深度滤波器或完全卷积网络。 FCN自然地对任何大小的输入进行操作,并产生相应的(可能重新采样的)空间维度的输出。
一个由FCN组成的实值损失函数定义一个任务。如果损失函数是最终层的空间维数之和,则其梯度将是每个空间分量梯度的总和。因此,在整幅图像上计算的随机梯度下降将与l’上的随机梯度下降相同,将所有最终图层接受场作为小图像。
当这些接受域显着重叠时,当在整个图像上逐层计算而不是独立地逐个补丁时,前馈计算和反向传播都会更加高效。
接下来我们将解释如何将分类网转换为生成粗略输出图的完全卷积网。对于像素级预测,我们需要将这些粗略输出连接回像素。第3.2节描述了OverFeat [29]为此目的而引入的一个技巧。通过将其重新解释为等效网络修改,我们可以深入了解这一技巧。作为一种有效的替代方法,我们在3.3节介绍了用于上采样的去卷积层。在第3.4节中,我们考虑采用拼凑抽样进行训练,并在第4.3节中给出了我们整个图像训练速度更快,效果同样有效的证据。

3.1 适应分类器进行密集预测

典型的识别网络,包括LeNet [21],AlexNet [19]及其更深的继承者[31,32],表面上采用固定大小的输入并产生非空间输出。 这些网完全连接的层具有固定的尺寸并丢弃空间坐标。 然而,这些完全连接的层也可以被视为与覆盖整个输入区域的核心的卷积。 这样做将它们转换为完全卷积网络,可以输入任意大小和输出分类图。 这种转变如图2所示。(相反,非卷积网络,比如Le et al。[20]的那种网络,缺乏这种能力。)

Fully Convolutional Networks for Semantic Segmentation 翻译_第2张图片

此外,虽然得到的地图相当于对特定输入地块的原始网络的评估,但是这些地块的重叠区域的计算量高度分摊。例如,尽管AlexNet需要1.2 ms(在典型的GPU上)产生227×227图像的分类得分,但完全卷积版本需要22 ms来从500×500图像产生10×10个输出网格,比原来的方法快5倍以上。

这些卷积模型的空间输出映射使它们成为像语义分割这样的密集问题的自然选择。通过在每个输出单元处提供ground truth,前向和后向通道都非常简单,并且都利用了卷积的固有计算效率(和积极的优化)。

AlexNet示例的相应后向时间为单个图像为2.4 ms,完全卷积10×10输出图为37 ms,导致类似于正向通道的加速。这种密集的后向传播如图1所示。

尽管我们将分类网络重新解释为完全卷积产生任意大小输入的输出映射,但输出维度通常通过子采样来减少。分类网子样本以保持滤波器的小型化和计算要求的合理性。这会粗化这些网络的完全卷积版本的输出,将其从输入大小减少一个等于输出单元的接受域的像素跨度的因子。

3.2. 移位和针迹是过滤稀疏

输入移位和输出隔行扫描是一种技巧,可通过OverFeat [29]引入的无插值粗输出产生密集预测。

如果输出采样的因子为f,则输入向左(右侧和顶部填充)移动x个像素,向下移动y个像素,每个值为(x,y)∈{0,…, f - 1}×{0,…,f - 1}。这些f2输入每个都通过convnet运行,并且输出交错,以便预测对应于其感受域中心的像素。

只改变一个回旋点的过滤器和层跨度可以产生与这种移位和针迹技巧相同的输出。考虑具有输入步长s的图层(卷积或合并),以及具有滤波器权重fij的后续卷积图层(省略特征尺寸,此处不相关)。

将下层的输入步幅设置为1,将其输出上采样为s,就像移位和针迹一样。但是,将原始滤波器与上采样输出进行卷积并不会产生与技巧相同的结果,因为原始滤波器只能看到其(现在上采样)输入的缩减部分。为了重现这个技巧,通过放大过滤器来稀释过滤器

Fully Convolutional Networks for Semantic Segmentation 翻译_第3张图片

以i和j为零)。 重现该技巧的全部净输出包括逐层重复该滤波器放大直到所有子采样被移除。
简单地减少网内的子采样是一种折衷:滤波器可以看到更精细的信息,但接收域更小,计算时间更长。 我们已经看到移位和拼接技巧是另一种折衷:在不减小滤波器的接收区域大小的情况下,输出变得更加密集,但禁止滤波器以比其原始设计更精细的尺度访问信息。
尽管我们已经进行了移位和针迹的初步实验,但我们并没有在模型中使用它。 如下一节所述,我们发现通过上采样进行学习会更加有效和高效,尤其是在与稍后介绍的跳层融合相结合时。

你可能感兴趣的:(图像分割(image,segmentation))