作者:Jonathan Long,Evan Shelhamer,Trevor Darrell
卷积网络是在产生特征分层结构方面强有力的视觉模型。我们的实验证明卷积网络本身经过端到端、像素到像素地训练,在语义分割方面超过了最新技术。我们的核心观点是建立“完全卷积”的网络,该网络可以接受任意大小的输入,并通过有效的推理和学习产生相应大小的输出。我们定义并详细说明了全积网络的空间,解释了它们在空间密集预测任务中的应用,并给出了与之前的其他模型的联系。我们把当前的分类网络(AlexNet [19],VGG net [31]和GoogLeNet [32])转变为完全卷积网络,并通过微调[4]将其学习的表示转换为分割任务。然后,我们定义了一种新颖的体系结构,该体系结构将深层,粗糙层的语义信息与浅层,精细层的外观信息相结合,以生成准确而详细的分割。我们的全卷积网络实现了PASCAL VOC(相对于2012年平均IU改善了20%,达到62.2%的平均IU),NYUDv2和SIFT Flow的最先进分割,而对于典型图像而言,推理所需时间不到0.2秒。
卷积网络正在推动认知领域的发展。卷积网络不仅可以改善整个图像分类[19,31,32],而且在具有结构化输出的局部任务方面也取得了进展。这些包括边框对象检测[29、12、17],部分和关键点预测[39、24]以及局部通信[24、9]。
从粗略推断到精细推断的下一步自然是对每个像素进行预测。之前的方法已使用卷积网络进行语义分割[27、2、8、28、16、14、11],其中每个像素都用其封闭对象或区域的类别标记,但这种方法有其不足之处。
我们证明,完全卷积网络(FCN),通过端到端,像素到像素的语义分割训练,在没有进一步调整机制的情况下超过了现有技术。据我们所知,这是首个对FCNs进行端到端(1)像素预测训练和(2)监督预训练的工作。现有的完全卷积网络可预测任意大小的密集输入。学习和推理都是同时对整张图像进行密集前馈计算和反向传播来完成的。网络内的上采样层可以能够逐像素预测和使网络的下采样层进行学习。
这种方法在渐近性和绝对性上都是有效的,并且没有其他工作中的复杂性。patchwise训练是常见的[27、2、8、28、11],但是缺乏完全卷积训练的效率。我们的方法不使用复杂的预处理和后期处理,包括超像素[8,16],建议框[16,14]或者通过随机字段或局部分类器进行事后细化[8,16] 。我们的模型通过将分类网络重新解释为完全卷积并根据其学习的表示进行微调,从而将在分类方面的最新成果[19,31,32]转移到密集预测。相比之下,之前的工作在无监督预训练的情况下应用了小型卷积网络[8,28,27]。
语义分割面临着语义和位置的内在张力:全局信息解决了什么,而局部信息解决什么地方。深层特征层次结构在局部-全局金字塔中联合编码位置和语义。我们在第4.2节中定义了一种新颖的“跳跃(Skip)”架构,以结合深度,粗略,语义信息和浅,精细,外观信息(参见图3)。
在下一部分中,我们将回顾有关深层分类网络,FCN和使用卷积网络进行语义分段的最新方法的相关工作。下一节解释了FCN设计和密集预测的权衡,介绍了网络内上采样和多层组合架构,并描述了我们的实验框架。最后,我们展示了PASCAL VOC 2011-2,NYUDv2和SIFT Flow的最新结果。
我们的方法借鉴了深层网络在图像分类[19,31,32]和迁移学习[4,38]方面的最新成功。迁移首先在各种视觉识别任务中得到证明[4,38],接着是检测,然后在混合proposal-classifier模型[12,16,14]中的实例和语义分割中得到了验证。现在,我们重新架构和微调分类网,以进行语义分割的直接,密集的预测。我们在此框架中绘制了FCN的空间图并建立了历史模型和最新模型的联系。
全卷积网络 据我们所知,将卷积网络扩展为任意大小的输入的想法首先由Matanet等人[25]提出,该模型扩展了经典的LeNet [21]以识别数字字符串。由于它们的网络仅限于一维输入字符串,因此Matan等人使用Viterbi解码来获得其输出。Wolf和Platt [37]将卷积网络输出扩展到邮政地址块四个角的检测分数的二维图。这两种网络都可以推理和学习用于检测的全卷积网络。Ning等人[27]定义一个卷积网络,用完全卷积推理对秀丽隐杆线虫进行粗糙多类分割。
在当今多层网络时代,全卷积计算得到了广泛的应用。Sermanet等人[29]进行滑动窗口检测,Pinheiro和Collobert [28]进行语义分割,Eigen等人[5]进行图像恢复时都进行了完全卷积推理。完全卷积训练是很少见的,但是被汤普森等人[35]有效地使用它来进行学习端到端的部分检测器和用以进行姿势估计的空间模型,尽管他们并未展示和分析此方法。
其次,He等人[17]丢弃分类网络的非卷积部分,制作了特征提取器。他们将proposals and spatial 金字塔合并在一起,以产生用于分类的局部固定长度特征。尽管这种混合模型快速有效,但无法端对端学习。
卷积网络的密集预测 最近有几项研究将卷积网络应用于密集的预测问题,包括Ning等人[27],Farabet等人[8],以及Pinheiro和Collobert [28]的语义分割、Ciresan等人[2]对电子显微镜的边界预测、Ganin和Lempitsky的针对自然图像的混合神经网络/最近邻模型[11]、Eigen等人[5,6]的图像恢复与深度估计[5,6]。这些方法的共同要素包括
而我们的方法没有这种要素。但是,我们确实从FCN的角度研究了patchwise训练(3.4节中)和“shift-and-stitch”的密集输出(3.2节中)。我们还讨论了网络内上采样(3.3节中),其中Eigen等人[6]的全连接预测是一个特例。
与这些现有的方法不同的是,我们采用并扩展了深度分类架构,使用图像分类作为监督预训练,并微调全卷积网络,从整个图像输入和图像标注来简单而有效地学习。
Hariharan等人的[16]和Gupta等人的[14]也采用深度分类网络进行语义分割,但是用在混合proposal-classifier模型中。这些方法通过采样边界框和/或 region proposals来微调R-CNN系统[12]以进行检测,语义分割和实例分割。这两种方法都不是端到端学习的。
他们分别在PASCAL VOC分割和NYUDv2分割上获得了最好的结果,我们在第5节中直接将我们独立的端到端FCN与它们的语义分割结果进行比较。
卷积网络中的每一层数据都是一个尺寸为h×w×d的三维数组,其中h和w是空间维度,d是特征或通道的维度。第一层是图像,像素大小为h×w,颜色通道为d。较高层中的位置对应于它们在路径上连接到的图像中的位置,这些位置称为它们的感受野。
卷积网络建立在平移不变性上。它们的基本组成部分(卷积,池化和激活功能)在局部输入区域上运行,并且仅取决于相对空间坐标。记 x i j x_{ij} xij为特定层中坐标 ( i , j ) (i,j) (i,j)处的数据向量, y i j y_{ij} yij为下一层对应向量,二者关系为
y i j = f k s ( { x s i + δ i , s j + δ j } 0 ≤ δ i , δ j ≤ k ) y_{ij}=f_{ks}(\{x_{si+\delta i,sj+\delta j}\}_{0≤\delta i,\delta j≤k}) yij=fks({xsi+δi,sj+δj}0≤δi,δj≤k)
译者注: δ i , δ j 为 一 个 整 体 , { } 代 表 矩 阵 \delta i,\delta j 为一个整体,\{\}代表矩阵 δi,δj为一个整体,{}代表矩阵
其中 k k k为卷积核尺寸, s s s为步长或采样因子, f k s f_{ks} fks决定了该层的类型:卷积或平均池化的矩阵乘法、最大池化的空间最大值函数、激活函数的非线性元素或其他。
复合后函数形式保持不变,转换规则如下:
f k s ∘ g k ′ s ′ = ( f ∘ g ) k ′ + ( k − 1 ) s ′ , s s ′ f_{ks}\circ g_{k's'}=(f\circ g)_{k'+(k-1)s',ss'} fks∘gk′s′=(f∘g)k′+(k−1)s′,ss′
译者注:这个公式证明需要一定数学基础,可以略去不看,有兴趣和能力可以推一推,不严谨的证明是很容易得到的。其中 ∘ \circ ∘为矩阵的哈达玛积,可以简单理解为向量的点乘的扩展
而一般的深度网络计算一般的非线性函数,只有这种形式的层组成的网络才会计算非线性滤波器,我们称之为深度滤波器或全卷积网络。FCN可以在任何大小的输入上自然地运行,并产生对应的(可能是重新采样的)空间维度的输出。
由FCN组成的实值损失函数定义任务。如果损失函数是最后一层的空间维度上的损失之和,即 l ( x ; θ ) = ∑ i j l ′ ( x i j ; θ ) l(x;\theta)=\sum_{ij}l'(x_{ij};\theta) l(x;θ)=∑ijl′(xij;θ),它的梯度将是每个空间维度的梯度之和。因此,整个图像上由 l l l计算的随机梯度下降和在整个图像上由 l ′ l' l′就散的随机梯度下降相同,将最后一层的所有感受野作为一个小批量(mini-batch)。
当这些感受野明显重叠时,前馈计算和反向传播在整个图像上逐层计算比单独逐块计算要块得多。
接下来,我们将说明如何将分类网络转换为可生成粗糙输出图的完全卷积网络。对于逐像素预测,我们需要将这些粗略输出连接回像素。3.2节描述了OverFeat [29]为此目的引入的一个技巧。我们深入了解此技巧通过将其重新解释为等效的网络修改。作为一种有效的替代方法,我们将在第3.3节中介绍用于上采样的反卷积层。在3.4节中,我们考虑通过逐块(patchwise)采样进行训练,并在4.3节中给出证据,证明我们的整个图像训练更快且同样有效。
典型的识别网络,包括LeNet [21],AlexNet [19]及其更深的后继者[31、32],表面上采用固定大小的输入并产生非空间输出。这些网络的全连接层具有固定的维度并丢弃空间坐标。但是,这些完全连接层也可以看作是覆盖整个输入区域的内核卷积。这样做会将其映射到完全卷积的网络中,该网络可以接受任何大小的输入并输出分类图。图二了展示这种转换(相比之下,非卷积网络(例如Le等人的文献[20])缺乏这种能力。)。
此外,虽然所得到的映射相当于原始网络对特定输入patch的求值,但计算的结果在这些patch的重叠区域上是高度平摊的。例如,虽然AlexNet用1.2毫秒(在典型的GPU上)生成227×227图像的分类分数,全卷积网络需要22毫秒才能从500×500图像生成10×10网格的输出,这比naive方法快5倍以上。
这些卷积模型的空间输出图使它们成为诸如语义分割之类的密集问题的自然选择。每个输出单元都有可用的ground-truth标签,前向传播和反向传播是直接了当的,都利用了卷积固有的计算效率。
AlexNet示例的相应反向传播时间对于单个图像为2.4毫秒,对于完全卷积的10×10输出映射为37毫秒,这导致了与前向传递类似的加速。这种密集的反向传播如图1所示。
虽然我们将分类网重新解释为全卷积,可以得到任何大小的输入的输出图,但通常通过下采样来减小输出尺寸。分类网络通过下采样保持过滤器小和计算要求合理。这使这些网络的全卷积版本的输出变得粗糙,将其输入的大小减少一个因子(译者注:因子指乘除因子),该因子等于输出单元的感受野的像素步长。
输入移位和输出交错是一种不需要插值就能从粗糙输出中得到密集预测的技巧,这是由overfeat[29]引入的。设输出与输入的降采样因子为 f f f(译者注:卷积核步长),输入(左上角填充)在向右方向平移 x x x个像素,向下方向平移 y 个 像 素 y个像素 y个像素,对于任意的 ( x , y ) ∈ { 0 , ⋯ , f − 1 } × { 0 , ⋯ , f − 1 } (x,y)\in \{0,\cdots,f-1\}×\{0,\cdots,f-1\} (x,y)∈{0,⋯,f−1}×{0,⋯,f−1},这些 f 2 f^2 f2个输入各自通过卷积网络产生 f 2 f^2 f2的输出,并且输出是隔行扫描的,因此预测对应于其感受野中心的像素。
只改变一个卷积神经网络的过滤器和步长就可以产生与这种shift-and-stitch方法相同的输出。考虑一个步长为 s s s的层(卷积或池化),和下一个具有过滤器权重 f i j f_{ij} fij的卷积层(省略了特征尺寸,在此不相关)。将较低层的输入步幅设置为1,以s的因子对输出进行上采样,就像shift-and-stitch那样。但是,将原始滤波器与上采样输出进行卷积不会产生与技巧相同的结果,因为原始滤波器只会看到其(现在是上采样)输入的减少部分。要复制该技巧,将过滤器放大为(i和j从零开始)
f i j ′ = { f i / s , j / s i f s d i v i d e s b o t h i a n d j 0 o t h e r w i s e f'_{ij}=\begin{cases} f_{i/s,j/s}~~~~~~~~if~ s ~divides ~both ~i~ and ~j \\0 ~~~~~~~~~~~~~~~~~otherwise \end{cases} fij′={fi/s,j/s if s divides both i and j0 otherwise
再现该技巧的输出需要逐层重复滤波器放大,直到移除所有子采样为止。
简单地减少网络内的下采样是一个折衷:过滤器会看到更精细的信息,但接收场较小,计算所需的时间更长。我们已经看到,shift-and-stitch是另一种折衷方法:在不减小滤波器的感受野大小的情况下,使输出更密集,但过滤器无法获得比原始设计更精细的信息。
虽然我们已经通过shift-and-stitch做了初步实验,但我们的模型不使用它。我们发现通过上采样进行学习(如下一节所述)更加有效,尤其是与稍后介绍的跳跃(skip)层融合结合使用时。
将粗略输出连接到密集像素的另一种方法是插值。例如,简单的双线性插值通过仅依赖于输入和输出单元的相对位置的线性映射,从最近的四个输入中计算每个输出 y i j y_ij yij。
从某种意义上说, f f f因子的上采样就是步长为 1 f \frac{1}{f} f1的卷积。只要 f f f是整数,向上采样的自然方法就是输出步长为 f f f的向后卷积(有时称为反卷积)。这样的操作很容易实现,因为它只是简单地反转了卷积的前进和后退。因此,通过从像素级损失的反向传播,在网络中执行上采样以进行端到端学习。
注意,在这样的层中的反卷积滤波器不必是固定的(例如,为双线性上采样),但可以学习。一堆反卷积层和激活函数甚至可以学习非线性上采样。
在我们的实验中,我们发现网络内上采样对于学习密集预测是快速有效的。我们最好的分割架构使用这些层来学习上采样,以进行第4.2节中的精确预测。
在随机优化中,梯度分布由训练分布驱动。patchwise 训练和全卷积训练都能被用来产生任意分布,尽管他们相对的计算效率依赖于重叠域和minibatch的大小。当每批包含图像(或图像集合)损失下面单元的所有感受野时,整图训练和patchwise训练相等。当这种方式比patches的均匀取样更加高效的同时,它减少了可能的批次数量。然而在一张图片中随机选择patches可能更容易被恢复。将损失限制为其空间项的随机采样子集(或等效地在输出和损失之间应用DropConnect掩码[36])从梯度计算中排除了patches。
如果保留的patches仍具有明显的重叠,则全卷积计算仍将加快训练速度。如果梯度是在多个反向传播上累积的,则batches可能包含来自多个图像的patches。
逐块训练中的采样可以纠正类不平衡[27、8、2],并减轻密集斑块的空间相关性[28、16]。在完全卷积训练中,也可以通过对损失进行加权来实现类平衡,并且可以使用损失采样来解决空间相关性。
我们在第4.3节中探讨了采用采样的训练,但没有发现对于密集的预测它会产生更快或更佳的收敛。整体图像训练是有效而高效的。
我们将ILSVRC分类器转换为FCN,并使用网络内上采样和逐像素损失对它们进行增强以进行密集预测。我们通过微调训练分割。接下来,我们构建了一个新颖的跳跃架构,该架构结合了粗略,语义和本地外观信息来重新优化预测。
在这次实验中,我们训练并验证了PAS-CAL VOC 2011分割挑战[7]。我们使用逐像素多项式逻辑损失进行训练,并使用平均像素交并化的标准度量进行验证,包括背景在内的所有类的平均值。训练会忽略在真实情况下被掩盖(模糊或困难)的像素。
首先,如第3节所述,对经过验证的分类架构进行卷积化。我们考虑赢得ILSVRC12的AlexNet架构[19]以及在ILSVRC14中表现出色的VGGnets [31]和GoogLeNet [32]。我们选择VGG-16,我们发现它在这项任务上与VGG-19相当。对于GoogLeNet,我们仅使用最终的损失层,并通过丢弃最终的平均池化层来提高性能。我们通过丢弃最后的分类器层以失活每个网络,并将所有完全连接的层转换为卷积层。我们在每个粗糙输出位置附加一个通道维数21的1×1卷积,以预测每个PASCAL类(包括背景)的得分,然后通过反卷积层将粗糙输出向上采样到像素密度输出,如3.3节所述。表1比较了每个网络的初步验证结果和基本特征。我们报告了以固定的学习速率(至少175个epoch)收敛后获得的最佳结果。
从分类到分割的微调为每个网络提供了合理的预测。即使是最差的模型,也可以达到约75%的最优性能。用于分割的VGG网络(FCN-VGG16)在验证集上已经达到了56.0的平均IU,而在测试集上是52.6。在验证集的一个子集上,对额外数据的训练可以将IU性能提高到平均59.4 。训练细节在第4.3节中给出。
尽管分类精度相似,但我们的GoogLeNet实现与该分割结果不匹配。
我们定义了一种新的全卷积分割网络(FCN),该网络结合了特征层次结构的各个层并改善了输出的空间精度。参见图3。
尽管可以将完全卷积的分类器微调至细分(如4.1所示),甚至在标准指标上得分很高,但它们的输出却不令人满意(参见图4)。
最终预测层的32像素步长限制了上采样输出中的细节比例。
我们通过将最终预测层与较低层和更细的步长结合起来来解决此问题。这将线拓扑变成DAG,其边缘从较低的层向前跳到较高的层(图3)。当他们看到更少的像素时,更精细的比例预测应该需要更少的层,因此从较浅的网络输出中进行选择是有意义的。将精细层和粗糙层结合起来,可以使模型做出反映整体结构的局部预测。与Florack等人的多尺度局域射流[10]相似,我们称我们的非线性局域特征层次为deep jet。
我们首先通过预测一个16像素的步幅层来将输出步长减半。我们在pool4上添加了一个1×1卷积层来产生额外的类预测。我们将这个输出与conv7进行2×上采样得到的预测融合在一起并将预测相加
我们初始化2×上采样到双线性插值,但是参照像3.3节中描述的那样学习参数。最后,将步幅16的预测上采样回图像。我们称此为FCN-16s。通过端到端学习FCN-16s,并使用最后一个更粗糙的网络(现在称为FCN-32)的参数进行初始化。作用于pool4的新参数被零初始化,因此网络以未修改的预测开始,学习率降低了100倍。
学习此跳跃网络可将验证集的性能提高3.0个平均IU至62.4。图4显示了精细结构输出的改进。
我们将这种融合与仅从pool4层进行学习(导致较差的性能)进行了比较,并简单地降低了学习率而未添加额外的链接(这导致了不显著的性能改进,但没有提高输出的质量)。
我们以这种方式继续进行工作,将来自pool3进行的预测与来自前述融合的预测再进行2×上采样的预测融合在一起,构建FCN-8s。
我们将平均IU值略微提高到了了62.7 IU,并发现输出的平滑度和细节有所改善。在这一点上,我们的融合改进遇到了收益递减的问题,无论是在强调大规模正确性的IU度量方面,还是在图4中可见的改进方面,因此我们不会继续融合更低的层。
通过其他方法细化 ~ 减小池化层的步幅是获得更精细预测的最直接方法。但是,对于基于VGG16的网络,这样做是有问题的。将pool5层设置为步长为1时,需要我们将卷积化的fc6的卷积核大小改为14×14,以保持其感受野大小不变。除了它们的计算成本外,我们还很难学习这么大的滤波器。我们尝试使用较小的过滤器重新构造pool5之上的层,但未能成功实现相当的性能。一种可能的解释是对于较上层,来自训练好的imagenet的训练权重的初始化很重要。
获得更好的预测的另一种方法是使用3.2节中描述的shift-and-switch技巧。在有限的实验中,我们发现这种方法的改进成本比层融合更高。
优化 ~ 我们使用带动量的随机小批量梯度下降法进行训练。,对FCN-AlexNet、FCN-VGG16和FCN-GoogLeNet分别使用20张图像的小批量和 1 0 − 3 、 1 0 − 4 、 5 − 5 10^{-3}、10^{-4}、5^{-5} 10−3、10−4、5−5的固定学习率,通过行搜索选择。我们将动量设置为0.9,权重衰减为 5 − 4 5^{-4} 5−4或 2 − 4 2^{-4} 2−4,并使偏置的学习率倍增,尽管我们发现学习对这些参数不敏感(但对学习率敏感)。我们对分类评分卷积层进行零初始化,发现随机初始化既不会产生更好的性能,也不会带来更快的收敛。原始分类器网络中使用了Dropout技术。
微调 ~ 我们通过整个网络的反向传播对所有层进行微调。在表2中可以看到,仅微调分类器的表现只有微调全部层性能的70%。
考虑到学习基本分类网所需的时间,从头开始训练是不可行的。(请注意,VGG网络是分阶段训练的,而我们是从完整的16层版本初始化的。)对于粗略的FCN-32s版本,在单个GPU上进行微调需要三天,而对于FCN-16s和FCN-8s版本,每个微调大约需要一天。
块采样 ~ 如3.4节所述,我们的全图像训练有效地将每个图像批量处理成一个规则的网格,其中包含大量重叠的patch。相比之下,之前的工作在整个数据集上随机块采样[27、2、8、28、11],可能会导致更高的方差批次,从而可能加速收敛[22]。我们通过按前面描述的方式对损失进行空间采样来进行权衡,独立地选择忽略每一个最终的层单元,概率为 1 − p 1-p 1−p。为避免更改有效的批次大小,我们同时将每批次的图像数量增加到 1 / p 1 / p 1/p倍。注意到,由于卷积的效率高,对于足够大的p值(例如,根据3.1节中的数字,p至少> 0.2),拒绝采样这种形式仍然比patchwise训练更快。图5显示了这种形式的抽样对收敛的影响。
我们发现,与全图像训练相比,采样对收敛速度没有显着影响,但是由于每批需要考虑的图像数量更多,因此花费的时间明显更多。因此,我们在其他实验中选择未采样的整体图像训练。
类平衡 ~ 完全卷积训练可以通过对损失进行加权或采样来平衡类。我们发现类平衡是不必要的,尽管我们的标签略有不平衡(大约3/4是背景)。
密集预测 ~ 分数通过网络中的反卷积层上采样到输入维度。最终层反卷积滤波器固定为双线性插值,而中间上采样层则初始化为双线性上采样,然后学习。不使用Shift-and-stitch(第3.2节)或过滤器稀疏等效。
数据增强 ~ 我们尝试通过随机镜像和“抖动”图像来增强训练数据,方法是将图像在每个方向上转换为最多32个像素(最粗的预测比例)。这没有产生明显的改善。
更多的训练数据 ~ PASCAL VOC 2011分割挑战训练集(表1),标注了1112张图片。Hariharan等人的[15]已经收集了一组更大的8498张带标签的PASCAL训练图像,用来训练以前的最先进的系统,SDS[16]。该训练数据将FCN-VGG16验证评分提高了3.4点,至59.4平均IU。
实现 ~ 所有模型都在单个NVIDIA Tesla K40c上使用Caffe [18]进行了训练和测试。该模型和代码将开源。
我们测试了FCN的语义分割和场景解析,并探索了PASCAL VOC,NYUDv2和SIFTFlow。尽管这些任务在历史上已经在对象和区域之间进行了区分,但我们将两者均视为像素预测。我们在每个数据集上评估我们的FCN跳跃架构,然后将其扩展到NYUDv2的多模式输入,以及SIFT Flow的语义和几何标签的多任务预测。
指标 ~ 我们从常见的语义分割和场景解析评估中报告了四个指标,这些指标描述了像素精度和union(IU)上的区域交集的变化。令 n i j n_{ij} nij表示类 i i i中预测属于类 j j j的 像素数量,其中有 n c l n_{cl} ncl种不同的类,令 t i = ∑ j n i j t_i=\sum_{j}n_{ij} ti=∑jnij表示类 i i i的全部像素数量。我们计算:
SIFT Flow是2688个图像的数据集,带有33个语义类别(“桥”,“山”,“太阳”)以及三个几何类别(“水平”,“垂直”和“天空”)的像素标签。FCN可以自然地学习可以同时预测两种标签类型的联合表示。我们学习了具有语义和几何预测层以及损失的FCN-16的两头版本。与两个独立训练的模型一样,学习模型在这两个任务上的表现都很好,而学习和推理在本质上与每个独立模型一样快。表5中的结果按标准分为2488个训练图像和200张测试图像进行计算,显示了这两项任务的最新性能。
完全卷积网络是一类丰富的模块,现代分类卷积是其中的一个特例。认识到这一点,将这些分类网扩展到分段,并通过多分辨率图层组合改进架构,可以极大地改善最新技术,同时简化并加快学习和推理速度。
鸣谢 ~ 这项工作得到了DARPA的MSEE,SMISC计划,NSF,IIS-1427425,IIS-1212798,IIS-1116411以及NSF GRFP,丰田和伯克利视觉与学习中心的支持,衷心感谢NVIDIA捐赠GPU。感谢Bharath Hariharan和Saurabh Gupta的建议和数据集工具。感谢Sergio Guadarrama在Caffe中复制GoogLeNet。我们感谢Jitendra Malik的有益评论。感谢Liu Wei指出了我们的SIFT流平均IU计算问题以及频率加权平均IU公式中的错误。
在本文中,即使使用粗略的语义预测,我们在平均IU分割指标上也取得了良好的性能。为了更好地理解该指标及其方法的局限性,我们计算了性能的近似上限,并在各种规模下进行了预测。为此,我们对真实标记图像进行下采样,然后再次对其进行上采样,以模拟使用特定下采样因子可获得的最佳结果。下表列出了各种下采样因子下PASCAL2011 验证集子集的平均IU。
因子(factor) | 平均IU |
---|---|
128 | 50.9 |
64 | 73.3 |
32 | 86.1 |
16 | 92.8 |
8 | 96.4 |
4 | 98.5 |
像素完美预测显然不需要达到远高于最新水平的平均IU,相反,平均IU并不是衡量精确度的好方法。
我们进一步评估FCN的语义分割。
PASCAL-Context[26]提供了PASCAL VOC 2010的整个场景注释。虽然有400多个不同的类,但我们遵循[26]定义的59个类任务,该任务选择最频繁的类。我们分别训练和评估训练集和验证集。在表6中,我们将卷积特征掩码[3]的联合对象+填充变量进行比较,这是该任务的最新技术。
FCN-8s的平均IU得分为35.1,相对改善了11%。
本文的arXiv版本保持最新状态,并包含更正和其他相关材料。以下是变更的简要历史。
v2 ~ 添加附录A,给出带有PANSCAL上下文结果的平均值IU和附录B的上限。纠正PAS-CAL验证编号(之前在训练中包含一些验证图像),SIFT Flow平均IU(使用了不合适的严格度量)以及频率加权平均IU公式中的错误。在模型上添加链接并更新时间编号以反映改进的实现(已公开)。
[1] J. Carreira, R. Caseiro, J. Batista, and C. Sminchisescu. Se-mantic segmentation with second-order pooling. InECCV,2012.
[2] D. C. Ciresan, A. Giusti, L. M. Gambardella, and J. Schmid-huber. Deep neural networks segment neuronal membranesin electron microscopy images. InNIPS, pages 2852–2860,2012.
[3] J. Dai, K. He, and J. Sun. Convolutional feature mask-ing for joint object and stuff segmentation.arXiv preprintarXiv:1412.1283, 2014.
[4] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang,E. Tzeng, and T. Darrell. DeCAF: A deep convolutional acti-vation feature for generic visual recognition. InICML, 2014.
[5] D. Eigen, D. Krishnan, and R. Fergus. Restoring an imagetaken through a window covered with dirt or rain. InCom-puter Vision (ICCV), 2013 IEEE International Conferenceon, pages 633–640. IEEE, 2013.
[6] D. Eigen, C. Puhrsch, and R. Fergus. Depth map predictionfrom a single image using a multi-scale deep network.arXivpreprint arXiv:1406.2283, 2014.
[7] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn,and A. Zisserman.The PASCAL Visual Object Classes
Challenge 2011 (VOC2011) Results.http://www.pascal-network.org/challenges/VOC/voc2011/workshop/index.html.
[8] C. Farabet, C. Couprie, L. Najman, and Y. LeCun. Learninghierarchical features for scene labeling.Pattern Analysis andMachine Intelligence, IEEE Transactions on, 2013.
[9] P. Fischer, A. Dosovitskiy, and T. Brox. Descriptor matchingwith convolutional neural networks: a comparison to SIFT.CoRR, abs/1405.5769, 2014.
[10] L. Florack, B. T. H. Romeny, M. Viergever, and J. Koen-derink. The gaussian scale-space paradigm and the multi-scale local jet.International Journal of Computer Vision,18(1):61–75, 1996.
[11] Y. Ganin and V. Lempitsky. N4-fields: Neural network near-est neighbor fields for image transforms. InACCV, 2014.
[12] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich fea-ture hierarchies for accurate object detection and semanticsegmentation. InComputer Vision and Pattern Recognition,2014.
[13] S. Gupta, P. Arbelaez, and J. Malik. Perceptual organizationand recognition of indoor scenes from RGB-D images. InCVPR, 2013
[14] S. Gupta, R. Girshick, P. Arbelaez, and J. Malik. Learningrich features from RGB-D images for object detection andsegmentation. InECCV. Springer, 2014
[15] B. Hariharan, P. Arbelaez, L. Bourdev, S. Maji, and J. Malik.Semantic contours from inverse detectors. InInternationalConference on Computer Vision (ICCV), 2011.
[16] B. Hariharan, P. Arbel ́aez, R. Girshick, and J. Malik. Simul-taneous detection and segmentation. InEuropean Confer-ence on Computer Vision (ECCV), 2014.
[17] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid poolingin deep convolutional networks for visual recognition. InECCV, 2014.
[18] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Gir-shick, S. Guadarrama, and T. Darrell.Caffe: Convolu-tional architecture for fast feature embedding.arXiv preprintarXiv:1408.5093, 2014.
[19] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenetclassification with deep convolutional neural networks. InNIPS, 2012.
[20] Q. V. Le, R. Monga, M. Devin, K. Chen, G. S. Corrado,J. Dean, and A. Y. Ng. Building high-level features usinglarge scale unsupervised learning. InICML, 2012
[21] Y. LeCun, B. Boser, J. Denker, D. Henderson, R. E. Howard,W. Hubbard, and L. D. Jackel. Backpropagation applied tohand-written zip code recognition. InNeural Computation,1989
[22] Y. A. LeCun, L. Bottou, G. B. Orr, and K.-R. M ̈uller. Ef-ficient backprop. InNeural networks: Tricks of the trade,pages 9–48. Springer, 1998.
[23] C. Liu, J. Yuen, and A. Torralba. Sift flow: Dense correspon-dence across scenes and its applications.Pattern Analysisand Machine Intelligence, IEEE Transactions on, 33(5):978–994, 2011.
[24] J. Long, N. Zhang, and T. Darrell. Do convnets learn corre-spondence? InNIPS, 2014
[25] O. Matan, C. J. Burges, Y. LeCun, and J. S. Denker. Multi-digit recognition using a space displacement neural network.InNIPS, pages 488–495. Citeseer, 1991.
[26] R. Mottaghi, X. Chen, X. Liu, N.-G. Cho, S.-W. Lee, S. Fi-dler, R. Urtasun, and A. Yuille. The role of context for objectdetection and semantic segmentation in the wild. InCom-puter Vision and Pattern Recognition (CVPR), 2014 IEEEConference on, pages 891–898. IEEE, 2014.
[27] F. Ning, D. Delhomme, Y. LeCun, F. Piano, L. Bottou, andP. E. Barbano. Toward automatic phenotyping of developingembryos from videos.Image Processing, IEEE Transactionson, 14(9):1360–1371, 2005.
[28] P. H. Pinheiro and R. Collobert. Recurrent convolutionalneural networks for scene labeling. InICML, 2014.
[29] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus,and Y. LeCun. Overfeat: Integrated recognition, localizationand detection using convolutional networks. InICLR, 2014.
[30] N. Silberman, D. Hoiem, P. Kohli, and R. Fergus. Indoorsegmentation and support inference from rgbd images. InECCV, 2012.
[31] K. Simonyan and A. Zisserman.Very deep convolu-tional networks for large-scale image recognition.CoRR,abs/1409.1556, 2014.
[32] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed,D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich.Going deeper with convolutions.CoRR, abs/1409.4842,2014.
[33] J. Tighe and S. Lazebnik. Superparsing: scalable nonpara-metric image parsing with superpixels. InECCV, pages 352–365. Springer, 2010
[34] J. Tighe and S. Lazebnik. Finding things: Image parsing withregions and per-exemplar detectors. InCVPR, 2013.
[35] J. Tompson, A. Jain, Y. LeCun, and C. Bregler. Joint trainingof a convolutional network and a graphical model for humanpose estimation.CoRR, abs/1406.2984, 2014.
[36] L. Wan, M. Zeiler, S. Zhang, Y. L. Cun, and R. Fergus. Reg-ularization of neural networks using dropconnect. InPro-ceedings of the 30th International Conference on MachineLearning (ICML-13), pages 1058–1066, 2013.
[37] R. Wolf and J. C. Platt. Postal address block location usinga convolutional locator network.Advances in Neural Infor-mation Processing Systems, pages 745–745, 1994.
[38] M. D. Zeiler and R. Fergus. Visualizing and understandingconvolutional networks. InComputer Vision–ECCV 2014,pages 818–833. Springer, 2014
[39] N. Zhang, J. Donahue, R. Girshick, and T. Darrell. Part-based r-cnns for fine-grained category detection. InCom-puter Vision–ECCV 2014, pages 834–849. Springer, 2014.