语义分割之FCN翻译

  • 综述
      卷积网络是强大的视觉模型产生特征的层次结构。我们表明卷积网络本身,端到端训练,像素 - 像素,超过了语义分割中的最新技术水平。我们的主要洞察力是建立“完全卷积”接受任意大小和产生的网络相应大小的输出,有效推理和学习。我们定义并详细说明完全卷积的空间网络,解释他们在空间密集的应用预测任务,并制与先前模型的连接。我们适应当代分类网络(AlexNet[22],VGG网[34]和GoogLeNet [35])完全卷积网络和转移他们学到的表示通过微调[5]到分割任务。然后我们定义一个跳过结合语义信息的架构一个深层粗糙的层,外观信息来自a浅层,精细层,以产生准确和详细的分割。我们的完全卷积网络实现了以下状态:PASCAL VOC的艺术细分(20%相对改善在2012年),NYUDv2和SIFT的平均值为62.2%流动,而推理只需不到五分之一秒对于典型的图像。
      1.简介
      卷积网络正在推动识别的进步。Convnet不仅改善了整个图像分类[22,34,35],但也在当地取得进展结构化输出的任务。 这些包括进步在边界框对象检测[32,12,19],部分和关键点预测[42,26]和地方对应[26,10]。从粗糙到发展的自然下一步精细推理是对每个像素进行预测。先方法使用了网络进行语义分割[30,3,9,31,17,15,11],其中每个像素都标有它的封闭对象或区域的类,但有缺点这项工作解决了。
    语义分割之FCN翻译_第1张图片
      我们展示了一个完全卷积网络(FCN)在语义分割上训练端到端的像素到像素如果没有进一步的机械设备,它将超越最先进的技术。据我们所知,这是培训FCN的第一项工作用于像素预测的端到端(1)和(2)来自监督的前培训。现有的完全卷积版本网络预测来自任意大小输入的密集输出。学习和推理都是全图像表现时间密集的前馈计算和反向传播。网内上采样层实现按像素预测并通过子采样池学习网络。
      这种方法是有效的,无论是渐近还是绝对,并且排除了对其他的并发症的需要作品。 Patchwise训练很常见[30,3,9,31,11],但是缺乏完全卷积训练的效率。我们的方法没有利用加工前和加工后的并发症,包括超像素[9,17],提案[17,15],或通过随机字段或本地分类器进行的事后细化[9,17]。我们的模型转移了最近的分类成功[22,34,35]通过重新解释分类进行密集预测网络完全卷积和微调他们学到的陈述。相比之下,以前的作品在没有受过监督的预训练的情况下应用了小型网络[9,31,30]。
      语义分割面临着内在的张力语义和位置:全局信息解析什么,当地信息解决在哪里。 深层功能层次结构在非线性中编码位置和语义从地球到全球的金字塔。 我们定义了一个跳过架构利用这个结合深度的特征光谱,粗糙,语义信息和浅,精细,外观第4.2节中的信息(参见图3)。
      在下一节中,我们将回顾有关深度分类的相关工作网络,FCN和最近的语义方法使用convnets进行分段。 以下部分说明FCN设计和密集预测权衡,介绍我们的架构采用网络上采样和多层组合,并描述我们的实验框架。最后,我们展示了最先进的结果PASCAL VOC 2011-2,NYUDv2和SIFT Flow。
      2.相关工作
      我们的方法借鉴了近期深网的成功经验用于图像分类[22,34,35]和转移学习[5,41]。首先在各种视觉上展示转移识别任务[5,41],然后是检测,以及两者混合建议分类器中的实例和语义分割模型[12,17,15]。我们现在重新设计和微调分类网络直接,密集预测语义分割。我们绘制了FCN的空间并定位此框架中的先前模型,包括历史模型和近期模型。
      完全卷积网络据我们所知,首先将convnet扩展到任意大小的输入的想法出现在马坦等人。 [28],扩展了经典LeNet [23]识别数字串。因为他们的网仅限于一维输入字符串,Matan等。使用Viterbi解码来获得它们的输出。沃尔夫和普拉特[40]将convnet输出扩展到二维检测图邮政地址块四个角的分数。这两部历史着作都是推理和学习完全卷积检测。宁等人。 [30]定义一个用于线虫的粗多类分割的预测网具有完全卷积推断的组织。
      完全卷积计算也被利用在当今多层网络的时代。滑动窗口由Sermanet等人检测。 [32],语义分割由Pinheiro和Collobert [31]和图像恢复Eigen等。 [6]做完全卷积推理。完全卷积训练很少见,但有效地被汤普森使用等。 [38]学习端到端部分探测器和空间姿势估计的模型,虽然它们没有存在或分析这种方法。
      或者,He等人。 [19]抛弃非卷积分类网的一部分制作一个特征提取器。它们结合了提案和空间金字塔池化以产生局部的固定长度特征用于分类。虽然快速有效,但这种混合体模型无法端到端学习。
      使用convnets进行密集预测最近有几项工作已经将谨慎应用于密集的预测问题,包括Ning等人的语义分割。 [30],Farabet等[9],Pinheiro和Collobert [31];边界预测用于Ciresan等人的电子显微镜检查。 [3]并为自然
    混合网络/最近邻模型的图像Ganin和Lempitsky [11];和图像恢复和深度Eigen估计。 [6,7]。这些的共同要素方法包括
  • 限制容量和感受野的小模型;
  • 补片训练[30,3,9,31,11];
  • 通过超像素投影,随机场进行后处理正则化,过滤或局部分类[9,3,11];
  • 密集输出的输入移位和输出交错[32,31,11];
  • 多尺度金字塔处理[9,31,11];
  • 饱和tanh非线性[9,6,31];和
  • 合奏[3,11],
      而我们的方法没有这种机制。然而,我们从FCN的角度研究补丁训练3.4和“快速 - 缝合”输出3.2。我们也讨论网内上采样3.3,其中完全连接Eigen等人的预测。 [7]是一个特例。
      与现有方法不同,我们深入适应和扩展分类架构,使用图像分类作为监督预训练,并完全卷积微调从整个图像输入和简单而有效地学习整个图像地面的蠢事。
      Hariharan等人。 [17]和古普塔等人。 [15]同样适应深度分类网络进行语义分割,但确实如此所以在混合提案分类器模型中。这些方法通过采样边界微调R-CNN系统[12]用于检测的框和/或区域提议,语义分割,和实例细分。这两种方法都不是端到端学习。他们实现了最先进的细分PASCAL VOC和NYUDv2的结果分别为所以我们直接比较我们的独立端到端FCN他们的语义分割结果见第5节。
      我们融合各层的特征以定义非线性局部 - 我们端到端调整的全球代表性。在当代工作Hariharan等。 [18]也使用多层在他们的语义分割混合模型中。
      3.完全卷积网络
      回旋网中的每一层数据都是三维的大小为h w d的数组,其中h和w是空间维度,和d是特征或通道维度。 首先layer是图像,像素大小为h w,d色通道。较高层中的位置对应于位置在图像中,它们是路径连接的,被称为他们的接受领域。Convnet建立在翻译不变性的基础之上。 他们的基本组件(卷积,池和激活函数)在本地输入区域运行,仅依赖于相对空间坐标。 为数据向量写xij在特定层中的位置(i; j),以及下面的yij层,这些函数计算输出yij
    在这里插入图片描述
      其中k称为内核大小,s是步幅或子采样factor和fks确定图层类型:矩阵卷积或平均合并的乘法,空间max为最大池,或者为元素的非线性激活功能,等等其他类型的图层。
      这种功能形式保持在组成,内核大小和步骤服从转换规则
    在这里插入图片描述
      一般深网计算一般非线性功能,只有这种形式的图层的网络计算a非线性滤波器,我们称之为深度滤波器或完全卷积网络。 FCN自然地对输入进行操作任何大小,并产生相应的输出(可能重新采样)空间维度。
      由FCN组成的实值损失函数定义一个任务。 如果损失函数是空间的总和最后一层的尺寸, 在这里插入图片描述因此在这里插入图片描述上的随机梯度下降计算在整个图像上将与随机梯度相同在在这里插入图片描述上下降,占据所有最后一层感受野作为一个小批量。
      当这些感受野显着重叠时,两者都有前馈计算和反向传播很多在整个计算中逐层计算时效率更高图像而不是独立的补丁补丁。
      我们接下来解释如何将分类网转换为完全卷积网,产生粗略的输出图。对于按像素预测,我们需要连接这些粗略的输出回像素。 3.2节描述了一个快速的技巧扫描[13],为此目的而介绍。 我们获得洞察力通过将其重新解释为等效网络来实现这一技巧修改。 作为一种有效,有效的替代方案,我们将介绍第3.3节中用于上采样的反卷积层。在3.4节中,我们考虑通过补片采样进行训练,并在第4.3节中证明我们的整个形象训练更快,同样有效。
      3.1 调整分类器以进行密集预测
      典型的识别网络,包括LeNet [23],AlexNet[22],其更深层次的继承者[34,35],表面上看固定大小的输入并产生非空间输出。该这些网的完全连接的层具有固定的尺寸扔掉空间坐标。 但是,这些完全连接层也可以视为卷积覆盖整个输入区域的内核。 这样做了他们进入完全卷积网络,接受输入任何大小和输出分类图。 这种转变如图2所示。
    语义分割之FCN翻译_第2张图片
      此外,虽然得到的地图相当于在特定输入补丁上评估原始网络,计算在重叠时高度摊销这些补丁的区域。例如,虽然AlexNet采取1:2 ms(在典型的GPU上)推断分类分数在227227图像中,完全卷积网需要22 ms从500500图像产生1010网格输出,这比现在的方法快5倍以上。
      这些卷积模型的空间输出图使它们成为语义等密集问题的自然选择分割。每个人都可以获得基本事实输出单元,前向和后向通道都是直截了当,都利用了固有的优势计算效率(和积极优化)卷积。对应的落后时间为对于单个图像,AlexNet示例为2:4 ms,为37 ms完全卷积10
    10输出图,产生一个加速类似于前锋传球。
      虽然我们对分类网的重新解释是完全的卷积产生任何大小的输入的输出映射输出尺寸通常通过二次采样来减少。分类网络子样本以保持过滤器小和计算要求合理。这粗糙了这些网络的完全卷积版本的输出,减少它从输入的大小乘以等于像素的因子输出单元的接收区域的步幅。
      3.2 Shift-and-stitch是过滤稀疏
      可以从粗略输出中获得密集预测通过将输入的移位版本的输出拼接在一起。如果输出按f因子下采样,则移位向右输入x像素,向右输入y像素,每次输入一次(x,y)s.t。 0 <= x,y < f。 处理这些f2输入中的每一个,并交织输出,以便预测对应到他们感受野中心的像素。
      虽然进行这种转变只会增加成本乘以f2,有一个众所周知的伎俩有效地产生相同的结果[13,32]已知小波社区作为一个 a’ trous算法[27]。考虑具有输入步幅的层(卷积或池)s,以及随后具有滤波器权重的卷积层fij(消除不相关的特征维度)。 设置下层的输入步幅为1,其输出采样为a因子。 但是,使用原始过滤器进行卷积上采样输出不会产生相同的结果shift-and-stitch,因为原始过滤器只看到减少它的一部分(现在是上采样的)输入。 重现诀窍,通过扩大它来稀疏过滤器
    在这里插入图片描述
    (i和j从零开始)。 再现完整的净输出该技巧涉及重复此过滤器放大层 - 图层,直到删除所有子采样。 (在实践中,这个可以通过处理子采样版本来有效地完成上采样输入。)
      减少网络中的子采样是一种权衡:过滤器看到更好的信息,但有较小的感受野并需要更长的时间来计算。 移位和缝合技巧是另一种权衡:输出更密集而不减少过滤器的感受野大小,但过滤器禁止以更精细的规模获取信息比他们原来的设计。
      虽然我们已经做了初步实验这个技巧,我们不在我们的模型中使用它。 我们找到了学习通过上采样,如下一节所述,到更加有效和高效,特别是在结合使用时使用稍后描述的跳过层融合。
      3.3 上采样是向后步进的卷积
      另一种将粗略输出连接到密集像素的方法插值。 例如,简单的双线性插值从a最近的四个输入计算每个输出yij线性映射,仅取决于相对位置输入和输出单元格。
      从某种意义上说,使用因子f的上采样是卷积1 / f的分数输入步幅。 只要f是积分,a因此,上采样的自然方式是向后卷积(有时称为反卷积),输出步幅为F。 这样的操作很容易实现,因为它很简单反转卷积的前后通过。因此,在网络中进行端到端的上采样通过逐像素损失的反向传播来学习。
      注意,这种层中的反卷积滤波器不需要固定(例如,双线性上采样),但可以学习。一堆反卷积层和激活功能可以甚至学习非线性上采样。
      在我们的实验中,我们发现了网内上采样学习密集预测是快速有效的。 我们最好的分段架构使用这些层来学习上采样用于4.2节中的精确预测。
      3.4 Patchwise培训是损失抽样
      在随机优化中,梯度计算是由培训分配驱动。 两个补丁训练并且可以进行完全卷积训练任何分布,虽然它们的相对计算效率取决于重叠和小批量大小。 整个图像完全卷积训练与补片相同每个批次包含所有感知领域的培训低于图像损失的单位(或图像的集合)图片)。 虽然这比统一采样更有效补丁,它减少了可能的批次数。 然而,随机选择图像内的补丁可能是恢复简单。 将损失限制为随机抽样其空间术语的子集(或等效地应用aDropConnect掩码[39]在输出和丢失之间)从梯度计算中排除补丁。
      如果保留的补丁仍然完全重叠卷积计算仍将加速训练。 如果渐变在多个后向传递中累积,批次可以包括来自多个图像的补丁.
      补丁训练中的抽样可以纠正阶级失衡[30,9,3]并减轻密集的空间相关性补丁[31,17]。 在完全卷积训练,课堂平衡也可以通过加权损失和损失来实现采样可用于解决空间相关性问题。
      我们在4.3节中通过抽样探索训练,并且做没有发现它为密集产生更快或更好的收敛预测。 整体图像培训是有效和高效的。
      4.分段架构
      我们将ILSVRC分类器转换为FCN并进行扩充它们用于网络上采样和密集预测像素丢失。 我们通过微调来训练细分。接下来,我们在层之间添加跳过以融合粗糙,语义和当地的外观信息。 这种跳过架构是学习端到端以改进语义和空间精度的输出。
      对于此调查,我们在PASCAL上进行培训和验证VOC 2011细分挑战[8]。 我们训练每像素多项逻辑丢失并验证联合平均像素交叉的标准度量,所有课程的平均值,包括背景。该训练忽略了被掩盖的像素(模棱两可在地面真相中。
    语义分割之FCN翻译_第3张图片
      4.1 从分类器到密集的FCN
      我们首先对经过验证的分类架构进行卷积分析如第3节所述。我们考虑AlexNet3架构[22]赢得了ILSVRC12以及VGG网[34]和GoogLeNet4 [35]做得非常好好在ILSVRC14。我们选择VGG 16层net5,我们发现这相当于19层网任务。对于GoogLeNet,我们只使用最终的损失层,和通过丢弃最终的平均合并来提高性能层。我们通过丢弃决赛来斩首每个网分类器层,并将所有完全连接的层转换为卷积。我们用通道附加一个11卷积维度21用于预测每个PASCAL的分数每个粗略的类(包括背景)输出位置,然后是反卷积层到双线性将粗略输出上采样到像素密集输出如第3.3节所述。表1比较了初步结果验证结果以及基本特征每个网。我们报告收敛后取得的最佳结果以固定的学习率(至少175个时期)。
    语义分割之FCN翻译_第4张图片
      从分类到分割的微调是合理的每个网络的预测。 即使是最糟糕的模型达到了~75%的最先进性能。该配备分段的VGG网(FCN-VGG16)已经看起来是最先进的,平均值为56.0平均IU,比较测试[17]为52.6。 对额外数据的培训提高了FCN-VGG16至59.4表示IU,FCN-AlexNet表示48.0表示val7子集上的IU。 尽管类似的分类准确性,我们对GoogLeNet的实现并不匹配VGG16分割结果。
      4.2 结合什么和哪里
      我们定义了一个新的完全卷积网(FCN)进行分割它结合了特征层次结构的层次细化输出的空间精度。 见图3。
      虽然可以对完全卷积分类器进行微调分段如4.1所示,甚至得分在标准指标上,他们的输出不满意粗糙(见图4)。 32像素在最终预测中迈进图层限制了上采样输出中的细节比例。
      我们通过添加组合的跳过[1]来解决这个问题具有较低层的最终预测层具有更精细的步幅。这会将线拓扑变为DAG,边缘会跳过从较低层到较高层(图3)。 像他们看到更少的像素,更精细的尺度预测应该需要层数较少,因此从浅层制作它们是有意义的净产出。 结合精细层和粗糙层使得模型使局部预测尊重全球结构。通过类比于Koenderick和van Doorn [21]的喷射,我们将我们的非线性特征层次称为深喷射。
      我们首先通过预测将输出步幅分成两半来自16像素步幅层。 我们添加1
    1卷积pool4顶部的图层,用于生成其他类预测。我们将此输出与计算的预测融合在一起在conv7(旋转fc7)之上,在步幅32处添加2* 个上采样层并对两个预测求和(见图3)。 我们将2* 个上采样初始化为双线性插值,但允许学习参数如第3.3节所述。 最后,步伐16预测被上采样回到图像。 我们称之为网络FCN-16s。 FCN-16s端到端学习,初始化为我们现在称之为最后一个较粗网的参数FCN-32S。 作用于pool4的新参数是零初始化的因此网络以未经修改的预测开始。学习率降低了100倍。
      学习这个跳过网可以提高验证的性能设置为3.0表示IU为62.4。 图4显示了改进在精细的输出结构。 我们比较了这种融合只能从pool4层学习,其中导致表现不佳,只是减少了没有添加跳过的学习率,这导致了没有改善,性能改善微不足道输出的质量。
      我们通过融合预测来继续这种方式pool3具有2* 个融合预测的上采样pool4和conv7,建立网络FCN-8。 我们获得一个小的额外改进,62.7意味着IU,并找到我们的平滑度和细节略有改善输出。 在这一点上,我们的融合改进已经减少返回,都是关于IU度量的强调大规模的正确性,也强调改善可见例如 在图4中,所以我们不继续甚至更低层融合。
      通过其他手段进行细化减少步幅汇集层是最直接的获取方式更好的预测。 但是,这样做对我们来说是个问题基于VGG16的网络。 将pool5步幅设置为1需要我们的卷积化fc6具有1414的内核大小以维持其感知字段大小。 除了他们的计算成本,我们很难学习如此大的过滤器。我们试图用pool重新构建pool5之上的层较小的过滤器,但没有达到相当的性能;一种可能的解释是ILSVRC初始化上层很重要。
      获得更好预测的另一种方法是使用shiftand-第3.2节中描述的缝合技巧。 在有限的实验中,我们从中找到了改善成本的比例方法比层融合更差。
    语义分割之FCN翻译_第5张图片
      4.3  实验框架
      优化我们以新的动力训练。 我们使用20个图像的小批量和固定学习率10-3,10-4和5-5用于FCN-AlexNet,FCN-VGG16和FCN-GoogLeNet分别由线搜索选择。 我们使用动量0.9,重量衰减为5-4或2-4,并加倍学习偏见,虽然我们发现了训练只对学习率敏感。 我们零初始化class scoring layer,因为随机初始化都没有产生更好的性能,更快的收敛。 辍学包括在内在原始分类器网中使用的位置。
      微调我们通过反向传播微调所有层通过整个网络。 微调仅输出分类器仅产生完全微调的70%表2中的表现比较考虑到所需的时间,划痕是不可行的学习基础分类网。 (注意VGG网是分阶段训练,同时我们从完整的16层版本初始化。)微调在单个GPU上需要三天时间粗FCN-32s版本,每个大约一天升级到FCN-16和FCN-8s版本。
      更多培训数据 PASCAL VOC 2011细分训练集标签1112图像。 Hariharan等人。[16]为更大的8498 PASCAL培训收集标签图像,用于训练以前的状态系统,SDS [17]。 此培训数据改进了FCNVGG16验证得分7乘以3.4分至59.4均值IU。
      补丁采样如第3.4节所述,我们的完整图像训练有效地将每个图像分成常规图像网格的大型重叠补丁。相比之下,先前在一个完整的数据集上随机抽样补丁[30,3,9,31,11],可能导致更高的方差批次这可能加速收敛[24]。我们研究这种权衡通过以所述方式对损失进行空间采样早些时候,做出一个独立的选择来忽略每个决赛层单元格的概率为1-p。避免改变有效批量大小,我们同时增加数量每批图像的因子1 / p。请注意,由于效率对于卷积,这种形式的拒绝抽样是对于足够大的值,仍然比补丁训练更快p(例如,根据数字,至少p> 0.2)在第3.1节)。图5显示了这种形式的影响收敛性抽样。我们发现抽样没有与收敛率相比,收敛率有显着影响整个图像训练,但需要更多的时间需要考虑的大量图像每批。因此,我们选择非抽样的整个图像在我们的其他实验中训练。
      类别平衡完全卷积训练可以平衡通过对损失进行加权或抽样来分类。 虽然我们的标签略微不平衡(约3 / 4是背景),我们发现不需要课堂平衡。
      密集预测通过网络内的反卷积层将分数上采样到输入维度。 最后图层反卷积滤镜固定为双线性插值,而中间上采样层初始化为双线性上采样,然后学习。
      增强我们尝试增加训练数据通过平移随机镜像和“抖动”图像它们最多32像素(最粗略的预测范围)在每个方向。 这没有产生明显的改善。
      实施所有模型都经过培训和测试Caffe [20]采用单一的NVIDIA Tesla K40c。 我们的模特和代码可在以下公开http://fcn.berkeleyvision.org.
    语义分割之FCN翻译_第6张图片
      5.结果
      我们在语义分割和场景上测试我们的FCN解析,探索PASCAL VOC,NYUDv2和SIFT流。 虽然这些任务在历史上有所区别在对象和区域之间,我们将两者统一地视为像素预测。 我们评估我们的FCN跳过架构每个这些数据集,然后将其扩展为多模态输入对于NYUDv2和语义的多任务预测和SIFT Flow的几何标签。
      度量标准我们从常见语义中报告四个度量标准分段和场景解析评估是变体关于像素精度和区域交叉的结合(IU)。 设nij为我预测的类的像素数属于j类,其中有ncl个不同的类,和让在这里插入图片描述是类i的像素总数。 我们计算:
    语义分割之FCN翻译_第7张图片PASCAL VOC表3给出我们的性能FCN-8s参加PASCAL VOC 2011和2012年的测试,并将其与先前的最新技术SDS [17]进行比较,和众所周知的R-CNN [12]。 我们取得了最好的成绩平均IU8的相对边际为20%。 推理时间减少了114
    (仅限投票,无视提案和精炼)或286*(整体)。
      NYUDv2 [33]是使用。收集的RGB-D数据集微软Kinect。它有1449个RGB-D图像,带有像素已合并为40级语义的标签Gupta等人的分割任务。 [14]。我们报告结果关于标准分割的795个训练图像和654个测试图片。 (注意:所有型号选择都在PASCAL上进行2011年val。)表4给出了我们模型的性能在几个变化中。首先,我们训练未经修改的粗糙RGB图像上的模型(FCN-32s)。要添加深度信息,我们训练升级为四通道的模型RGB-D输入(早期融合)。这几乎没有什么好处,也许是由于难以传播有意义的通过模型的渐变。成功之后Gupta等人。 [15],我们尝试三维HHA深度编码,训练网仅仅是这个信息,如以及预测中RGB和HHA的“后期融合”从两个网中总结出最后一层,并且得到的双流网是端到端学习的。最后我们将这种后期融合网升级为16步版。
      SIFT Flow是包含像素标签的2,688张图像的数据集33个语义类别(“桥”,“山”,“太阳”),以及三个几何类别(“水平”,“垂直”,和“天空”)。 FCN可以自然地学习联合表示同时预测两种类型的标签。我们学习了带语义的双头FCN-16版本和几何预测层和损失。 学到了模型作为两个独立的任务执行训练有素的模型,而学习和推理本质上是和每个独立模型一样快。 结果表5,按标准计算分为2,488次训练和200个测试图像,9显示最先进的性能这两项任务。
    语义分割之FCN翻译_第8张图片
    语义分割之FCN翻译_第9张图片
    语义分割之FCN翻译_第10张图片

你可能感兴趣的:(语义分割之FCN翻译)