本文研究了只使用图像级别标签作为监督来学习图像语义分割网络的问题,这是重要的,因为它可以显著减少人工标注的工作量。最近在这个问题上的最新方法首先使用深度分类网络推断出每个对象类的稀疏和有区别的区域,然后使用有区别的区域作为监督来训练语义分割网络。受传统图像分割方法中种子区域生长的启发,我们提出了一种从有区别的区域开始训练语义分割网络,并逐渐增加像素级别监督的方法,通过种子区域生长引入。种子区域生长模块被集成在深度分割网络中,并且可以从深度特征中受益。与传统的固定/静态标签的深度网络不同,提出的弱监督网络使用图像内的上下文信息生成新的标签。所提出的方法在使用静态标签的弱监督语义分割方法方面取得了显著的优势,并获得了最先进的性能,在PASCAL VOC 2012测试集上的mIoU得分为63.2%,在COCO数据集上的mIoU得分为26.0%。
深度卷积神经网络(DCNN)在图像语义分割问题上取得了巨大的成功[5,18],这要归功于大量的完全注释图像。然而,收集大规模准确的像素级注释是耗时的,通常需要大量的财力投入。然而,未标记和弱标记的视觉数据可以以相对快速和廉价的方式大量收集。因此,计算机视觉研究的一个有前途的方向是开发能够从未标记或弱标记的图像中学习的目标识别方法[14,32]。
在这篇论文中,我们研究了从弱标记图像中学习语义分割网络的问题。在各种弱标记的设置中,图像级别注释是最经济和最高效的设置之一。在这种情况下,每个训练图像都有其图像类别标签,表示属于类别标签的对象出现在图像中。然而,对象的位置是未知的,我们需要推断对象的像素级位置。因此,训练弱监督语义分割网络的主要问题是如何将图像级别标签准确地分配给相应的像素。
为了在训练中建立所需的像素标签对应关系,有一项非常有见地的研究工作。Kolesnikov等人[14]采用了一个带有分类激活图(CAM)方法的图像分类网络,选择最有区别的区域,并将这些区域作为分割网络的像素级监督。与早期的弱监督语义分割方法[22,20]相比,基于有区别区域的方法显著提高了这个具有挑战性的任务的性能。然而,在[14]中,有区别区域是小而稀疏的,如图1中的第0个迭代图像所示。在训练中,语义分割网络的监督被固定为稀疏的有区别区域。因此,我们将[14]中的学习策略称为"静态监督"。静态监督设置偏离了语义分割任务的要求,该任务要求在训练分割模型时需要准确和完整的对象区域。
为了解决这个问题,我们提出了在训练语义分割网络时将有区别区域扩展到覆盖整个对象的方法。在实践中,有区别区域周围的像素总是属于同一个对象,因为相同对象的语义标签具有空间连续性。我们的动机是,使用图像标签可以从感兴趣的对象中找到小而稀疏的有区别区域,称为“种子线索”,种子线索周围具有相似特征(如颜色、纹理或深度特征)的像素可能具有与种子线索相同的标签。我们利用经典的种子区域生长(SRG)方法[1]来模拟这个过程,生成准确和完整的像素级标签。在这里,我们可以在像素级标签的监督下训练语义分割网络。与[14,19]不同,像素级标签是动态的。动态监督与使用固定监督的传统网络训练非常不同。在我们的情况下,我们让网络生成输入训练样本即训练图像的新标签。SRG被整合到深度分割网络中,可以端到端地优化并利用深度特征。我们将这种方法称为“深度种子区域生长(DSRG)”用于弱监督语义分割。
在实践中,由分类网络定位的种子线索虽然小但精度高。将种子线索作为SRG中的种子点是一种自然的方式。此外,为了衡量种子点与相邻像素之间的相似性以进行区域生长,我们利用分割网络输出的分割图作为特征。因此,SRG将种子线索视为初始种子点;然后,在分割图中,具有高概率对应于它们所属类别的相邻像素将与种子线索具有相同的标签。这个过程重复进行,直到没有像素满足上述约束为止。最后,DSRG的输出被用作训练分割网络的监督。在训练阶段,使用监督来构建损失函数,称为"种子损失"。在种子区域中,损失与[5]中的完全监督损失函数相同;其他位置通过种子损失被忽略
在训练过程中,DSRG方法逐渐丰富了分割网络的监督信息。如图1所示,第0个迭代中的监督实际上是分类模型生成的种子线索,这些线索定位了人和马的头部,是图像中最有区别的区域。随着迭代次数的增加,动态监督逐渐接近真实情况,并精确地覆盖整个对象内容。同时,动态监督指导网络产生有竞争力的分割结果。为了确保训练的稳定性,DSRG始终选择原始种子线索作为初始种子点。
在实验中,我们在具有挑战性的PASCAL VOC 2012语义分割基准[8]和COCO上展示了我们方法的有效性,并展示了我们取得了最新的最优结果。此外,我们通过进行一些消融研究对DSRG方法进行了分析。
总结起来,本文的主要贡献如下:
本文的剩余部分按照以下方式组织。我们首先在第2节回顾相关工作,并在第3节中描述我们方法的架构。在第4节中,我们讨论了改进动态监督质量的详细过程,并分析了实验结果。第5节提出了我们的结论和未来的工作。
图1:顶部一行按顺序显示了一张带有图像级标签的训练图像,仅使用图像级监督的我们提出的方法的分割结果,以及真实标注的地面真值。我们的分割结果非常接近人工标注的地面真值。底部一行显示了在提出的弱监督语义分割网络训练过程中几个迭代中的动态监督情况。(黑色代表背景,白色代表未标记/忽略的像素)。
近年来,对弱监督视觉学习的兴趣有所增加。已经提出了各种弱监督方法,用于学习使用粗略注释进行语义分割,例如图像标签[20,36],点[2],涂鸦[16]和边界框[7,20]等。在这项工作中,我们重点关注使用图像标签作为主要的监督方式,这是训练语义分割模型的一种简单监督方式。
Pinheiro等人[23]提出了一种新颖的LSE池化方法,该方法在训练过程中更加重视对图像分类有重要作用的像素。Papandreou等人[20]采用基于期望最大化算法的交替训练过程,动态预测语义前景和背景像素。Qi等人[24]提出了一个统一的框架,包括语义分割和目标定位分支。[27]提出了一种新的方法,可以从预训练网络本身中提取更准确的掩码。Wei等人[35]提出了一种从简单到复杂的学习方法,逐步增强分割网络。[29]提出了一种基于基于CNN的类别特定显著图和全连接CRF的方法。Roy等人[26]提出了一种新颖的深度架构,将三种不同的线索融合到语义分割中。
最近,Kolesnikov等人[14]提出了根据分类网络定位种子标记,用于训练分割网络。然而,[14]只能获得与对象相关的小而稀疏的种子标记。为了解决这个问题,Oh等人[19]提出使用显著性模型作为额外的信息来利用对象的范围。Wei等人[33]使用对抗擦除的方式来迭代训练多个分类网络,以扩大区分性区域。Arslan等人[4]也利用对抗擦除的方式,使显著性检测网络能够发现对象的新显著区域。一旦生成了真实的负面区域,它们就没有机会被纠正。相比之下,我们提出的DSRG方法非常简单方便,可以从种子标记开始,并在训练阶段逐步细化像素级标签作为动态监督。
[20]和本文提出的方法都生成动态的像素级标签来训练语义分割网络。然而,在本文中有几个重要的改进。与[20]不同的是,[20]中的潜在像素级监督是通过在偏差分割图上应用argmax函数来近似的,而我们提出使用种子区域生长方法来找到准确可靠的潜在像素级监督。在对象种子标记的帮助下,我们的DSRG训练方法对于训练初期非常嘈杂的分割图具有鲁棒性,并且始终生成高精度的像素级监督。
种子区域生长(SRG)[1]是一种无监督的分割方法,它通过检查初始种子点的相邻像素,并根据区域相似性准则确定是否将像素邻居添加到区域中。在执行基于区域生长的分割时,必须处理两个主要问题:在图像领域中放置初始种子的位置以及应采用哪种相似性准则来描述图像区域。最常见的方法是根据简单的手工准则[28](例如颜色、强度或纹理)选择一些像素作为种子。与此同时,相似性准则[3]通常是基于手工设计的特征定义的。这些设置导致了过分分割和不良分割。相比之下,DSRG利用分类网络生成的种子标记作为初始种子,避免了错误的种子放置。此外,我们使用深度学习特征计算像素相似性,这些特征已被证明具有高级语义。因此,DSRG可以减少过分分割,并且不需要传统SRG的合并过程。
在本节中,我们详细介绍了用于弱监督语义分割的提出的DSRG训练方法的细节。首先,我们将介绍如何从深度分类网络中生成种子标记。然后,我们将介绍一种平衡的种子损失函数,该函数使用种子标记作为监督来指导弱监督语义分割网络。最后,为了解决种子标记小且稀疏的问题,我们提出了DSRG训练方法。
我们利用深度分类网络在图像级别监督下定位具有区分性的区域作为种子标记。图像级别标签并不明确提供有关语义对象位置的任何信息。但是,最近的研究表明,在图像级别标签的监督下学习分类网络可以获得指示具有区分性的对象区域的高质量种子标记[30,37]。分类网络是完全卷积的,区分性对象区域的位置在网络的深层中得以保留。在我们的框架中,我们使用CAMs [37]方法来定位前景类别。具体步骤如下:我们使用修改过的VGG-16网络[14]来初始化我们的分类网络。在网络中,对conv7应用全局平均池化(GAP),生成的张量作为图像表示,并使用全连接层进行分类;最后,将全连接分类器应用于conv7,为每个对象类别生成热图。然后,通过对热图应用一个硬阈值,获得区分性对象区域。
除了前景中的种子标记,我们还在背景中找到了种子标记。为了定位背景,我们利用了[12]中的显著性检测技术,并简单地选择归一化显著性图中像素具有低显著性值的区域作为背景。前景和背景产生的种子标记被叠加在一起,形成一个单通道的分割掩模。
图2.提出的Deep Seeded Region Growing训练方法的概述。区域生长模块以种子标记和分割图作为输入,生成比种子标记更准确和更完整的潜在像素级监督。我们的方法在像素级监督的细化和分割网络参数的优化之间进行迭代。
在获得种子标记之后,我们介绍如何使用这些种子标记训练图像语义分割网络。我们提出了平衡的种子损失,以鼓励分割网络的预测仅与分类网络给出的种子标记匹配,而忽略图像中的其他像素。考虑到前景和背景种子标记的不平衡分布,平衡的种子损失为前景和背景分别引入了两个归一化系数,与[14]中的种子损失不同。假设C是图像中存在的类别集合(不包括背景),C¯是背景。假设Sc是被分类为类别c的位置集合。那么,平衡的种子损失seed定义如下:
其中,H_u^c表示分割图H在位置u处的类别c的概率。此外,我们还使用了[14]中提出的边界损失boundary,以鼓励分割图与对象边界匹配。最终,通过最小化损失函数来优化分割网络:
在引入的种子损失中,我们可以发现种子标记是稀疏的。在实践中,大约有40%的像素有标签。在训练过程中,标签按照传统的深度网络训练设置是固定的。我们的想法是将种子标记扩展到未标记的像素上。这样,我们可以获得更密集的监督来训练更好的分割网络。种子标记扩展的基础是图像中存在小的同质区域,其中像素应具有相同的标签。这些小的同质区域通常在低级别视觉中使用,例如生成超像素[25]。为了形式化种子标记扩展问题,我们参考了一种经典的算法,称为Seeded Region Growing (SRG) [1]。
在SRG中,根据一些简单的手工准则(例如颜色、强度或纹理),最初选择一些种子像素。一旦放置了初始种子,生长过程就会试图获得同质的图像区域,也就是试图将图像分割成具有以下属性的区域:每个区域的连通分量恰好包含一个初始种子。
我们提出将SRG集成到弱监督语义分割的深度网络中。这种方法被称为“深度种子区域生长(DSRG)”。
一旦通过分类网络初始化了初始种子,根据区域相似性准则,从这些种子点向相邻的未标记点生长区域。相似性准则定义了候选像素是否应该被纳入特定的区域。现在,当执行基于区域生长的语义分割网络学习时,必须处理的主要问题是:应该采用什么相似性准则来描述图像区域?在接下来,我们详细说明处理这个问题的策略。我们提出的相似性准则P是由分割网络生成的分割图H中像素的简单概率阈值值。
其中,H_u^c表示位于位置u处属于类别c的像素的概率值。θ是概率阈值值。在实践中,我们不为不同的类别设置不同的阈值。前景类别共享一个阈值θf,而背景类别有另一个阈值θb。传统的SRG通常会出现过分割的现象,因为低级别的图像特征对于物体的类别间外观不具有鲁棒性。在DSRG中,我们使用经过验证具有高级语义的深度学习特征来计算像素之间的相似性。因此,DSRG能够减少过分割,并且不需要传统SRG中的合并过程。
现在,我们可以将分割图H和种子线索S作为输入,执行区域生长。DSRG是针对每个类别的迭代访问过程。我们将类别c的迭代访问过程表示为Vc,其中c ∈ [0,|C|],其中c = 0表示背景类别。在Vc的一次迭代中,我们按照行优先的方式访问Sc中的所有位置。在访问像素Q时,我们将Q的8连通邻域中未标记像素的集合表示为R。对于R_u ∈ R,它属于类别c的概率如上所述表示为H_u^c。然后,根据P对R_u进行分类,具体如下:
在访问完所有位置之后,我们将所有新标记的像素添加到Sc中。一旦Sc发生改变,我们将再次访问更新后的Sc。否则,Vc停止。与传统的SRG不同,终止准则不是每个像素都必须有一个标签。因为很难确定由分割网络低置信度预测的像素的标签。然而,随着分割网络能力的增强,未标记像素的数量减少,对象的范围被正确的标签覆盖。此外,为了减少Vc中的冗余访问,我们首先计算满足等式(3)要求的区域的连通分量。然后,由初始种子形成的连通分量采用与初始种子相同的标签。这些连通分量被选为训练分割网络的新监督。我们将|C|+1次迭代访问过程表示为DSRG(S,H),这意味着一个区域生长步骤。最终更新的S=[S0,···,SC]被用作监督,并应用于使用等式(1)中的种子损失训练分割网络。
in Figure 2,the DSRG(S,H)is plugged into the framework of the proposed segmentation network.
数据集和评估指标我们在PASCAL VOC 2012分割基准数据集[8]和COCO数据集[17]上评估了所提出的方法。PASCAL VOC数据集包含三个部分:训练集(train,1464张图像)、验证集(val,1449张图像)和测试集(test,1456张图像)。按照常规做法[6,33],我们从[9]中添加了额外的图像来增加训练数据。在我们的实验中,仅使用图像级别的标签进行训练。我们将我们的方法与其他最先进的方法在验证集和测试集上进行比较。采用标准的交并比(IOU)准则和像素级准确率对PASCAL验证集进行评估。通过将预测结果提交到官方的PASCAL VOC评估服务器,获得了测试集上的结果。COCO数据集的训练集包含80k个样本,仅具有图像级别的标签,验证集包含40k个样本用于评估。性能以在81个类别上平均的像素IOU进行评估。对所提出的方法进行的实验分析是在验证集上进行的。
训练/测试设置我们采用了来自[14]的稍加修改的16层VGG网络作为分类网络,以及来自[6]的DeepLab-ASPP作为分割网络。它们都是由在ImageNet上预训练的VGG-16 [31]初始化的。使用SGD进行分类和分割网络的训练,采用mini-batch的方式。我们使用0.9的动量和0.0005的权重衰减。批量大小为20,dropout率为0.5,权重衰减参数为0.0005。初始学习率为5e-4,并在每2000次迭代后按10的系数进行减小。
对于种子生成,热图中排名前20%的像素(这是[14,33]建议的一部分)被认为是前景对象区域。我们使用来自[12]的显著性图来产生背景定位线索。我们采用归一化的显著性值0.06作为阈值,以获得背景定位线索(即显著性值小于0.06的像素被认为是背景)。对于DSRG中的相似性准则,我们将θb和θf分别设置为0.99和0.85。对于CRF,我们使用Koltun公开实现中的默认值作为成对交互的参数。
在测试阶段,我们将学习到的分割网络应用于为每个测试图像生成概率图。然后,我们将预测的概率图放大到与输入图像大小匹配的尺寸,然后应用全连接的CRF [15]来细化分割结果。
可重现性。我们的方法是基于Caffe [11]实现的。所有网络都在一张NVIDIA GeForce GTX TITAN X GPU上进行训练。代码可在https://github.com/speedinghzl/DSRG上获得。
表1. PASCAL VOC 2012验证集和测试集上弱监督语义分割方法的比较结果
其他最先进的弱监督语义分割解决方案在PASCAL VOC验证集和测试集上的结果总结如表1所示。我们提供这些结果供参考,并强调不应直接与我们的方法进行比较。因为这些方法是在不同的训练集上或使用不同类型的注释、边界框、标记点和图像级别标签进行训练的。其中,CCNN [21]、MIL-seg [23]、STC [35]、GuidedSeg [19]和TransferNet [10]使用更多的图像进行训练(分别为70万、70万、5万、2万和7万张)。所有其他方法都基于1万张训练图像,并建立在VGG16模型之上。
结果表明,我们的方法在使用图像级别标签进行弱监督时明显优于所有以前的技术。在基线方法中,AE-PSL [33]和DCSP [4]实现了最佳性能。然而,AE-PSL使用对抗擦除来扩展种子标注,需要迭代训练多个分类网络。DCSP也利用对抗擦除的方式,使得显著性网络能够发现新的显著目标区域。它不需要在每次擦除后重新训练网络,但是DCSP可能由于过度擦除而引入一些真负样本区域。相比之下,我们提出的DSRG方法非常简单和方便,在线细化监督,并且我们的方法比DCSP和AE-PSL获得更好的结果。与那些仅使用图像级别标签进行监督的方法相比,我们提出的DSRG(VGG16)方法在测试集上的最佳性能提高了超过1.2%。可以看出,我们的方法在测试集上达到了60.4%的mIoU。此外,我们的DSRG(Resnet101)在测试集上达到了63.2%的mIoU。
图3. VOC 2012验证集上的定性分割结果。最后一行显示了一个失败的案例。
表2. 在VOC 2012验证集上,使用我们方法的不同设置进行mIoU的比较结果。
图3展示了一些成功的分割结果。它显示我们的方法可以在复杂的图像上产生准确的分割,并恢复边界的细节。图3的最后一行展示了一个典型的失败案例。这种失败模式是模型无法精确地从背景中分离出物体区域。对于弱监督系统来说,强相关的类别(如火车和铁轨、头骨和桨、雪地摩托和雪地)在没有更细粒度信息的情况下无法分离[13]。
为了进一步证明不同组件的效果,我们使用基于VGG16的DSRG进行了一些消融实验。在表2中,“基线”表示我们实现的SEC [14],我们的结果比[14](没有Lexpand)要好得多,这是由于不同的背景定位技术[12]和细节。 “+BSL”表示用平衡的种子损失替换原始的种子损失,公式(1)中的“+DSRG”表示添加DSRG训练方法。我们可以观察到,加权种子损失相比基线提高了1.1%的性能。而DSRG进一步提高了4%的性能,证明了DSRG的显著有效性。对于动物和人物,例如分割狗/马/牛/人的改进约为10%,这是最明显的。此外,我们首次使用“+DSRG”的训练分割模型对所有训练图像进行预测。然后,预测的分割掩码被用作以全监督方式训练分割网络的另一轮监督。如表2所示,通过这种额外的训练(表示为“+Retrain”),性能从57.6%进一步提高到59.0%。我们没有观察到通过执行额外的重新训练步骤进一步提高性能。
另外,我们尝试了不同的θf和θb的值,以找到表现最佳的区域生长策略。在表4中展示了不同θ值的结果。结果表明,我们的方法对于区域生长阈值θ是鲁棒的。为了探索仅对前景或背景对象进行区域生长的效果,我们设置θb =∞,θf =0.85,仅对前景对象进行区域生长,PASCAL VOC验证集上的性能为55.9%的mIoU。当θb =0.99,θf =∞时,性能为54.3%的mIoU。结果表明,仅对前景对象或背景对象进行区域生长也可以提高性能。然而,当同时对前景对象和背景对象进行区域生长时,可以实现最佳性能。
表3. 在COCO数据集上使用图像标签进行训练的每个类别的IOU。
表4. 在PASCAL VOC 2012验证集上使用不同θ值的性能。
在本节中,评估了从DSRG获取的新像素标签作为每个时期的动态监督的质量。与人工注释的真实标签相比,我们可以使用平均准确率、平均召回率和IoU来衡量我们方法改进的监督的质量。在图4中,由分类网络生成的监督具有较高的精确度(62.6%),较低的召回率(32.1%)和较低的IoU(30.0%)。随着时期的增加,种子的精确度保持在较高的值,召回率和IoU得到了显著的提升。在第12个时期,平均精确率、平均召回率和平均IoU分别为63.9%、65.4%和57.1%。这表明DSRG可以找到物体的范围并改善监督的质量,这解释了为什么提出的DSRG训练过程在弱监督语义分割任务上表现出色。补充材料中的其他示例显示了在训练过程中从种子线索逐渐改进的监督。
为了进一步证明我们方法的普适性,我们在COCO数据集上进行了一系列实验。与PASCAL VOC不同,COCO的大部分样本都来自于复杂的自然环境中的非标志性图像。我们在表3中提供了SEC [14]、BFBP [27]和我们方法的每个类别的IoU。基于VGG16的DSRG取得了显著更好的结果,特别是在人物、动物、车辆等类别上,但在室内和厨房用具等小物体上表现较差。总体而言,我们的DSRG方法在验证集上的性能比最佳性能提高了3.6%以上。可以看出,我们的方法在验证集上实现了26.0%的mIoU。与全监督方法(40.98%的mIoU)的性能相比,这些结果表明,在弱监督语义分割方面还有很大的改进空间。处理小物体的解决方案可能是未来研究的一个有趣方向。
图4. 动态监督的质量(%)随着时期的变化。
我们解决了只使用图像级监督训练语义分割网络的问题。仅凭图像级标签可以提供高质量的种子或有区分度的物体区域,但推断完整的物体范围是一个非常困难的问题。我们提出了一种DSRG训练方法,逐渐改善了物体区域的质量和范围,并自身对物体区域进行了监督。我们证明了在相同的实验条件下,我们的方法优于先前的最先进方法。我们在实验中明确确定了在语义分割网络中的区域生长机制的有效性。在未来的工作中,我们将专注于设计更有效的弱监督策略和提高种子质量。