深度神经网络(DNNs)的最新发展推动了语义分割的显着改进 [2, 3, 4, 19, 22, 25, 32, 39] 。 然而,尽管DNN取得了巨大成功,但我们在不受控制和现实的环境中实现语义分割还有很长的路要走。 其中一个主要障碍是缺乏训练数据。 由于像素级分割标签的标注成本过高,现有数据集通常缺乏标注样本和类别多样性。 这使得传统方法限于在数据集中预定义的小范围的对象类别。
已经研究了弱监督方法来解决上述问题并允许语义分割模型更具可扩展性。 他们的共同动机是利用像边界框 [6, 12, 28] 和线 [18, 36] 这样的标注,这些标注比像素级标签弱,但在大量视觉数据中很容易获得,或者由于其低标注而易于获得成本。 在用于语义分割的各种类型的弱标注中,图像级类标签已被广泛使用 [11, 14, 17, 26, 29, 30, 37],因为它们已经在现有的大规模图像数据集中给出(例如,ImageNet [7])或通过搜索关键字自动标注图像检索结果。 然而,利用图像级标签监督来学习语义分割是一个非常病态的问题,因为这种监督仅指示某个对象类的存在,并且不告知对于学习分割必不可少的对象位置和形状。
这一系列研究中的方法已经纳入了额外的证据来模拟监督中缺少的位置和形状信息。定位线索的一个流行选择是类激活图(CAM)[40],它通过追踪隐藏单元对分类DNN输出的贡献来突出显示目标对象的局部鉴别部分。 CAM突出显示的鉴别区域又被用作种子,它们将被传播以覆盖整个对象区域。为了从种子中准确地恢复对象区域,先前的方法利用图像分割 [17, 30] ,视频中的运动 [35] 或两者 [11] ,所有这些都可用于估计对象形状。出于同样的目的,估计了类别不可知的显着区域,并将其与种子结合在一起 [26] 。然而,他们需要额外的数据(即视频)[11, 35],额外的监督(即对象边界框) [26] ,或者不能利用表示学习的现成技术(即图像分割)在DNNs [11, 17, 30] 。
在本文中,我们提出了一种简单而有效的方法来补偿物体形状的缺失信息,而无需外部数据或额外的监督。我们框架的关键组件是AffinityNet,它是一个DNN,它将图像作为输入并预测相邻图像坐标对的语义相似。给定一个图像及其CAM,我们首先构建一个邻域图,其中每个像素在一定半径内连接到它的相邻,并通过AffinityNet估计图中连接的对的语义相似度。然后,对于每个类,CAM中的稀疏激活通过图上的随机游走[23]进行扩散:图中边缘的相似度鼓励随机游走将激活传播到附近和语义上相同的区域,并惩罚传播到其他类的区域。这种语义扩散显着地修改了CAM,从而恢复了精细的对象形状。我们将此过程应用于训练图像,以便通过获取与每个像素处修改的CAM的最大激活相关联的类标签来合成其分割标签。生成的分割标签用于训练出用于测试的分割模型。
剩下的问题是如何在没有额外数据或额外监督的情况下学习AffinityNet。 为此,训练图像的初始CAM被用作监督源。 由于CAM经常遗漏一些对象部分并出现错误,因此它们不完整,作为学习语义分割的监督,其目的是准确地预测整个对象mask。 然而,我们发现它们通常是局部正确的,并提供证据来识别小图像区域内的语义相似度,这是AffinityNet的目标。 为了生成定位语义相似度的可靠标签,我们忽略了CAM上具有相对较低激活分数的区域,以便仅保留高置信对象和背景区域。 然后通过对置信区域上的一对相邻图像坐标进行采样来获得训练样本,并且如果其坐标属于相同类别则其二进制标签为1,否则为0。
各类弱监督
图像级标签作为弱监督
图像级类标签已被广泛用作语义分割的弱监督,因为它们要求最少或不需要人工干预进行标注。 早期的方法试图直接从图像级标签中训练分割模型[28,29],但是它们的性能并不令人满意,因为标签太粗糙而无法学习分割。 为了解决这个问题,一些先前的方法结合了由鉴别定位技术[27,40]给出的分割种子以及超像素 [11, 17, 30],分割提议 [30] 和视频中的动作 [11, 35] 等其他证据。它可用于估计物体形状,并通过现成的无监督技术获得。
我们基于AffinityNet的框架与上述方法相比具有明显的优势。 AffinityNet从数据中学习如何将定位激活传播到整个对象区域,而以前的方法无法获得这样的优势。 与我们的一样,一些方法可以提高分割质量,而无需现成的预处理。 Wei等人[37]建议通过顺序搜索新的和互补的对象区域逐步扩展分割结果。 另一方面,Kolesnikov和Lampert [14] 学习了一种分割模型来逼近应用于CAM给出的分割种子的密集条件随机场(dCRF)[15] 的输出。
学习像素级相似度
学习合成标签
我们的弱监督语义分割方法大致分为两部分:
CAM在我们的框架中发挥着重要作用。 与许多其他弱监督方法一样,它们被视为分割种子,它通常突出显示对象的局部显着部分,然后传播以覆盖整个对象区域。 此外,在我们的框架中,他们被用作训练AffinityNet的监督来源。
我们遵循[40]的方法来计算训练图像的CAM。 该体系结构是典型的分类网络,具有全局平均池化(GAP),后跟全连接层,并且通过具有图像级标签的分类标准进行训练。 给定训练的网络,由McMc表示的真实情况类c的CAM由下式计算:
img
为了使用图像级标签训练AffinityNet,我们利用训练图像的CAM作为不完整的监督来源。 尽管如图2所示,CAM通常是不准确的,但我们发现通过仔细操作它们,可以获得对语义相似度的可靠监督。
我们的基本思想是从CAM中识别物体和背景的高置信区域,并仅从这些区域中获取训练样本。 通过这样做,可以可靠地确定一对采样坐标之间的语义等价。 为了估计物体的高置信区域,我们首先通过减小等式(2)中的α来放大Mbg。使背景得分主导CAM中对象的无关紧要的激活得分。 在将dCRF应用于CAM进行细化之后,我们通过收集目标类别得分大于任何其他类别(包括放大背景)的坐标来确定每个对象类的可靠区域。 而且,在相反的设置中(即增加α以减弱Mbg),可以以相同的方式识别高置信的背景区域。 然后,图像中的剩余区域被视为中性。 该过程的结果如图4(a)所示。
图4. 生成语义相似标签的概念图。(a) 对象类和背景的高置信区域:桃色为人,绿色为植物,黑色为背景。中性区域采用白色进行颜色编码。(b) 在小半径内采样的坐标对用于训练AffinityNet。如果两个坐标来自同一个类,则为每个对分配标签1,否则标记为0。 当两个坐标中的至少一个属于中性区域时,在训练期间忽略该对。
注意,等式(10)中的损失是不可知类别的。因此,训练好的AffinityNet决定两个相邻坐标之间的类一致性,而不明确地知道它们的类。 这种类别不可知的方案允许AffinityNet学习可以在多个对象类和背景之间共享的更一般的表示,并且显着地扩大每个类的训练样本集。
经过训练的AffinityNet用于修改训练图像的CAM。 AffinityNet预测的局部语义相似度被转换为转移概率矩阵,这使得随机游走能够识别图像中的语义边界,并鼓励它在这些边界内扩散激活分数。 我们凭经验发现,使用语义转换矩阵的随机游走可以显着提高CAM的质量,从而使我们能够生成准确的分割标签。
对于输入图像,AffinityNet生成卷积特征图,并且根据等式(3)计算映射中的特征之间的语义相似度。 注意,如在AffinityNet的训练中,在半径γ的局部圆内的特征之间计算相似度。 计算出的相似度形成相似度矩阵W,其对角元素为1。随机游走的转移概率矩阵T从相似度矩阵导出如下:
然后,修改的训练图像的CAM用于生成图像的分割标签。 由于CAM的尺寸小于其输入图像,我们通过双线性插值将它们上采样到图像的分辨率,并使用dCRF对其进行细化。 然后简单地通过选择与修改的和上采样的CAM中的每个像素处的最大激活分数相关联的类标签来获得训练图像的分割标签。 请注意,因为我们为背景和对象类计算CAM,所以也可以选择背景类。
通过上述过程获得的分割标签用作监督以训练分割网络。 在我们的方法中可以使用任何完全监督的语义分割模型,因为我们提供训练图像的分割标签。
网络计算CAM
我们通过在骨干网络顶部按顺序添加以下三层来获得此模型:具有512个通道的3×3卷积层,用于更好地适应目标任务,用于特征映射聚合的全局平均池化层,以及全连接层用于分类。
AffinityNet
该网络被设计用于聚合骨干网络的多级特征映射,以便在计算相似度时利用在各种视野中获取的语义信息。 为此,选择从骨干网络的最后三个级别输出的特征映射。 在聚合之前,对于第一,第二和第三特征图,它们的信道维度分别减少到128,256和512,分别由单个1×1卷积层。 然后将特征映射连接成具有896个通道的单个特征映射。 我们最终在顶部添加了一个1×1卷积层和896个通道用于自适应。
分割模型
我们严格遵循[38]来构建我们的分割网络。 具体来说,我们在骨干网络的顶部放置了两个更复杂的卷积层。 它们具有相同的扩张率12,而第一个通道的数量为512,第二个通道的数量为21。 生成的网络在下一节中称为“Ours-ResNet38”。
数据集
我们框架中的所有DNN都在PASCAL VOC 2012分割基准上进行了训练和测试,以便与之前的方法进行公平比较。 按照惯例,我们通过采用[9]中提出的分割标注来扩大训练图像集。 因此,总共使用10,582个图像作为训练样本,并保留1,449个图像用于验证样本。
网络参数优化
我们DNN的骨干网络在ImageNet上进行了预训练[7]。 然后,Adam[13]在PASCAL VOC 2012上对整个网络参数进行了微调。 在训练所有三个DNN时,通常使用以下数据增强技术:水平翻转,随机裁剪和颜色抖动[16]。 此外,对于除AffinityNet之外的网络,我们在训练期间随机缩放输入图像,这对于在网络上施加比例不变性是有用的。
参数设置
公式(2)中的αα默认为16,并分别变为4和24以放大和减弱背景激活值。 我们设置等式(4)中的γ为5,等式(11)中的β为8。此外,在等式(12)中的tt固定为256。对于dCRF,我们使用原始代码中给出的默认参数。
我们的标签合成方法的性能在真实分割和生成的分割标签之间以mIoU测量,如表1所示。对于模块研究,我们的方法分为三个部分:CAM,RW(使用AffinityNet随机游走)和dCRF。为了证明所提出的方法的优势,我们还报告了超像素池化网络(SPN)[17]的得分,其将CAM与超像素结合作为用于生成具有图像级标签监督的分割标签的附加线索。如表1所示,即使我们的CAM在生成的分割标签的质量方面优于SPN,而不使用超像素等现成方法。我们相信这是因为各种数据增强技术和更强大的骨干网络以及带孔卷积层。此外,通过随机游走和学习的语义相似度,分割标注的质量得到显着提高,证明了AffinityNet的有效性。最后,dCRF进一步略微提高了标签质量,我们使用最后一个版本作为学习分割网络的监督。
表1. mIoU中合成分割标签的准确度,在PASCAL VOC 2012训练集上评估。SPN:超像素池化网络[17],RW:使用AffinityNet随机游走。
图5中显示了合成分割标签的例子,其中可以看到AffinityNet的随机游走有效地处理CAM中的错误和缺失区域。 为了说明AffinityNet在此过程中的作用,我们还通过检测特征图fafffaff上的边缘来可视化图像的预测语义相似度,并观察到AffinityNet具有检测语义边界的能力,尽管它是使用图像级标签进行训练的。 由于这样的边界惩罚语义上不同的对象之间的随机游走传播,所以合成的分割标签可以恢复准确的对象形状。
上图d中,黑色区域表示边界,因为附近类别不一致,白色表示内部,因为类别一致;
我们首先定量地将我们的方法与仅基于图像级类标签的先前方法进行比较。 PASCAL VOC 2012的结果总结在表2和表3中。请注意,我们还评估了使用我们的合成标签(称为“Ours-DeepLab”)进行训练的DeepLab [4],以便与其骨干为VGG16的其他模型进行公平比较[33] 。我们的两个模型在基准的验证集和测试集上的平均精度方面都优于当前的方法水平[37],而Ours-ResNet38略好于Ours-DeepLab,这得益于ResNet38更强大的表示。我们的模型也与表4中基于额外训练数据或更强监督的方法进行了比较。它们基本上优于基于相同监督水平的方法,但有额外的数据和标注,如MS-COCO中的分割标签[20],MSRA Saliency [21]和YouTube视频[31]中使用了不可知类别的边界框。他们还依赖于像线和边界框这样强有力的监督,与之前的方法竞争。令人惊讶的是,Ours-ResNet38甚至优于FCN [22],这是众所周知的关于全监督语义分割的早期工作。这些结果表明,我们的方法生成的分割标签足够强大,可以替代额外的数据或更强的监督。我们最终将我们的模型与全监督的版本DeepLab [4]和ResNet38 [38]进行比较,这是我们可以实现的上限。具体而言,Ours-DeepLab恢复了86%的界限,而Ours-ResNet38则达到了77%。
表2. 与仅基于图像级标签的弱监督方法相比,PASCAL VOC 2012验证集的性能。
表3. 与仅基于图像级标签的弱监督方法相比,PASCAL VOC 2012测试集的性能。
表4. PASCAL VOC 2012验证集和测试集的性能。监督类型(Sup.)表示:P-实例点,S-线,B-边界框,I-图像级标签和F-分割标签。
图6显示了Ours-ResNet38的定性结果,并将它们与CrawlSeg [11]的定性结果进行了比较,后者是使用图像级监督的当前最新方法。 我们的方法仅依赖于图像级标签监督,即使CrawlSeg利用额外的视频数据来合成分割标签,也可以产生更准确的结果。
图6. PASCAL VOC 2012验证集的定性结果。(a) 输入图像。(b) 真实分割。© CrawlSeg [11]获得的结果。(d) 我们的结果-ResNet38。 与CrawlSeg相比,CrawlSeg是基于图像级标签监督的当前最先进的模型,我们的方法更好地捕获更大的对象区域并且更不容易遗漏对象。 我们的结果的对象边界比CrawlSeg的对象边界更平滑,因为我们不将dCRF应用于最终结果。 在补充材料中可以找到更多结果。
为了减轻语义分割中缺少标注数据问题,我们提出了一种基于AffinityNet的新型框架,仅在给定图像级别标签的情况下生成训练图像的准确分割标签。 我们的方法的有效性已在PASCAL VOC 2012基准测试中得到证明,其中使用我们的方法生成的标签训练的DNN基本上优于先前依赖于相同监督水平的方法水平,并且与那些要求更强监督或额外数据的方法相比具有竞争力。