三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比

0.摘要

        尽管基于图像级弱监督的语义分割(WSSS)在Class Activation Maps(CAMs)作为基石的情况下取得了巨大的进展,但分类和分割之间的大量监督差距仍然阻碍了模型生成更完整和精确的伪掩码用于分割。在本研究中,我们提出了一种弱监督的像素到原型对比方法,可以提供像素级的监督信号来缩小这一差距。我们的方法受到两个直观先验的指导,通过在不同视图和单个图像视图内执行,旨在施加跨视图特征语义一致性正则化,并促进特征空间内(类间)紧凑性(分散性)。我们的方法可以无缝地集成到现有的WSSS模型中,无需对基础网络进行任何修改,并且不会增加任何额外的推理负担。大量实验证明,我们的方法始终显著改善了两个强基线,证明了其有效性。具体而言,在SEAM基础上,我们将PASCAL VOC 2012的初始种子mIoU从55.4%提高到61.5%。此外,借助我们的方法,我们将EPS的分割mIoU从70.8%提高到73.6%,达到了新的最先进水平。

1.引言

        受益于大规模的像素级注释,语义分割[38]在近年来取得了显著的进展。然而,获取如此精确的像素级注释是费时费力的。为了减轻这种负担,许多工作借助弱监督语义分割(WSSS),旨在从弱标签(如图像标签[2,21,22,27,32,53,62]、边界框[39]、点[4]和涂鸦[47])中学习分割模型。其中,仅需要图像标签的图像级WSSS在计算机视觉社区中得到了广泛研究。

        图像级WSSS是一项具有挑战性的任务,因为图像标签仅指示对象类别的存在,并不提供对语义分割至关重要的准确对象位置的信息。为了解决这个问题,广泛采用了Class Activation Maps (CAMs)[67],它们可以确定图像的哪些部分对分类起到最大的贡献,从而粗略估计目标对象的区域。这些区域,也被称为种子,用于为训练分割模型生成伪地面真实值。然而,CAMs只覆盖对象的部分区域,导致监督不准确且不完整。这个问题源于分类和分割任务之间的监督差距。具体而言,受图像标签监督的分类网络倾向于将注意力集中在对象的最具区分性的区域,以实现更好的图像标签分类性能,而分割任务需要像素级的监督来为整个图像中的每个像素分配一个类别。缩小监督差距对于WSSS至关重要,这激励我们探索与图像标签互补的像素级监督信号。

        受到引人注目的对比自监督算法[20]的启发,我们针对WSSS开发了一种新颖的弱监督像素到原型对比学习方法,可以提供像素级监督,改善CAMs的质量和分割性能。我们的方法基于两个隐式但有价值的先验:

        (i)特征在图像的不同视图之间应该保持语义一致性;

        (ii)具有相同标签的像素在特征空间中应该具有相似的表示,反之亦然

        在这些先验指导下,像素到原型对比分别在不同视图和每个图像的单个视图中执行,引导我们进行跨视图对比和视图内对比。

        我们的方法通过基于原型的度量学习方法,在一个统一的像素到原型对比学习公式的基础上进行实例化,来塑造像素嵌入空间。核心思想是将像素拉到它们的正原型附近,并将它们推离它们的负原型,以学习具有区分性的密集视觉表示。在我们的方法中,原型被定义为一个类别的代表性嵌入。它是通过CAMs中具有顶部激活的像素级特征嵌入估计得到的。在学习过程中,每个原型的极性由当前小批量中与之关联的每个像素的伪标签确定。然而,在从CAMs生成伪掩码时,出现了一个棘手的问题:过度激活和欠激活的区域可能会破坏对比学习,特别是视图内对比。为了缓解这个问题,我们采取了两个策略:半硬原型挖掘和硬像素采样,以减少不准确的对比,并更好地利用困难样本。

        最近,王等人[53]提出了SEAM来缓解监督差距问题,通过对CAMs施加等变性约束,强制CAMs具有与输入图像相同的空间变换。我们的方法有两个主要区别。首先,我们的方法对像素级特征进行正则化,强制像素嵌入与正原型相似而与负原型不相似,而SEAM计算同一图像的不同视图的CAMs之间的一致性损失。此外,我们的工作同时考虑了跨视图和视图内的正则化,而SEAM只集成了视图间的等变正则化。

        我们的方法可以无缝地集成到现有的WSSS模型中,无需对基础网络进行任何更改。它只需要在训练过程中添加额外的公共投影器,并且不会增加额外的推理负担。实验证明,我们的方法大幅改进了最先进的模型。如图1所示,我们的方法在初始种子质量和分割性能方面一致地改进了两个强基线模型。我们还通过广泛的消融研究验证了我们的方法,在其中发现每个组件都对性能改进做出了重要贡献。

总结起来,我们的主要贡献如下:

  • 我们提出了一种弱监督的像素到原型对比学习方法,用于WSSS。在WSSS的设置下,它使像素能够从每个类别的可靠原型获得监督,从而大大缩小了分类和分割之间的差距。
  • 我们提出在图像的单个视图内部和不同视图之间执行像素到原型对比学习,这显著提高了CAMs的质量和随后的分割掩码。
  • 我们的方法取得了令人印象深刻的结果,在大幅超越基线模型的同时,在标准基准测试中实现了最佳性能。

三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比_第1张图片

 图1.初始种子质量与分割性能。我们的方法在推理过程中不对基础网络进行任何更改,但能够在性能上持续改进,超越SEAM [53]和EPS [32]等最先进方法。

2.相关工作

基于图像级标签的弱监督语义分割(WSSS)已经在首先生成伪掩码,然后训练语义分割网络的流程下取得了重要进展。最近的WSSS方法依赖于CAMs[67]来通过发现对分类有信息量的图像像素来指示目标位置。然而,CAMs只能突出显示对象最具有区分性的区域,因此提供的伪掩码不完整。为解决这个问题,已经做出了大量努力。它们通过采用区域擦除[18,54]、区域监督[25]和区域生长[19,43]等策略,强制网络更多地关注非区分性的对象区域来完善CAMs。其他一些方法通过迭代解决方案来优化CAMs。例如,PSA [2]和IRN [1]通过随机游走将局部响应传播到同一语义实体的附近区域。

        上述问题的根本原因是分类和分割之间的监督差距。鉴于此,许多研究人员探索使用额外的监督,例如多层特征图[26]、累积特征图[21]、跨图像语义[15,45]、子类别[5]、显著性图[32,60]和CAM一致性约束[53],以缩小这一差距。这些方法简单但表现令人鼓舞。

对比学习(Contrastive Learning,CL)[20]在无标签的情况下学习具有区分性表示方面展现出了巨大的潜力。CL的核心思想是使用InfoNCE损失[40]来衡量模型在从一组无关的负样本中对特征表示进行分类的能力。例如,[58]使用一个内存库学习实例级别的特征表示,试图将实例嵌入尽可能散布在单位球上。MoCo [17]将编码特征与动态字典匹配,该字典通过动量更新策略不断演化。SimCLR [9]提出了一个简单的框架,通过从大型小批量中生成负样本。

        此外,Khosla等人[24]将自监督对比方法扩展到全监督设置。他们提出了一种监督对比损失,有效地利用标签信息,实现了特征空间内类间紧凑性和类间离散性。Wang等人[52]提出了密集对比学习,该方法在像素级别上工作,在下游密集预测任务上取得了比MoCo更优越的性能。此外,Li等人[33]提出了利用聚类促进对比学习的方法。他们提出了ProtoNCE损失,吸收了对比学习和基于聚类的无监督表示方法[48]的优势,在几个基准测试上取得了显著的改进。

在分割中的对比学习.最近,许多研究利用对比学习来推动图像分割。这些工作利用像素级或补丁级对比学习来改善在完全监督[50]、半监督[3]、弱监督[22]和无监督[49]设置下的语义分割Caron等人[22]通过像素到分割的对比来改进弱监督语义分割,其中他们假设分割已经事先知道。在他们的工作中,他们使用SEAM生成CAMs。相反,我们在现有的弱监督语义分割方法的基础上进行改进,直接为分割产生更好质量的种子。最近,一些研究将对比学习应用于领域自适应[35]和少样本[36]语义分割,也取得了令人印象深刻的结果。

一致性正则化是半监督语义分割领域的热门话题。其核心思想是在各种扰动(如图像增强[23]和网络扰动[10,64])之间强制实施语义或分布一致性。例如,Ke等人[23]强制实施交叉概率一致性;Chen等人[10]对两个网络在不同参数下对同一输入图像进行一致性正则化。这类方法的共同目标是通过施加一致性正则化构建适当的监督,从而极大地提高半监督分割的性能。然而,在弱监督分割的情况下,这个思想很少被研究。我们提出的跨视图像素到原型对比可以被视为在每个图像的不同视图之间施加特征语义一致性正则化。

三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比_第2张图片

图2.我们提出的用于弱监督语义分割的像素到原型对比的整体流程。A(·)是用于增强训练样本的空间变换。fCAM、fproj是由1×1卷积层后跟ReLU实现的。fest表示原型估计过程,pfS;T g表示生成的原型。L2表示每个像素的L2归一化。argmax函数在通道维度上对每个像素进行计算,并返回最大值的索引。

3.方法论

        我们的方法可以解释为一个适应于任何现有的弱监督语义分割框架的正则化项,而不需要改变推断过程。训练这样一个模型的总损失函数是跨视图对比损失Lcross和内视图对比损失Lintra的线性组合:

 其中α、β是两个正常数。在本节中,我们首先回顾如何生成CAMs,然后介绍我们提出的像素到原型对比以及如何估计原型,最后详细说明如何在不同视图之间应用对比学习以及在每个图像的单个视图内部应用对比学习。我们方法的框架如图2所示。按照常规做法,我们首先使用我们提出的方法生成基于像素的伪掩码,然后使用它们来训练DeepLab [6,8]分割网络。

3.1.预备的

        我们首先简要回顾一下如何通过可视化技术生成CAMs。给定一个CNN(例如,ResNet38 [57]),我们用f表示最后的卷积特征图,其维度为RD×HW,其中HW是空间尺寸,D是通道维度。接下来,应用全局平均池化(GAP)操作来聚合特征图。然后,应用具有参数w的全连接层来获取类别分数。这里,C是类别的数量。形式上,类别c的分数可以表示为:三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比_第3张图片

 值得注意的是,一个在理论上等价且更方便的计算CAM的方法是直接选择最后一个卷积层的特征图 [66]。给定特征图f,我们可以在f的顶部添加一个额外的卷积层,该卷积层由大小为1×1、步长为1的C个卷积核组成,以获得f0 2 RC×HW。然后,通过对f0应用GAP来计算类别c的分数。经过ReLU函数处理后的f0被直接用作CAM。在本文中,我们遵循这种方式计算CAM。

3.2.像素到原型对比

        给定一张图像的CAM,我们使用像素级的argmax函数生成伪掩码y,即y = argmax(m),确定每个像素的类别。对于每个类别,存在一个代表性的嵌入,即原型,用P = fpcgC c = 1表示。我们的目标是在投影特征空间中通过对比学习学习每个像素的判别性特征嵌入。这个想法如图3所示。我们首先通过一个投影器,使用一个1×1的卷积层后跟ReLU,得到像素级的投影特征vi 2 R128。然后,给定vi和P,像素到原型的对比F(·)具有以下公式:三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比_第4张图片

 其中yi是像素i的伪标签,确定了正样本原型pyi。τ是温度参数,按照常见做法设置为0.1。

三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比_第5张图片图3.在投影特征空间中像素到原型对比的示意图。相同颜色的像素嵌入(圆圈)和原型(方块)属于相同的类别。

3.3.原型估计

        我们进一步描述了如何生成原型。一个可能的解决方案是通过聚类来挖掘像素级的语义结构,就像无监督语义分割中所做的那样[11]。然而,在弱监督设置下,这种方法无法充分利用图像的标签信息,并且通常需要过度聚类以获得更好的性能[5,48]。得到的聚类通常无法很好地匹配真实的类别。

        在这项工作中,我们将像素级的CAM值视为置信度,并提出从具有最高置信度的像素级特征嵌入中估计原型。具体而言,对于所有分配给类别c的像素,我们经验性地选择具有前K个置信度的像素来估计原型。原型pc被计算为投影像素级嵌入的加权平均值:

三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比_第6张图片

其中,Ωc是类别c的前K个像素的集合,每个像素i具有CAM值mc;i。对每个原型进行了L2归一化。这里,K是一个超参数,较小的K意味着计算原型的置信度更高。此外,为了捕捉整个数据集的全局上下文,我们在训练批次中计算原型,即选择整个训练批次中具有最高CAM值的像素。 

3.4.跨视图对比

        根据公式(4)中的像素到原型对比损失的形式化,我们详细描述了如何在跨视图语义一致性的指导下应用交叉视图对比。具体而言,给定一张图像作为源视图S,我们通过空间变换A(·)生成目标视图T,如图2所示。然后,使用预训练的CNN骨干网络对这两个视图进行编码,进一步处理得到两个CAM。我们将相同的变换A(·)应用于源视图的特征图和CAM,与[53]的目的相同。

跨原型对比。考虑到两个视图之间应该存在语义一致性,一个视图的原型可以作为另一个视图的监督信号,反之亦然。确切地说,给定一个像素i及其伪标签yi ∈ [1,2,...,C]和投影特征嵌入vi,从另一个视图中借用的原型P0 = {p0c}Cc=1被用来对当前视图施加正则化。根据公式(4)中像素到原型对比的定义,跨原型对比损失通过以下方式计算:

 其中,I表示整个图像,||·||表示基数。

跨CAM对比。此外,来自一个视图的CAM也可以用来对另一个视图进行一致性正则化。CAM确定了视图的伪掩码。因此,对于一个具有自己视图中的原型P的像素i,我们利用另一个视图中的伪标签y0i来确定正原型和负原型。类似地,跨CAM对比损失可以写成:

值得注意的是,跨视图对比是对称的,因为源视图和目标视图都可以作为计算Lcp和Lcc的当前视图。最终,两个视图的相应Lcp和Lcc被相加作为总的跨视图对比损失Lcross。为了简化,我们只给出了一个视图的公式如下:

3.5.内视图对比

视图内对比。根据视图内类间紧凑性和类间离散性的第二个假设,我们进一步提出了视图内对比,该对比在每个图像的单个视图内进行。与跨视图对比不同,对于一个具有伪标签yi的像素i,视图内对比使用当前视图的原型P来进行像素到原型的对比学习:三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比_第7张图片

 视图内对比在两个视图上进行,为简化起见,我们没有列出公式(9)中的对称形式。然而,我们在实验中发现,简单地引入Lintra可能会导致性能下降。原因是在弱监督设置下,没有精确的像素级注释,分配给像素i的伪标签yi可能不准确,从而导致对比不准确。受对比学习中难例挖掘策略的启发,我们通过引入半硬原型挖掘来缓解这个问题。此外,我们还采用了一种硬像素采样策略,以便更多地关注分割中难以处理的像素样本。

半硬原型挖掘。对于像素i,分配的标签yi确定了正原型pyi和负原型PN = Pnpyi。受[50]的启发,我们不直接使用PN,而是采用半硬原型挖掘:对于每个像素,我们首先收集前60%最难的负原型,从中选择50%作为负样本来计算视图内对比损失。在这里,一个待解决的问题是如何定义“更难”的原型。根据[50],对于像素i,我们认为除了pyi之外的原型与像素特征嵌入vi的点积越接近1,越难,即与像素相似的原型。

硬像素采样。我们还引入了硬像素采样来更好地利用难以处理的像素。特别地,我们不是使用属于一个原型pc的所有像素来计算视图内对比损失,而是采用了每个类别的像素采样策略:对于每个类别,随机选择一半的像素,另一半选择难例像素。与[50]不同的是,在这部分中,我们在训练过程中没有使用真实标签来定义“更难”的像素。对于一个原型pc,我们认为与pc的点积更接近-1的像素更难,即与原型不相似的像素。定义“更难”的像素与“更难”的原型完全相反,因为远离相应原型的像素需要更多的关注,以便将其拉近原型,以提高类内紧凑性。

        我们通过实验证明,使用这两种策略可以减轻不正确对比的影响,并更好地利用难例,从而进一步提高性能。

4.实验

4.1.数据集和基本线

数据集。我们在PASCAL VOC 2012分割数据集[12]上评估我们提出的方法,这是WSSS的标准基准。该数据集包含21个类别,包括一个背景,分别有1,464、1,449和1,456幅图像用于训练、验证和测试集。按照语义分割的常见做法,我们使用包含10,582幅图像的增强训练集[16]进行训练。我们报告评估的平均交并比(mIoU),并从官方评估服务器获得在VOC测试集上的mIoU。

基准模型。我们选择了两个强大的模型SEAM [53]和EPS [32]作为我们的基准。SEAM提出了一种CAM等变正则化方法来缩小监督差距。EPS利用显著性图作为额外的监督信息。它们在WSSS方面取得了最先进的性能。我们在这些模型的基础上构建,以评估我们提出的方法的有效性。

4.2.实现细节

        在SEAM和EPS的基础上,我们采用ResNet38作为主干网络,输出步幅为8。图像先随机按最长边缩放到[448, 768]的范围,然后裁剪成448×448的尺寸作为网络的输入尺寸,参考了[53]的方法。我们使用重新缩放变换,将源图像调整到128×128的尺寸,保持输出步幅的倍数。这与SEAM稍有不同,但重新缩放的程度几乎相同。CNN主干网络和投影器之间共享权重。用于对比损失的投影特征的维度为128。当将我们提出的对比正则化Lcontrast应用于SEAM和EPS时,我们将α设为0.1,将β设为0.1,以保持与分类损失的平衡。我们遵循SEAM和EPS中的训练和推理过程,包括训练时的迭代次数、学习率、学习率衰减策略、权重衰减率和优化器。

        在生成伪掩码之后,我们训练了三个语义分割网络,以与基准模型进行公平比较。具体来说,我们使用ResNet38训练了DeepLab-LargeFOV模型与SEAM进行比较;我们使用ResNet101分别训练了DeepLab-LargeFOV和DeepLab-ASPP模型与EPS进行比较。在推理阶段,我们采用了多尺度和翻转操作,与之前的工作相同。标准的密集CRF用作后处理过程,以优化最终的分割掩码。

表1.在PASCAL VOC 2012训练集上,初始种子(Seed)、经CRF优化的种子(+CRF)以及经PSA [2]精炼的伪掩码(Mask)的评估结果(mIoU(%))。三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比_第8张图片

表2.在PASCAL VOC 2012训练集上,初始种子(Seed)、经CRF优化的种子(+CRF)以及经IRN [1]精炼的伪掩码(Mask)的评估结果(mIoU(%))。三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比_第9张图片

4.3.种子和伪掩码评估

        为了验证我们方法的有效性,我们在VOC上报告了初始种子和伪掩码的定量质量。在SEAM的基础上,种子是通过直接应用一系列阈值来分离CAM中的前景和背景而获得的。结果如表1所示。从表中可以看出,我们在初始种子和种子+CRF上分别提高了SEAM的6.0%和7.2%的mIoU,表现出了出色的性能。图4表明,我们方法生成的CAM不仅完全覆盖了目标对象,而且显示了准确的边界。与基准方法相比,我们生成的CAM更准确地匹配了地面实况分割掩码。此外,与最近的建立在SEAM之上的方法CONTA [62]、CPN [63]和CDA [44]相比,我们的方法在很大程度上超越了它们。当将我们的方法应用于EPS时,也观察到了显著的改进。具体而言,我们的方法在种子+CRF上实现了73.3%的mIoU,达到了最先进的性能。

        WSSS中的典型流程是通过区域生长和随机游走策略对初始种子进行精炼。大多数方法使用PSA [2]或IRN [1]对初始种子进行精炼。因此,我们还比较了我们方法和其他最近技术所得到的精炼伪掩码的质量。表1的第5列显示了经PSA精炼的伪掩码的mIoU性能。可以观察到我们的方法在很大程度上超过了现有的方法。需要注意的是,我们方法生成的EPS种子质量较高,因此我们不再使用PSA进一步精炼它。相反,我们直接使用种子+CRF作为伪掩码。表2比较了我们方法(使用SEAM)和其他使用IRN精炼的方法之间的性能。我们的方法在初始种子上的性能比最佳性能对应方法AdvCAM [31]有显著提升,超过了5.9%的mIoU。如表所示,AdvCAM的伪掩码性能提升主要来自IRN的精炼过程,而我们的方法更依赖于我们方法生成的高质量初始种子。尽管如此,在IRN精炼设置下,我们的方法实现了最先进的性能。三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比_第10张图片 

图4. CAM的可视化。(a)图像。(b)地面实况掩码。(c)由SEAM生成的CAM。(d)由我们的方法生成的CAM。我们的方法在准确性和完整性方面比SEAM生成了更好的CAM。

4.4.分割性能

        通常,生成的伪掩码被用来训练一个全监督的语义分割网络。为了进行公正的比较,我们在表3和表4中分别报告了我们的方法和现有方法的DeepLab LargeFOV和DeepLab-ASPP分割性能。SEAM使用ResNet38作为后端训练了一个DeepLab-LargeFOV网络,在PASCAL VOC验证集和测试集上分别达到了64.5%和64.7%的mIoU。在相同的设置下,只是加入了我们的方法,我们在验证集和测试集上将分割mIoU提高了3.2%和1.7%,显示出了显著的改进。此外,我们的方法在配备SEAM的情况下甚至超过了许多具有更强大后端的模型。配备DeepLab-LargeFOV和ResNet101,我们的方法在PASCAL VOC验证集和测试集上实现了72.3%和73.5%的mIoU。

        此外,我们使用我们生成的伪掩码训练了一个DeepLab-ASPP网络。如表4所示,我们的方法优于所有现有方法,在PASCAL VOC 2012基准测试上实现了新的最先进性能。我们在图5中展示了一些分割结果,从中我们可以发现我们的方法对于简单和具有挑战性的场景的图像都能很好地工作。

表3. 在Pascal VOC验证集和测试集上使用DeepLab-LargeFOV进行的分割性能(mIoU(%))。最佳结果以粗体标记,对基准模型的改进以红色标记。S表示使用显著性图的方法。三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比_第11张图片

表4. 在Pascal VOC验证集和测试集上使用DeepLab-ASPP进行的分割性能(mIoU(%))。最佳结果以粗体标记,对基准模型的改进以红色标记。S表示使用显著性图的方法。三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比_第12张图片

三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比_第13张图片

图5. PASCAL VOC 2012验证集上的定性分割结果。(a)图像。(b)真实标签掩码。(c)由DeepLab-ASPP(我们的方法配备EPS)预测的分割掩码。

表5. 我们提出的方法的剖析性能(mIoU(%))。三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比_第14张图片

4.5.消融研究

        为了分析我们提出的方法中的每个组件如何有助于改进弱监督语义分割(WSSS),我们在本节中进行了大量的剖析研究。在这里,所有实验都是在PASCAL VOC 2012数据集上使用SEAM完成的。

各组件的有效性。首先,我们展示了每个组件的有效性。结果如表5所示。从表中可以看出,通过两个交叉视图语义一致性正则化项,即交叉原型对比和交叉CAM对比,我们将SEAM在训练集上的mIoU从55.41%提高到60.35%,在验证集上从52.54%提高到57.35%。此外,应用内视图像素到原型对比后,我们观察到训练集和验证集上的性能略微下降。为了缓解这个问题,我们采用了两种样本挖掘策略,通过这些策略,我们将mIoU提高了1.74%和1.44%。最后,通过应用所有这些组件,我们将SEAM在训练集和验证集上的mIoU分别提高了6.13%和5.87%,显示出显著的改进。

K的选择。我们凭经验在每个小批量中选择具有最高CAM值的K个像素嵌入来评估原型。较小的K表示使用更自信的像素进行估计,而较大的K可能会引入其他类别的错误像素。我们进行了实验以分析K如何影响初始种子的性能。如表6所示,我们测试了一系列的K值。结果显示我们提出的方法对K的选择具有鲁棒性。最终,我们选择K = 32,获得了最佳性能。

空间变换。与SEAM类似,我们方法中的变换可以是任何空间变换。在我们的实现中,我们将尺寸为448×448的源图像重新缩放为128×128,以获得目标视图,以确保目标视图的输入尺寸是输出步幅的倍数。这个设置与SEAM略有不同,但几乎相同。与SEAM类似,我们也采用了三种变换来评估我们的方法:在[-20;20]度之间进行随机旋转,平移16个像素和水平翻转。结果如表7所示。可以看出,简单地结合不同的变换并不是非常有效,这与SEAM的观察结果相似。

表6. K对我们方法中原型估计的影响。结果(mIoU(%))报告在PASCAL VOC 2012训练集上。K = 0表示没有对比度的SEAM基线。

表7. 对更多空间变换的消融实验结果(mIoU(%))报告在PASCAL VOC 2012训练集上。三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比_第15张图片

5.总结

        在本文中,我们提出了弱监督像素到原型对比的方法,该方法提供像素级的监督信号,以缩小监督差距并改进图像级弱监督语义分割。像素到原型对比在图像的交叉视图和内部视图上进行,通过施加交叉视图特征语义一致性正则化和促进特征空间内(类间)紧密性(离散性),来改善图像级弱监督语义分割。大量实验证实了我们方法的优越性。在未来,我们将探索更多的原型估计方式和我们方法的更多应用场景,例如全监督和半监督分割。

你可能感兴趣的:(原型模式,transformer,深度学习,人工智能,机器学习,神经网络)