鉴于部件分割中训练网络详细标注的开销巨大瓶颈问题,论文提出一个可利用诸如图像背景Mask、关键点位置信息等易获得的粗粒度标签信息的框架,借此优化部件分割模型。框架面临的第一个挑战是粗粒度标记来自不同的任务并且具有不同的标记类型,很难直接映射到部首标记。为此,我们提出联合训练部首分割模型和粗粒度标记类型,深度学习他们之间的依赖关系,从而可以利用现有的粗粒度信息。为了评估方法的优劣,我们在加州理工大学UCSD鸟类和OID飞机数据集上开发了一个基准。实验证明我们的方法优于基于多任务学习、半监督学习和竞争性方法的基线,这些方法依赖于手动设计的利用稀疏监督的损失函数。
用于标记部件的精确模型有许多应用。它们可以帮助完成精细的识别任务,如估计动物的形状和大小、物种识别,并支持图像编辑和动画等图形应用。一个显著的瓶颈是收集可用于监督网络训练的标注信息成本巨大。然而,许多情况下数据集得到替代标签,例如对象边界框、图形背景遮罩或关键点相对容易,这些替代标签可以考虑作为监督的来源。但这些标签的细节和结构往往不同,例如,边界框和遮罩比部件标签粗糙,而关键点则过于稀疏。因此,它们不能轻易地“翻译”成零件标签,用以直接监督学习。
论文提出一个可利用数据集自带的诸如图像背景Mask、关键点位置信息等粗粒度标签信息来进行训练部首分割的框架模型。框架基本原理如图1所示。
将部件标签视为隐变量,在贝叶斯设置中联合学习部件分割模型和标签样式之间的未知依赖关系(详见3部分)。通过深度神经网络来建模粗标记和部件分割之间的关系,这样粗略标签就可以进行监督训练神经网络。一个技术挑战是,贝叶斯推理需要对高维潜在分布进行抽样,这通常是难以解决的。我们通过做出某些条件独立性假设来解决这个问题,并开发了一个用于学习的摊销推理程序。我们的方法允许使用现成的图像分割网络和标准的反向传播机器进行训练。
总结论文贡献包括:1)一个使用现有数据集的各种粗监督标记学习部件分割模型的框架;2) 一种有效的摊销推断方式,比主要的粗监督方法(例如PointSup[4])慢大约3倍,并且更准确;3) 从CUB和OID飞机数据集上的几个标记示例评估零件分割的两个基准;4)对各种设计选择进行系统评估,包括初始化对迁移学习的作用,以及各种形式的粗糙标签的相对好处。
以前的工作使用分类标签、边界框或图像中稀疏位置(如点或线)的监督。
Zhou等人[33]使用图像级的类别标注监督信息,通过探索类别响应峰值使分类网络能够很好地提取实例分割mask,文[1, 34]使用以前的图像分类模型生成伪ground truth 标签。Khoreva等人[15]将边界框用作弱监督。他们在给定的边界框内使用经典方法(如GrabCut[22])生成伪ground truth,并使用它来训练分割模型。Hsu等人[13]先使用边界框紧度,然后训练一个Mask-RCNN[10],使用紧密边界框中的水平和垂直贴片作为正信号,外部贴片作为负信号。Box-Inst[25]使用投影损失,强制边界框内的水平线和垂直线预测至少一个前景像素,以及亲和力损失,强制具有相似颜色的像素具有相同的标签。Laradji等人[17]介绍了一种基于提议的实例分割方法,该方法使用每个实例一个点作为监督。Cheng等人[4]使用每个实例随机抽样的多个点以及边界框作为监督来训练Mask-RCNN模型。ScribbleSup[18]使用一个图形模型,将信息从scribbles(涂鸦)传播到未标记的像素,以学习网络参数。另一个工作流程[3,35]同时训练两个模型,并从一个模型到另一个模型进行交叉监督。Naha等人[19]使用关键点指导来预测未知类别的部件分割标签,但在评估期间需要关键点输入。
所有这些方法都设计了特定于一种监督的算法,标注样式与所需的部件标签有清晰的映射。比较而言,我们的方法处理各种标签样式,并有机会使用现有数据集来学习部件分割标签。
以前的一些工作使用自我监督来进行学习分割。
SCOPS[14]使用几何集中(同一对象部分的区域在空间上集中)、等变(强制部件分割与几何变换对齐)和语义一致性(在不同的实例上)。Wang等人[30]还使用等变约束来细化类激活映射,从而形成最终的分割映射。另一种方法[20]使用像素级对比学习来学习下游任务(如分割)的特征表示。Yang等人[32]使用分层GAN为图像生成背景层和前景层,鉴别器在叠加图像上预测。PiCIE[5]对同一图像的不同视图强制执行光度变换不变性和几何变换等变性。
这些方法可用于初始化网络,以提高小样本学习的性能,并且是对我们方法的补充。例如,本文比较了自监督学习相对于随机初始化网络和ImageNet预训练网络的优势。(没太明白,应该是在这两个方法中借鉴了上面的方法)。
通过跨任务共享模型的部分内容,从不同的监督来源中获益。
对于图像分割,先前的工作[6]提出了多任务级联网络,其中三个网络分别预测实例、掩码和分类对象。Heuer等人[12]将目标检测、语义分割和人体姿势估计等任务结合起来,但在分割方面没有比单一任务网络更好的表现——我们在实验中也观察到了这一趋势。Standley等人[24]表明,在多任务设置中组合一些任务会降低性能,而在其他情况下,性能会得到提升。为了设计一个能够处理不同任务的多任务网络,一些方法[8,9]将任务分组,使它们能够很好地一起执行。其他工作,如[16,26]使用关键点和边界框信息来预测实例分割,但使用多阶段框架。Mask RCNN[10]将一个Mask segmentation head添加到Faster-RCNN[21]中,以预测边界框和实例分割。
与一般的多任务方法不同,我们的方法利用分层标签结构来指导学习,并始终优于它们。
对于图像x表示y∈ S是部件分割标签,即每个部件的像素级标签,y1∈ S1,y2∈ S2,yn∈ Sn表示与各种标签样式相对应的粗略标签例如,y1可能表示一组关键点的坐标,y2可能表示figure-ground mask。如果Sa可以从Sb得到或推导出,我们称标签Sa比Sb粗糙。例如,图形背景遮罩可以从对象的部件标签导出,或者边界框可以从图形背景遮罩导出。我们的目标是:给定一小组带有部件标签的图像集合y∈ S、 还有一大组带有粗糙标签yk的图像∈ Sk,学习得到一个部件分割模型p(y|x)。
所有粗略标签都可以从部件分割标签中导出的假设导致图像和标签有以下联合概率分布(如图1):
假设似乎是强大的,但我们发现它就是如此(所有粗略标签都可以从部件分割标签中导出,就是我们认为的那样)。例如,给定部件分割标签,一个卷积网络可以准确地预测关键点的位置达到精度>92 PCK(Percentage of Correct Keypoints定义为正确估计出关键点的比例),这与给定图像的关键点的预测精度一样好。不管怎样,的形式仍然很复杂,因为它涉及到对各个部分的范围和位置的推理。分布情况也可能是未知的,尤其是现有数据集中一组不同的标签和标注指南相结合时。例如,用于关键点标注的部件名称和用于分割任务的部件名称之间可能没有直接对应关系。相比之下,对于给定部件标签的地物背景遮罩或边界框,该形式简单且具有确定性。
假设图像x包含粗略的标签。我们将估计参数θ使得数据的对数似然最大化:
给定上的隐变量y分布q(y):
EM算法在以下两种情况下交替使用:
E步骤:在给定参数的情况下,最大化y上的F(q,θ) wrt 分布?:
M step:给定分布q(y),最大化F(q,θ) wrt参数:
请注意,在上面我们推导了单个示例 X 的EM算法,但总体方法需要估计每个训练示例的隐变量的分布以及所有训练示例的参数。然而,在此处高维分布上为每个训练样本X优化通常是困难的。在“hard EM”中,分布被后验分布模式所取代,但当概率用深度网络表示时,估计这一点也可能具有挑战性。在下一节中,我们将介绍一个摊销推断过程,在该过程中,我们使用一个以所有观测变量为条件的独立网络来估计。