Semantic labelling and instance segmentation are two tasks that require particularly costly annotations. Starting from weak supervision in the form of bounding box detection annotations, we propose a new approach that does not require modification of the segmentation training procedure. We show that when carefully designing the input labels from given bounding boxes, even a single round of training is enough to improve over previously reported weakly supervised results. Overall, our weak supervision approach reaches ∼95% of the quality of the fully supervised model, both for semantic labelling and instance segmentation.
将bounding box以内的都标注为前景,以外的都标注为背景。
使用bounding box提供的先验信息训练convnet,再将convnet预测的结果作为下次迭代的输入,convnet预测得到的结果需要经过如下的去噪处理:
我们还考虑了第二个变体: B o x i Box^i Boxi,它不使用填充的矩形作为初始标签,而是填充20%的内区域,并将边框的剩余内区保留为忽略区域。
我们提出了一种GrabCut的修正版本:GrabCut+,使用HED boundaries 作为pairwise term代替传统的RGB。(他的意思是不是用HED得到的边缘图代替RGB作为GrabCut中GMM建模的训练集?)
我们考虑了其他GrabCut变体,如[7,40];然而,建议的GrabCut提供了更高质量的片段(见补充材料)。与Boxi类似,我们还考虑了GrabCut I变体,它将召回转换为更高的精度。对于每个带注释的框,我们生成多个(∼150)扰动GrabCut输出。如果70%的分割蒙版将像素标记为前景,则将像素设置为Box对象类。如果少于20%的段将像素标记为前景,则将像素设置为背景,否则将其标记为忽略。扰动输出是通过抖动盒坐标(±5%)以及GrabCut考虑的外部背景区域的大小(从10%到60%)产生的。GrabCut I的一个示例结果可以在图3g中看到。
在我们的最后一种方法中,我们试图通过使用segment proposal来更好地结合对象的形状先验。segment proposal技术的设计是为了生成一堆可能的对象分割结果,其中包含了尽可能多的“对象性”优先级(cue C3)。
使用MCG作为proposal的算法。作为最后阶段,MCG算法包括基于在Pascal VOC 2012数据集上训练的决策林的排序。我们不使用这个最后的排名阶段,而是使用所有(未排序)生成的分割结果。对于给定的bounding box标注,我们选取重叠度最高的proposal作为对应的分割结果。
使用MCG的结果来增强GrabCut+,标注框中的像素只有被MCG和GrabCut都标注为前景时才被取为前景。
在对前面章节的实验进行补充的基础上,我们还探讨了第二项任务:弱监督的实例分割。据我们所知,这是首次报道的关于这项任务的实验。随着对象检测的进展,需要提供比对象周围的简单边界框更丰富的输出。最近,[14,33,31]探索了训练凸集,以输出给定边界框内实例的前景和背景分段。这类网络使用区分实例的像素级注释进行培训。这些注释比语义标记更详细、更昂贵,因此人们对弱监督的培训很感兴趣。
如第3.2节所述,用于培训的部分是从单个对象包围框开始生成的。每个分割表示不同的对象实例,因此可以直接用于训练实例分段ConvNet。对于每个带注释的边界框,我们使用GrabCut+方法生成前景和背景分段(第3.2节),并训练ConvNet从图像和边界框信息到实例分割。
Experimental setup 我们选择了一个有目的简单实例分割pipline。我们使用Fast-RCNN[10]检测(post NMS)和它们的类得分,并对每个检测估计一个相关的前景分割。我们使用一些基线方法(例如GrabCut)来估计前景,或者使用对任务进行训练的凸网[33,6]来估计前景。
本文提出的一系列实验为如何仅从包围盒注解中训练像素标记凸网提供了新的见解。我们表明,当仔细使用可用的线索时,只使用矩形作为输入的递归训练是非常有效的( B o x i Box_i Boxi)。更重要的是,当使用基于bounding box的分割技术,在噪声训练段的accuracy和recall之间取得很好的平衡时,我们可以在一轮训练中达到最先进的性能,而不需要修改分割网络训练过程(M∩G+)。我们的结果改进了以前报道的语义标记任务,达到了∼95%的质量,同一网络的训练在地面真值分割注解(对同一数据)。通过使用额外的培训数据和COCO的边界框注释,我们能够匹配完整的监督结果。我们还报告了弱监督的实例分割的第一个结果,其中,我们也达到了95%精度的全监督训练。
我们目前的方法利用了现有的盒驱动分割技术,分别处理每个带注释的框。在今后的工作中,我们将探索协同思想(将批注集作为一个整体处理),并考虑更弱的监管形式。