目录
Learning to Segment everything
1 概述
2 分割一切
3 实验
4 大规模实例分割
实例分割(instance segmentation)是对每一个检测到的目标产生一个前景分割掩膜。目前,实例分割所能处理的类别只有100种左右,这只是实际视觉世界中的冰山一角。其主要原因是,先进的实例分割算法需要在强监督的条件下进行,而收集新的类别需要花费很多的功夫。相反地,对边框进行标注却并不需要花费很多的功夫。那么问题来了,我们是否可以不进行完整的实例分割标注,来进行最先进实例分割系统的训练呢?在本篇论文中,我们介绍了一种新的半监督实例分割任务,并且采用了一种新奇的迁移学习方法来解决这个问题。
我们半监督实例分割的描述如下:1)给出一个子数据集,其中即包含具有实例掩膜标注的样本,又包含仅有边框标注的样本。2)实例分割算法可以利用这些数据来分割任何类别的目标。由于训练集数据中既包含强标注的Masks,又包含弱标注的boxes,所以我们把这个任务称为半监督。
Visual Genome数据集中包含了很多类别的边框标记,COCO数据集中包含了很少量类别的掩膜标记。结合这两者,使用半监督vs弱监督进行训练,我们就可以构建一个更大规模的实例分割模型。这使得我们可以改造现有的最先进实例分割方法,来对成千上万种类别进行分割,而这种能力对现实世界中的应用来说是非常重要的。
我们基于Mask R-CNN提出了一种新奇的迁移学习来实现半监督实例分割。而Mask R-CNN把实例分割分为目标检测和掩膜预测两个子任务来处理,所以它刚好适合于实现我们的任务。这些子任务通过联合训练的heads网络来处理。这个想法背后的含义为:边框head的参数在经过训练之后,会对嵌入目标类别进行编码,然后对这些信息进行迁移,用于掩膜head的半监督学习。
我们通过设计一个权重转移函数来实现这个想法,函数的输入为边框检测参数,输出为某个种类的实例分割参数。这个权重函数可以使用掩膜标注进行端到端的训练。在推理的时候,权重函数预测每一个种类的实例分割参数,使得模型可以分割所有的目标类别,就算这些掩膜类别没有出现在训练过程中。
图1-1 分割结果示意图
我们的方法分为两个过程:1)我们使用COCO数据集来训练半监督实例分割模型。特别地,我们把整个COCO数据集分为掩膜标记子数据集和与之互补的边框标记数据集。由于COCO数据集仅包含80种分割好的目标类别,所以定量的评估是准确可信的。实验结果表明,我们对从来没有在Mask训练集中出现过的类别的分割Mask AP可以在原有基础上面提升40%。2)我们在VG(Visual Genome)数据集的3000个类别上面训练一个大规模的实例分割模型。VG数据集包含了大量物体类别的边框标注,但是大量的分割类别是存在交叉的,并且标注也并不详细,这使得精确率和召回率变得很难测量。但是,我们使用VG数据集为大规模的实例分割模型提供了定性的输出。实现结果如图1-1所示。
假设数据集C包含所有训练样本的掩膜标注,在此上进行实例分割模型的训练。假设C=A并B,式中A含有掩膜标注,B只有边框标注。我们把同时在强标记和弱标记样本上面进行训练成为并行训练。由于掩膜信息可以很容易地转化为边框信息,所以我们假设A中同样含有边框的标注。我们提出了分割方法MASK R-CNNX,其把边框检测所的类别信息迁移到了实例掩膜预测里面。
我们的方法是基于Mask R-CNN的,边框分支和掩膜分支的最后一层都包含了用于边框分类和掩膜预测的特定种类的参数。我们通过设计一个权重参数转移函数来从边框参数中学得掩膜参数,而不是把这两个分支分开单独训练,这个函数是和整个模型联合训练的。
图2-1 半监督方法下Mask R-CNN的细节描述
从图2-1可以看出来,我们使用标准的边框检测Loss函数在C=A并B的所有类别上训练了边框head网络,但是使用掩膜预测Loss函数只在A的类别上训练掩膜head网络和权重参数转移函数。给出了这些Loss函数之后就得到了两个截然不同的训练步骤,分别为阶段性训练和端到端训练。
在阶段性训练分为两个阶段,分别为检测训练阶段和分割训练阶段。首先使用C=A并B中的边框标注训练一个Faster R-CNN,然后固定卷积特征和边框来训练掩膜head网络。这样的话每一个类别c的权重参数会被视为固定的内嵌向量,在第二阶段的训练过程中不会更新。这种方法的优势在于我们只需要训练一次边框检测模型,然后就可以快速的进行权重转移函数的设计了。
我们把带有一个FCN掩膜预测head网络的Mask R-CNN作为基准网络。Mask R-CNN的掩膜head分为两种类型,分别为:1)FCN head,通过全卷积网络预测M*M的掩膜。2)MLP head,由多层感知机构成的全连接层,这和DeepMask非常的类似。在Mask R-CNN中,FCN head可以获得更高的AP,但是这两种方法可能是互补的。直观的理解就是,MLP可以更好地捕获目标的主旨,而FCN可以更好地捕获细节信息,比如说边沿信息。基于此,我们把基准的未知类FCN和转移函数与一个MLP掩膜预测器进行融合,进过实验可以得到,这个延伸可以改善基准网络和权重转移函数。
当融合K个类别的未知类和特定类的掩膜预测后,这两个得分会添加到最终的K*M*M维输出当中。最后K*M*M维掩膜分数会通过一个sigmoid单元输出为每一个类的掩膜可能性,并且尺寸变为实际边框的大小作为最终边框的实例掩膜。在训练过程当中,通过二值交叉熵Loss来产生K*M*M维掩膜可能性。
我们在COCO数据集上面评估了我们的方法,虽然只包含了80个类别,但是却有详尽的掩膜标注。我们使用AP(average precision)这个指标来严格评估模型。我们对这80种类别进行了两种不同类型的分割:1)把COCO中的80个类别分为20种包含于PASCAL VOC和60种没有包含于PASCAL VOC的,我们再把这个也称为voc和nonvoc。2)以随机的方式分配进行多次实验。
输出Mask的分辨率为28*28。我们分别用ResNet-50-FPN和ResNet-101-FPN作为Mask R-CNN的backbone,ResNet-50和ResNet-101模型是在ImageNet-1k图像分类数据集上面进行预训练的。超参数的设定为:minibatch=16*images*512RoIs-per-images,iterations=80K,weight decay=1e-4,momentum=0.9,initial learning rate=0.02,learning rate(60K-80K)=0.002,IoU threshold=0.5-0.95。
图3-1 Mask R-CNN的实验设置
正如上文所述,我们以随机的方式分配COCO数据集上的80个种类为A/B进行多次实验,其实验结果如图3-2所示。
图3-2 随机分配A/B比例实验结果
我们训练了一个大规模的MASK R-CNN,边框的标注来自于Visual Genome数据集,实例掩膜的标注来自于COCO数据集。Visual Genome数据集包含了108077张图片,超过7000种物体的边框标注,我们选出了3000种最常见的种类作为我们的C来进行实例分割,里面也包含了COCO数据集中的80种类别。把Visual Genome数据集中已经包含于COCO数据集的80种类别作为A,其余的2920种类别作为B,B中只包含边框的标记。
我们采用分阶段的策略来进行训练。首先使用Visual Genome中的3000种边框标注训练Faster R-CNN,使用ResNet-101-FPN作为backbone。在第二阶段,我们训练参数转移网络和MLP掩膜预测,配置为cls+box,2 layer,LeakeyReLU。掩膜head网络的预测使用从COCO数据集中分出来的80个种类。图4-1显示出来了指标结果。
图4-1 端到端训练的指标结果
从最后的实验结果可以看出来:1)可以学习去检测一些抽象的概念,比如阴影和小道。2)除了来自于VG数据集的3000类别外,一些概念更加的事物化,比如当树和森林很像的时候就不会进行分割。3)对物体的整体和部分的分割操作更加合理。效果如图4-2所示。
图4-2 在VG数据集上的分割效果