Semi-Supervised Semantic Image Segmentation with Self-correcting Networks_CVPR2020

Semi-Supervised Semantic Image Segmentation with Self-correcting Networks_CVPR2020

这篇文章是CVPR2020的,是基于自校正网络的半监督语义分割。

摘要

摘要里面指出,建立一个大型的图像数据集来进行语义分割是非常昂贵和耗时的。因此,本文中介绍了一个半监督框架,它的训练数据是:一个小型的全监督数据集(具有语义分割标签和包围盒标签)和一个weak set(只有包围盒标签)。框架通过辅助模型(为weak set生成初始分割标签)和自校正模块(使用日益精确的主模型改进训练过程中生成的标签)来训练主分割模型。并且介绍了两个变种的自校正模块,也就是线性自校正和卷积自校正。
实验是在PASCAL VOC 2012和Cityscape数据集上进行的,得出的结论是使用一个小的全监督数据集训练的模型的性能与使用大型全监督集训练的模型性能相似,甚至更好,而且需要的注释工作量更少(∼7x)。

介绍

介绍中指出,语义分割是数据标注中成本最高的任务之一,因此,大多数图像分割数据集都比图像分类数据集小几个数量级。在本文中,利用一种半监督的方法来降低语义分割的数据需求,这种方法使用了相对容易得到的bounding box标签。这个方法减少了数据注释需求,但代价是需要推断出包围盒内的对象的掩码标签
文中的方法是,首先用全监督数据集来训练辅助模型,然后利用辅助模型预测weak set上的语义分割标签。利用这些扩充的数据,训练一个主分割模型。并且在训练期间将提供给主模型的标签从最初的辅助掩模标签细化为更精确的标签。因此,这个框架被称为自校正分割模型
本文提出了两种方法完成自校正机制,第一种是使用一个函数来线性地结合辅助模型和主模型,但是这种方法需要定义一个在训练过程中值发生改变的权重。因此,本文开发了第二种自适应自校正机制,即使用CNN来学习如何结合这两个模型来预测weak set的分割,这种方法不需要定义上述权重。

methodology

本文的目的是用一个小型全监督数据集和weak set来训练语义分割模型。模型分为三个部分(图1,下图所示),主分割模型生成给定图像的语义分割;辅助分割模型输出给定图像和边界框的语义分割,它对weak set进行初始分割,帮助主模型的训练;自校正模块细化由辅助模型和主模型为weak set生成的分割标签。接下来分别介绍。
Semi-Supervised Semantic Image Segmentation with Self-correcting Networks_CVPR2020_第1张图片

辅助模型

辅助模型在给定图像和边界框注释的情况下形成逐像素的标签分布,是由全监督数据集训练的。图2(下图)是辅助模型结构。由于基于编码器和解码器的分割网络通常通过在大型图像分类数据集上进行预训练,然后迁移来提高分割性能,为了保持同样的优势,本文在基于编码器和解码器的分割模型的基础上增加了一个并行的包围盒编码器网络。具体是包围盒编码器的输出经过sigmoid函数后,作为attention map与编码器不同尺度的特征映射进行元素级的相乘,然后传递给解码器。辅助模型的训练是由交叉熵监督的。这里提到一点,就是辅助模型的参数是θ,在训练之后参数就不变了。
Semi-Supervised Semantic Image Segmentation with Self-correcting Networks_CVPR2020_第2张图片

自校正模块

无自校正模块

那这样经过训练的辅助模型可以通过只输入原图和包围盒注释来生成语义分割结果,最简单的办法就是将全监督数据集和weak set里由辅助模型生成的语义分割都视为ground truth来训练主分割模型。本文中称这种方法为无自校正模型,因为它直接依赖于辅助模型来训练主模型。然而,这个模型训练使用的是全监督数据集的数据,没有受益于weak set里面的数据。

线性自校正模块

因此本文提出了线性的自校正模式。这个灵感来自于EM算法,它使用线性结合的KL散度来推断缺失标签的分布,主要思想是所推断的标签分布和辅助模型的标签分布以及主模型的标签分布都是相近的,但是由于主模型在训练初期不能准确预测分割掩模,因此加入了一个比例因子α。因此使用线性自校正时,其推断的标签分布应该满足如下式子:
标签分布应该满足的关系式
注意到当阿尔法为正无穷的时候,推断的分布更接近辅助模型的标签分布,而当α为0的时候分布更接近于主模型的标签分布,因此在训练主模型的过程中定义了α的时间表,α在训练的时候是从一个比较大的数字减小到比较小的数字的。

卷积自校正模块

线性自校正的缺点是在训练的时候需要调整α的大小。因此本文提出了卷积的自校正,将线性函数替换为学习自校正机制的卷积网络。卷积自校正模型的架构是图3(如下图),输入是来自辅助模型和主模型的标签分布,连接之后输入两层CNN得到细化后的标签。
Semi-Supervised Semantic Image Segmentation with Self-correcting Networks_CVPR2020_第3张图片
但是卷积自校正的一个很大的问题是卷积自校正子网络的训练,在本文中提出了几个解决方案:就是将全监督数据集的一半用来训练辅助模型。一半用来训练卷积自校正模型。因此loss函数相比线性自校正的loss函数多了一项。

实验

实验部分,首先是对全监督数据集的大小进行了研究(表1),我们可以看到,线性自校正模型比无自校正模型的性能好,另外,卷积和线性自校正模型相当。
Semi-Supervised Semantic Image Segmentation with Self-correcting Networks_CVPR2020_第4张图片
表2是与其他方法的比较,可以看出线性和卷积自校正模型效果是最好的。
Semi-Supervised Semantic Image Segmentation with Self-correcting Networks_CVPR2020_第5张图片
表3和表4是在cityscapes上的研究.
Semi-Supervised Semantic Image Segmentation with Self-correcting Networks_CVPR2020_第6张图片
图4和图5是一些研究结果对比图。
Semi-Supervised Semantic Image Segmentation with Self-correcting Networks_CVPR2020_第7张图片

你可能感兴趣的:(Semi-Supervised Semantic Image Segmentation with Self-correcting Networks_CVPR2020)