[论文笔记] 弱监督语义分割 半监督语义分割

Adversarial learning for semi-supervised semantic segmentation

BLOG @vi_wsc

GAN生成对抗网络:由两个子网络组成,generator和discriminator,在训练过程中,这两个子网络进行着最小最大值机制,generator用随机向量输出一个目标数据分布的样例,discriminator从目标样例中区分出生成器生成的样例。generator通过后向传播混淆discriminator,依此generator生成与目标样例相似的样例。

这篇论文中,将generator换成一个分割网络(可以是任意形式的分割网络,如:FCN,DeepLab,DilatedNet……,输入是HW3,依次是长宽,通道数,输出概率图为HWC,其中C是语义种类数),这个网络对输入的图片分割输出一个概率图,使得输出的概率图尽可能的接近ground truth。其中discriminator采用了全卷积网络(输入为generator或ground truth得到的概率图,输出位空间概率图HW1,其中其中像素点p代表这个来自gournd truth(p=1)还是generator(p=0)。

在训练中,用半监督机制,一部分是注解数据,一部分是无注解数据。
当用有注解数据时,分割网络由基于ground truth的标准交叉熵损失和基于鉴别器的对抗损失共同监督。注意,训练discriminator只用标记数据。

当用无注解数据时,用半监督方法训练分割网络,在从分割网络中获取未标记图像的初始分割预测后,通过判别网络对分割预测进行传递,得到一个置信图。我们反过来将这个置信图作为监督信号,使用一个自学机制来训练带masked交叉熵损失的分割网络。置信图表示了预测分割的质量。
在这里插入图片描述


Backtracking ScSPM Image Classifier for Weakly Supervised Top-down Saliency

BLOG @Hibercraft
在这里插入图片描述文章主要思想是通过遮挡部分区域,观察分类confidence的改变来决定pixel-level的预测。文章没有使用CNN结构,而是使用SIFT特征+稀疏编码+SVM进行图像分类,由于稀疏编码需要向量字典,因此分类特征的每一维能对应到原图的patch,通过判断该位特征是否对分类起positive作用来判断原patch属于object的概率。得到大量候选patch之后,通过掩码的方式把分类特征中与该patch维度无关的元素设为0,在进行分类,如果预测confidence大于0.5则认为该patch落在saliency范围。

思考:个人认为文章存在的问题是分类最显著区域不包含object全部范围,常常只是动物头部位置,当头部被遮挡,其他区域都有较大可能无法分类,因此该方法无法进行整体区域的细微分割。以及稀疏编码做分类这个强监督baseline有点低。


Seed, Expand and Constrain: Three Principles for Weakly-Supervised Image Segmentation

BLOG @Hibercraft
在这里插入图片描述该篇文章的思路正如题目所说,包含三部分:seed loss + expand loss + constrain loss(SEC):

  1. Seedloss的作用就是利用分类网络得到包含物体大致位置信息的响应图,以此作为ground truth训练分割网络,要求在定位响应图强响应位置segmentation网络也需要有强类别响应;

  2. expand loss是为了对seed loss进行补充,因为seed loss只能做到大致定位,不能准确定位物体的边界区域等等,因此需要expand loss对seed进行扩张。由于只有类别监督信号,因此从分割网络得到分割feature map之后需要经过pooling操作到用于类别分类的特征。在这个地方avgpooling会要求所有像素位置都有前景类别响应,而maxpooling只要求一个像素有强类别响应即可,文章提出一种global weighted rankpooling (GWRP)方式,通过对全图个像素计算分类loss之后进行排序,按照从大到小的顺序乘不同次幂的衰减系数,起到加权平均的作用。针对不同的类别,衰减系数的选择也有不同;

  3. constrain loss的作用是使segmentation预测结果更符合原图颜色边界。文中利用原图与预测结果采用条件随机场(CRF)进行计算,并要求预测分布与CRF的输出分布之间的KL散度更小。

文章采用的分割模型是DeepLab-CRF-LargeFOV,最终在PASCAL VOC2012 val集上取得50.7% mIoU,test集上取得51.7% mIoU,强监督性能是val 67.6%, test 70.3%, 这是image level标注弱监督分割领域一个里程碑式的工作。


Weakly Supervised Semantic Segmentation Using Superpixel Pooling Network

BLOG @Hibercraft
在这里插入图片描述
该篇文章核心思想是提出了Superpixel Pooling Layer。该层layer的作用与上一篇的expand loss大致相同,即扩大分类相应区域。文章首先构造一个backbone network+上采样结构+superpixel pooling layer的网络(SPN)用来做分类训练。其中superpixel pooling layer就是把之前得到的feature map,对预先计算得到的每个super pixel算个平均的特征向量,之后所有super pixel的特征向量再平均作为改图的分类特征。等SPN收敛之后,就像CAM那样把最后全连接层去掉,把superpixel pooling layer的输出(取名SPCAM)作为pseudo mask给第二个分割网络训练。文章采用DecoupleNet作为第二个分割网络,该方法可以多轮训练,即先那pseudo mask做第一轮监督训练至收敛,然后再用该网络预测的结果作为第二轮训练的annotation。最后实验与CAM相比有10%以上的提升(table里没给出,但文章中提到)。
在这里插入图片描述


Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features-CVPR2018

[论文笔记] 弱监督语义分割 半监督语义分割_第1张图片
在图像的label的监督下,弱监督的语义分割是对于图像进行像素级的分割,只能给图像中已经现存的语义物体提供 label。由于semantic segmentation只需要一些人工的label,所以在物体识别,自动驾驶中都展现了很不错的效果。

在之前的一些工作中,主要用classification networks(分类的网络)去给object进行定位。由于没有pixel-wise的annotatioin,classification networks只能得到不精确的模糊的object regions,达不到对于pixel-wise semantic segmentation的要求。

为了解决这个问题,我们提出了一个iterative bottom-up和top-down的framework,这个结构可以从不精确的,模糊的initial localization,通过开Mining Common Object Feature(MCOF),去逐步扩展object regions。提出这样的想法,我们的motivation是,虽然通过classificationnetwork 产生的initial localization是很模糊的,但是它给出了某些图像的判别区域,这些区域包涵着对于这些物体的重要信息。

你可能感兴趣的:(计算机视觉,语义分割,弱监督语义分割,半监督语义分割)