2018 BMVC之GAN+seg:Adversarial Learning for Semi-Supervised Semantic Segmentation

Adversarial Learning for Semi-Supervised Semantic Segmentation
当前的问题及概述
现有的鉴别器大都在图像层次上对输入图像进行真伪分类训练,而我们设计了一种全卷积的鉴别器,在考虑空间分辨率的情况下,从ground-truth中对预测概率图进行区分。此外,全卷积鉴别器通过在未标记图像的预测结果中发现可能区域,实现半监督学习,从而提供额外的监督机制。
模型及loss
2.1semi-supervised semantic segmentation:
2018 BMVC之GAN+seg:Adversarial Learning for Semi-Supervised Semantic Segmentation_第1张图片
2.1.1Segmentation network
首先采用DeepLab-v2 中的ResNet-101作为backbone进行预训练,并去掉最后一个分类层,将最后两个卷积层的步幅从2修改为1,从而使输出特征图的分辨率有效地达到输入图像大小的1/8。为了扩大感受野,我们将扩展后的卷积分别应用于步幅为2和4的conv4和conv5层。此外,我们在最后一层使用了Atrous Spatial Pyramid Pooling (ASPP)。最后,我们应用一个上采样层和softmax输出来匹配输入图像的大小。
2.1.2Discriminator network
本文只使用标记的数据来训练鉴别器网络。对于未标记的数据,我们用提出的半监督方法训练分割网络。在从分割网络中获得未标记图像的初始分割预测后,我们通过将分割预测传递给鉴别器网络来计算置信图(confidence map)。然后用一个自学习的方案来训练一个带交叉熵损失的半自适应分割网络,将这个置信度图作为监督信号。该置信度图表明了预测的分割区域的质量,使得分割网络在训练过程中可以信赖。为了将模型转化为一个全卷积网络,在最后一层上增加一个上采样层,将输出缩放到输入映射的大小。
2.2Loss Function:
2.2.1首先预训练判别器loss,用最小二乘法使空间CE loss最小:
在这里插入图片描述
如果样本来自于分割网络,则yn = 0;如果样本来自于ground truth label,则yn = 1。

2.2.2分割网络loss:
给定输入图像Xn,其ground-truth 的one-hot 编码Yn与预测结果S(Xn)通过CE loss学习:
在这里插入图片描述
判别器网络,通过Ladv使用对抗性学习过程给出一个全卷积鉴别器网络D(·):
在这里插入图片描述
2.2.3训练无标签数据集:
对于未标记的数据,我们不应用Lce,因为没有ground truth注释。对抗损失Ladv仍然适用,因为它只需要鉴别器网络。此外,使用训练过的的鉴别器与未标记的数据在一个自学学习框架中,其主要思想是训练后的鉴别器可以生成一个confidence Map D(S(Xn)),该图可以用来从ground-truth中推断出更准确的区域。并且将此置confidence Map与二值化的阈值结合以突出正确的区域。 此外,如果c* = argmaxc S(Xn)(h,w,c),则通过Y^n(h,w,c)= 1逐像素设置one-hot编码的ground-truth Y^n。 由此产生的半监督loss为:
在这里插入图片描述
其中Tsemi为阈值,测试中0.1~0.3效果最好。
总loss:
在这里插入图片描述
实验
选取不同的backbone和loss的测试结果:
2018 BMVC之GAN+seg:Adversarial Learning for Semi-Supervised Semantic Segmentation_第2张图片
消融实验结果比较:
2018 BMVC之GAN+seg:Adversarial Learning for Semi-Supervised Semantic Segmentation_第3张图片
总结
本文的总体思路是采用半监督的思路进行学习,半监督是将有pixel-level和image-level标注的数据集进行训练,再将训练好的网络用于没有pixel-level标注的数据集进行学习,所以在本文通过对抗网络作为语义分割网络,对于有标记的数据,首先通过交叉熵loss Lce训练分割网络,将ResNet101作为backbone,并使用ASPP作为最后一层conv,得到预分割的feature map,在判别器部分(仅使用标记的数据训练判别器),使用交叉熵loss Ld与Ladv进行训练,通过自学习方案得到置信度图(confidence MAP),通过有ground-truth的监督下, 训练判别器,使其无法分别生成的图像是数据集真实的图像还是生成的虚假的图像。对于未标记的数据,由于没有ground-truth监督,没有交叉熵loss,但Ladv同样适用,我们通过训练好的判别器逐像素设置one-hot编码,通过Lsemi辅助训练进行半监督。

你可能感兴趣的:(GAN,语义分割,深度学习,计算机视觉,神经网络)