Semi and Weakly Supervised Semantic Segmentation Using Generative Adversarial Network

Semi and Weakly Supervised Semantic Segmentation Using Generative Adversarial Network

3.3 Weakly Supervised learning using Conditional Generativate Adversarial Networks

GAN的最近扩展是条件GAN [16],其中向发生器和鉴别器提供额外信息(例如,图像类标签)以驱动发生器。 在这种情况下,传统的损失函数变为:

Semi and Weakly Supervised Semantic Segmentation Using Generative Adversarial Network_第1张图片

其中pl(l)是类标签上的先验分布,D(x; l)是数据的联合分布,x和标签l和G(z; l)是生成器噪声z和标签l的联合分布,表示标签 l控制发生器的pz(zjl)的条件分布。

只要有关于训练数据的附加信息可用,例如图像级标签(其注释比像素级别标签便宜得多),语义分割就可以自然地适合该模型。 我们使用图像类的这一侧面信息来训练我们的GAN网络,监督不力。 在我们的框架中利用弱监督的基本原理在于假设当向生成器提供图像类时,它被迫学习标签和图像之间的共生,从而产生更高质量的生成图像,这反过来又有助于我们的多分类器学习 更有意义的像素级分类功能和标签之间的真实关系。

我们提出的用于弱监督语义分割的GAN网络架构如图3所示。鉴别器被提供有未标记的图像以及类级信息,来自G的生成图像和像素级标记图像。 因此,鉴别器损失LD由三个术语组成:属于数据分布pdata(x; l)的弱标记样本数据的术语,不属于真实分布的生成样本的丢失期限,以及 标记数据中像素的丢失正确分类。 因此,鉴别器损失LD如下:

Semi and Weakly Supervised Semantic Segmentation Using Generative Adversarial Network_第2张图片

其中Ki表示图像中存在的类。 在这里,我们修改了概率分布的符号,并期望包含标签l。 损失LD中的调节空间l(标记)旨在控制所生成的样本,即,给定图像类别以及噪声矢量,发生器试图最大化在所生成的图像中看到标签的概率,而鉴别器的目标是抑制 生成数据的实类的概率,并鼓励图像级标签对未标记数据的高可信度。 发生器损耗类似于用于半监督情况的发生器损耗(参见等式4),并且旨在强制图像级标签存在于所生成的图像中。 对于未标记的数据,我们使用负对数可能性,有利于图像中出现标签,这意味着我们为图像级标签的像素置信度添加固定值。

4 System Overview

在本节中,我们将介绍深层网络的详细信息,包括鉴别器(分类器)和生成器。 在两种设置中,即半监督和弱监督方法,鉴别器是完全卷积网络[14],其使用VGG16卷积层加上1或3个解卷积层,其产生K + 1置信图。 相反,发生器由4个反卷积层组成,将噪声(和噪声加上图像类信息)转换成图像(见图4)。

如图4所示,生成器网络以噪声开始,然后是一系列反卷积滤波器,并生成类似于来自实际数据分布的样本的合成图像。 发电机损耗强制网络最小化D(G(zi))和yi 2 li ::: lK之间的距离,如公式2所示。

鉴别器损失是标记数据与分类器输出之间的交叉熵的总和。 这强制了鉴别器应该将生成的图像(数据)中的像素分类为伪类,将未标记的数据分类为真实的类。

在弱监督训练中,我们对生成器施加约束,相反,生成器通过数据分布生成通用图像,它生成属于作为输入的特定视觉类的样本。 为此,将单热图像类向量连接到从噪声分布采样的噪声。 然后,类似于典型的发生器网络应用去卷积层,并生成以图像类为条件的句法图像。

所有网络都在chainer框架中实现[27]。 具有动量的标准Adam优化器用于鉴别器优化,并且使用在ILSVRC数据集上预训练的VGG 16层网络来初始化分类器网络的卷积层权重。 为了训练生成器,我们使用具有各向同性高斯权重的Adam优化器。 由于内存限制,我们使用一批2号; 然而,由于针对训练图像的每个像素计算损失并且最终损失在这些值上平均,因此批量大小不是那么小。 我们在这些实验中不使用任何数据增加或后处理(例如CRF)。

在测试过程中,我们只使用鉴别器网络作为我们的语义分段标签网络。 给定测试图像,鉴别器的softmax层输出属于语义类的每个像素的一组概率,因此,具有最高概率的标签被分配给像素。

5 Experimental Result

我们在PASCAL VOC 2012 [6],SiftFlow [13],[29],StanfordBG [9]和CamVid [2]数据集上评估我们的方法。 在Pascal数据集的第一个实验中,我们使用提供了像素级标签的所有训练数据(1400个图像)以及带有图像级类标签的大约10k个附加图像,即,对于每个图像,其语义类是已知的 ,但不是像素级注释。 这些图像用于弱监督设置。 在Pascal数据集的第二个实验中,对于半监督训练,我们使用约30%(每类约20个样本)的逐像素注释数据,其余图像没有像素注释。 作为度量,我们采用像素精度,即每像素分类精度,平均精度,即像素类别的平均值分类精度和平均IU,区域交叉的平均值(IU)。

我们的VOC 2012验证方法的定量结果如表1和表2所示,一些样本图像的定性结果如图5所示。如表2所示,半监督方法显着提高平均准确度约5%到7%。由于一些误报,像素精度没有显着提高,这些误报对应于属于训练集中的一个类的未标记数据所促进的背景像素。由于无监督损失仅鼓励图像中出现的标签并赋予它们高可信度,因此在弱监督框架中减少了误报。在图5中的定性结果中可以观察到这种效果。因此,即使半监督方法正确标记大多数对象,有时也会将语义类别分配给背景像素,而弱监督方法能够减少误报检测。此外,如同一个标签所示。 1,我们的弱方法也优于现有技术的半监督语义分割方法,如[19],采用与我们弱监督的方法相似的策略。

表3显示了我们通过SiftFlow数据集[13]获得的结果。 由于在此数据集中,还标记了背景像素,因此与PASCAL VOC 2012数据集上获得的结果相比,像素精度得到了提高。

由于SiftFlow数据集中没有具有类级别标签的图像,因此我们仅测试半监督学习。 图6显示了SiftFlow数据集的定性结果。 在这种情况下,未标记的数据允许我们优化最初用不正确的类标记的分类。 例如,在第五行中,在半监督结果中校正被错误地标记为汽车或河流的像素。 此外,可以通过使用附加数据来正确地标记一些小物体,例如图6的最后一行中的人或窗口,其之前未被检测到。

我们用不同的训练集大小重复了半监督实验,例如 标记数据的20%和50%,结果显示在表4中。这一结果表明,与损失方式一起制定的额外数据充当了正规则。 此外,使用更多标记数据会增加整体性能,并且两个设置之间的差距会缩小。

对于第三个实验,我们在StanfordBG [9]数据集上评估了我们的方法。 这是一个包含720个标记图像的小型数据集,因此我们使用Pasacal图像作为未标记数据,因为这些图像是从pascal或类似数据集中收集的。 表5显示了我们在StanfordBG数据集的测试图像上的性能与[15]相比。 可以注意到,除了改进用作基线的全监督方法之外,我们的方法再次优于显着的现有技术方法,例如[15]。

最后,我们将我们提出的方法应用于CamVid [2]数据集。该数据集由10分钟视频(约11k帧)组成,其中700个图像提供了每像素注释。我们使用完全标记(11个语义类)数据的训练集和所有帧作为未标记数据,并且我们对测试集执行评估。除了基线(即完全监督的方法)之外,我们将结果与SegNet [1]方法进行比较。结果报告在表格中。图6显示我们的半监督方法显着提高了每类精度,这表明图像中更多的当前类被正确识别。我们的GAN在使用数据集的训练期间生成的图像样本如图8,9和7所示。这些图像清楚地表明我们的网络能够学习隐藏的结构(特定于每个数据集),然后用于提高性能我们的GAN鉴别器可以看作是额外的像素级注释数据。此外,有趣的是,我们的GAN框架也能够学习空间物体分布,例如,道路位于图像的底部,天空和山脉位于顶部等。

在图10和11中,描述了StanfordBG数据集的定性结果的例子; 通过我们提出的方法使用未标记的数据,可以改进一些完全监督方法标记不正确的像素。 例如,在第二行中,来自Cow的部分被错误地标记为建筑物或树木,在半监督结果中被校正。

来自CamVid数据集的定性结果样本如图12所示。如前所述,一些像素使用未标记的数据进行细化。 此外,可以通过采用附加数据来正确地标记未检测到的一些小物体,例如图12中的杆,行人或骑车者。

总之,通过不同实验获得的结果表明,通过对抗性损失提供的额外数据提高了语义分割的性能(优于完全监督和最先进的半监督方法),尤其是在平均准确度测量方面。。 鉴别器和发生器的竞争力不仅产生图像,而且最重要的是,为像素分类学习更有意义的特征。

6 Conclusion

在这项工作中,我们开发了一种采用生成对抗网络的新型半监督语义分割方法。 我们还研究了更容易获得的类级别标签条件下的GAN,以弱监督的方式训练我们的完全卷积网络。 我们已经证明,这种方法优于使用有限数量的标记数据训练的全监督方法,以及在几个基准数据集上的最先进的半监督方法。 此外,我们的模型生成合理的合成图像,显示一些有意义的图像特征,如边缘和类标签,支持像素分类步骤中的鉴别器。 鉴别器可以由适用于语义分割的任何更好的分类器代替,以进一步改进。

你可能感兴趣的:(深度学习,GAN,semi)