深度学习(9)——无监督语义分割之全卷积域适应网络(译文)

无监督语义分割之全卷积域适应网络

Fully Convolutional Adaptation Networks for Semantic Segmentation

摘要

深度神经网络的最新进展令人信服地证明了在大型数据集上学习视觉模型的高能力。然而,收集专家标记的数据集尤其是像素级注释是一个非常昂贵的过程。一个吸引人的选择是渲染合成数据(例如,计算机游戏)并自动生成基础事实。然而,简单地应用在合成图像上学习的模型可能由于域移位(domain shift,合成图像和真实图像的数据分布存在巨大的偏差)而导致真实图像上的高泛化误差。在本文中,我们从appearance-level和representation-level域适应的角度来促进这个问题。前者使源域图像(source-domain)看起来好像是从目标域(target domain)中的“样式”中绘制出来的,而后者则试图学习域不变(domain-invariant)表示特征。具体来说,我们提出了全卷积自适应网络(FCAN),这是一种用于语义分割的新型深层体系结构,它结合了图像域适应网络(AAN,Appearence Adaptation)和特征自适应网络(RAN,Representation Adaptation)。 AAN在像素空间中学习从一个域到另一个域的变换,并且以对抗性学习方式优化RAN以最大限度地利用学习的源域和目标域表示来欺骗域鉴别器。从GTA5(游戏视频)到城市景观(城市街景)的语义分割转移进行了广泛的实验,与最先进的无监督自适应技术相比,我们的方案取得了优异的成果。更值得注意的是,我们获得了一项新的记录:在无监督的环境中,BDDS(drivecam视频)的mIoU为47.5%。

1、引言

深度神经网络已成功证明在大规模数据集上学习视觉模型非常有效。迄今为止,在文献中,有各种数据集(例如,ImageNet [26]和COCO [14]),其中包括可用于开发深度模型以进行各种视觉任务的注释良好的图像,例如识别[8,27,29] ],检测[6,24],字幕[34]和语义分割[1,16]。然而,给定一个新的数据集,尽管付出了昂贵的努力和耗时的过程,但典型的解决方案仍然是执行密集的手动标记。另一种方法是利用大部分可从计算机游戏中获得的合成数据[25],并且可以自动生成 ground truth。然而,许多先前的经验也表明,重复应用在合成数据上学习的模型可能会损害实际数据中的性能,这是由于称为“域移位(domain shift)”的现象[35]。以图1(a)中的真实街景视频中的一帧的分割结果为例,对来自视频游戏的合成数据进行训练的模型无法将场景正确地分割为语义类别,例如道路,人和车。结果,在解决该挑战时需要无监督的域自适应,其旨在利用来自源域的标记示例和目标域中的大量未标记示例来减少目标数据上的预测误差。

深度学习(9)——无监督语义分割之全卷积域适应网络(译文)_第1张图片

图1.街景视频中一个示例帧的语义分段:(a)直接应用在视频游戏中训练的FCN和(b)FCAN在这项工作中的域适应。

无监督域自适应的一般做法是通过最小化domain shift度量来建立跨域的不变性,例如相关距离[28]或最大均值差异[32]。我们从appearance-level和representation-level不变性的角度考虑问题。appearance-level不变性的目标是将一个域中的图像内容与来自另一个域的“style”重新组合。因此,两个域中的图像看起来好像是从同一域中绘制的。换句话说,视觉外观往往是域不变的。representation-level不变性的灵感来自域适应的对抗性学习的进步,即通过关于域鉴别器的对抗性目标来模拟域分布。背后的核心来自生成性对抗性学习[7],它通过将它们相互对抗来训练两个模型,即生成模型和判别模型。在域适应的背景下,这种对抗性原则等同于指导两个域中的表示学习,使源域和目标域表示分布之间的差异通过域鉴别器无法区分。我们遵循这个准则,并利用对抗机制来学习跨域不变的图像表示。在这项工作中,我们特别研究了语义分割任务中的域自适应问题,该任务依赖于可能最准确的像素级注释。

通过将appearance-level和representation-level不变性的概念合并到无监督域自适应中以增强语义分割,我们提出了一种新颖的全卷积自适应网络(FCAN)架构,如图2所示。整个框架由图像域适应网络( AAN)和特征自适应网络(RAN)。理想地,AAN将构建捕获源图像中的高级内容和目标域的低级像素信息的图像。具体地,AAN以白噪声图像开始并通过使用梯度下降来调整输出图像以最小化输出图像的特征图与源图像的特征图之间的欧几里德距离或目标域中的图像的平均特征图。在RAN中,首先使用共享全卷积网络(FCN)在每个域中产生图像表示,然后进行双线性插值以对输出进行上采样以进行像素级分类,同时使用域鉴别器来区分源域和目标域。特别设计了一种Atrous空间金字塔池(ASPP)策略,以扩大特征映射中的滤波器的视野,并赋予域鉴别器更多的功率。通过优化两个损失来训练RAN,即,分类损失以测量像素级语义和对抗性损失,以最大限度地利用学习的源和目标表示来欺骗域鉴别器。通过appearance-level和representation-level的调整,我们的FCAN可以更好地构建跨域的不变性,从而在图1(b)中获得令人鼓舞的分割结果。

这项工作的主要贡献是全卷积自适应网络的提议,用于解决域适应背景下的语义分割问题。 该解决方案还为跨域应该建立什么样的不变性以及如何在深度学习框架中建模域不变性提供了特殊的角度,特别是对于语义分割的任务,这些是文献中尚未完全理解的问题。

2、相关工作

我们简要地将相关工作分为两类:语义分割和深度域适应。

语义分割是计算机视觉中最具挑战性的任务之一,其试图预测给定图像或视频帧的像素级语义标签。受全卷积网络(FCN)[16]的最新进展的启发,已有多种技术,包括多尺度特征集合(例如,扩张卷积[36],RefineNet [13],DeepLab [1]和HAZNet [ [33])提出了背景信息保存(例如,ParseNet [15],PSPNet [37]和DST-FCN [23])。通过利用一些后处理技术(例如,条件随机场[38]),也可以改进原始的FCN公式。此外,由于大多数语义分割方法依赖于需要代价极大的标记工作的像素级注释,研究人员还努力利用弱监督(例如,实例级边界框[3],图像级标签[22])用于语义分割任务。为了实现这一目标,在文献中利用了诸如多实例学习[20],EM算法[18]和约束CNN [19]等技术。 [10]中的替代方案利用来自辅助类别的像素级注释来将语义分割概括为仅有图像级标签可用的类别。这项工作的目标是研究可自由访问的合成数据的探索,注释和大部分未标记的实际数据,用于在像素级别上注释真实图像,这是一个新兴的研究领域。

深度域适应旨在将在标记源域中学习的模型转移到深度学习框架中的目标域。该主题的研究沿着三个不同的维度进行:无监督自适应,监督自适应和半监督自适应。无监督域自适应是指标记的目标数据不可用时的设置。深度相关对齐(CORAL)[28]利用最大均值差异(MMD)来匹配源和目标分布的均值和协方差。对抗性判别域适应(ADDA)[31]通过对抗性训练优化适应模型。相反,当标记的目标数据可用时,我们将该问题称为监督域适应。 Tzeng等。 [30]利用二元域分类器并设计域混淆损失以鼓励预测的域标签均匀分布。 Deep Domain Confusion(DDC)[32]应用MMD以及源上的常规分类丢失来学习既有区别又有域不变的表示。此外,还提出了半监督域适应方法,其利用标记和未标记的目标数据。深度适应网络(DAN)[17]将所有任务特定层嵌入到再生内核Hilbert空间中。考虑半监督和无监督设置。

总之,我们在本文中的工作主要集中在语义分割任务的无监督自适应,这很少被研究。 最密切相关的工作是FCNWild [9],它通过仅利用对域适应的全卷积对抗训练来解决跨域分割问题。 我们的方法与[9]的不同之处在于,我们从appearance-level和representation-level域适应的角度解决了domain shift,这以更有原则的方式弥合了域间隙。

3、用于语义分割的全卷积自适应网络(FCAN)

深度学习(9)——无监督语义分割之全卷积域适应网络(译文)_第2张图片

图2.完全卷积自适应网络(FCAN)架构的概述。 它由两个主要部分组成:左侧的图像域适应网络(AAN)和右侧的特征适应网络(RAN)。 AAN将图像从一个域转移到另一个域,因此视觉外观往往是域不变的。 RAN通过最大限度地利用学习的源和目标表示来欺骗域鉴别器,以对抗方式学习域不变表示。 特别设计了扩展的Atrous空间金字塔池(ASPP)层,以利用不同尺度的区域来增强辨别能力。 RAN通过源图像上的监督分割Loss和对抗Loss进行联合优化。

在本节中,我们提出了我们提出的用于语义分割的完全卷积自适应网络(FCAN)。图2说明了我们框架的概述。它由两个主要部分组成:图像域适应网络(AAN)和特征适应网络(RAN)。给定来自两个域的输入图像,首先利用AAN从visual appearance的角度将图像从一个域转移到另一个域。通过重新组合一个域中的图像内容
从另一个“style”来看,visual appearance往往是域不变的。我们将从源到目标的转换作为本节中的示例,其他选项将在我们的实验中详细说明。另一方面,RAN以对抗方式学习域不变表示,并且设计域判别器以对与特征映射中的每个空间单元的感受域对应的图像区域来自哪个域进行分类。 RAN的目标是指导两个域中的表示学习,使源和目标表示通过域判别器无法区分。因此,我们的FCAN从appearance-level和representation-level域不变性的角度解决了域适应问题,并且可能更有效地消除域移位的影响。

3.1、 图像域适应网络(AAN)

AAN的目标是使来自不同域的图像在视觉上相似。 换句话说,AAN尝试使源图像适应,就好像从目标域中绘制一样。 为了实现这一点,目标域中所有图像的低级特征应该被分离并被视为目标域的“style”,因为这些特征编码图像的低级形式,例如纹理,光照和阴影。 相反,应该提取源图像中的对象及其关系方面的高级内容,并将其与目标域的“style”重新组合以产生自适应图像。

深度学习(9)——无监督语义分割之全卷积域适应网络(译文)_第3张图片

图3.外观适应网络(AAN)的体系结构。 给定目标图像集 X t X_t Xt和一个源图像 x s x_s xs,我们从白噪声图像开始并将其调整为自适应图像 x o x_o xo,其看起来好像是从目标域绘制但在源图像中包含语义内容。 预训练的CNN用于提取特征图。 通过最小化 x s x_s xs x o x_o xo的特征映射之间的距离来保留 x s x_s xs的高级图像内容,而通过最小化 x o x_o xo X t X_t Xt的特征相关之间的距离来保持目标域的样式。

图3说明了AAN的体系结构。给定目标域中的一组图像 X t = { x t i ∣ i = 1 , … , m } {\Bbb X}_t = \left\{ x^i_t \mid i = 1,\dots ,m \right\} Xt={xtii=1m}和来自源域 x s x_s xs的一个图像,我们从白噪声图像开始并使用 x s x_s xs 的语义内容加上 X t {\Bbb X}_t Xt的“风格”迭代地渲染该图像产生自适应图像 x o x_o xo。 具体地,利用预训练的CNN来提取每个图像的特征图。假设CNN中的每个卷积层 l l l 具有 N l N_l Nl个特征图,其中 N l N_l Nl是信道的数量,并且每个特征图的大小是 H l × W l H_l × W_l Hl×Wl,其中 H l H_l Hl W l W_l Wl分别表示图的高度和宽度。这样, l l l层中的特征图可以表示为 M l ∈ R N l × H l × W l M^l \in {\Bbb R}^{N_l×H_l×W_l} MlRNl×Hl×Wl。基本上,不同卷积层中的激活表示不同语义级别的图像内容,其中较深层表示较高级别语义。为了更好地管理源图像 x s x_s xs中的语义内容,将不同的权重分配给不同的层以反映每个层的贡献。然后将目标函数表示为
min ⁡ x o ∑ l ∈ L w s l D i s t ( M o l , M s l ) \min_{x_o} \sum_{l \in L} w^l_s Dist(M^l_o , M^l_s) xominlLwslDist(Mol,Msl)
其中 L L L是要考虑用于测量的一组层。 w s l w^l_s wsl是图层的权重, M o l , M s l M^l_o , M^l_s Mol,Msl x o x_o xo x s x_s xs l l l层的特征图。 通过最小化方程(1)中的欧几里德距离,期望 x s x_s xs中的图像内容保留在自适应图像 x o x_o xo中。

接下来,一个图像的“风格”通常被视为一种统计测量或模式,它与空间信息无关[4]。 在CNN中,这种统计测量之一是不同特征图之间的相关性。 因此,可以通过计算 l l l层上的图像 G l G^l Gl的“样式”
G l , i j = M l , i ⨀ M l , j G^{l,ij} = M^{l,i} \bigodot M^{l,j} Gl,ij=Ml,iMl,j
G l , i j G^{l,ij} Gl,ij M l M^l Ml的矢量化第 i i i和第 j j j个特征图之间的内积。 在我们的例子中,我们通过对目标域中的所有图像求平均值,将一个图像的“style”扩展到一个域(目标域的 G ‾ t l {\overline G}^l_t Gtl )的“style”。 为了将目标域的“style”合成为 x o x_o xo,我们将每个层中的目标表示为
min ⁡ x o ∑ l ∈ L w t l D i s t ( G o l , G ‾ t l ) \min_{x_o} \sum_{l\in L}w^l_t Dist(G^l_o , {\overline G}^l_t) xominlLwtlDist(Gol,Gtl)
w t l w^l_t wtl l l l 层的权重。最后,要最小化的整体损失函数 L A A N {\Bbb L}_{AAN} LAAN
L A A N ( x o ) = ∑ l ∈ L w o l D i s t ( M o l , M s l ) + α ∑ l ∈ L w t l D i s t ( G o l , G ‾ t l ) {\Bbb L}_{AAN}(x_o) = \sum_{l\in L}w^l_o Dist(M^l_o , M^l_s) + \alpha \sum_{l\in L}w^l_t Dist(G^l_o , {\overline G}^l_t) LAAN(xo)=lLwolDist(Mol,Msl)+αlLwtlDist(Gol,Gtl)
其中 α \alpha α 是平衡源图像中的语义内容和目标域的样式的权重。 在训练中,类似于[5],AAN通过反向传播从等式4导出的梯度来调整输出图像到 x o x_o xo , 导致域不变的外观。

3.2、特征适应网络(RAN)

使用特征适应网络,来自不同域的图像似乎来自同一个域。为了进一步减少域转移的影响,我们尝试学习域不变特征。因此,特征适应网络(RAN)旨在适应跨域的表示特征,这是从对抗性学习的概念中得出的[7]。我们的RAN中的对抗原则等同于通过使用学习的源和目标表示特征来欺骗域判别器 D D D来指导两个域中的表示特征的学习。具体而言,RAN首先利用共享的完全卷积网络(FCN)从两个域通过AAN提取图像或自适应图像的表示特征。此FCN模型的 F F F旨在学习跨两个域的无法区分的图像表示特征。此外,判别器D试图区分源域表示特征和目标域表示特征,其输出是对应于最终特征映射中的空间单元的每个图像区域的域预测。形式上,给定源域中的训练集 X s = { x s i ∣ i = 1 , … , n } {\Bbb X}_s = \left\{ x^i_s \mid i = 1,\dots ,n \right\} Xs={xsii=1n}和目标域中的 X t = { x t i ∣ i = 1 , … , m } {\Bbb X}_t = \left\{ x^i_t \mid i = 1,\dots ,m \right\} Xt={xtii=1m},对抗性损失 L a d v {\Bbb L}_{adv} Ladv是所有空间单位的平均分类损失,其表示为
L a d v ( X s , X t ) = − E x t ∼ X t [ 1 Z ∑ i = 1 Z log ⁡ ( D i ( F ( x t ) ) ) ] − E x s ∼ X s [ 1 Z ∑ i = 1 Z log ⁡ ( 1 − D i ( F ( x s ) ) ) ] {\Bbb L}_{adv}({\Bbb X}_s,{\Bbb X}_t) = -E_{x_t \sim {\Bbb X}_t}[\frac{1}{Z}\sum^Z_{i=1}\log (D_i(F(x_t)))] -E_{x_s \sim {\Bbb X}_s}[\frac{1}{Z}\sum^Z_{i=1}\log (1 - D_i(F(x_s)))] Ladv(Xs,Xt)=ExtXt[Z1i=1Zlog(Di(F(xt)))]ExsXs[Z1i=1Zlog(1Di(F(xs)))]
其中 Z Z Z D D D输出中空间单位的数量。与标准GANs类似,我们的RAN的对抗训练是优化以下最小极大函数
max ⁡ F min ⁡ D L a d v ( X s , X t ) \max_F \min_D {\Bbb L}_{adv}({\Bbb X}_s , {\Bbb X}_t) FmaxDminLadv(Xs,Xt)
鉴于实际数据中存在许多不同大小的不同对象,我们进一步考虑利用多尺度表示来增强对抗性学习。一种传统的多尺度策略是使用多种分辨率调整图像大小,这确实提高了性能但是以大量计算为代价。在这项工作中,我们扩展了Atrous空间金字塔池(ASPP)[1]来实现这一点,如图2所示。具体而言,并行利用具有不同采样率的k个扩张卷积层,以独立地在FCN的输出上产生k个特征表示,每个具有c个特征信道。然后将所有特征通道堆叠起来以形成具有 c k ck ck通道的新特征图,接着是 1 × 1 1×1 1×1卷积层加上sigmoid层以生成最终得分图。分数图中的每个空间单元呈现属于目标域的对应图像区域的概率。此外,我们同时优化标准像素级分类损失 L s e g {\Bbb L}_{seg} Lseg,用于来自源域的图像的监督分割,其中标签可用。因此,RAN的总体目标是将 L s e g {\Bbb L}_{seg} Lseg L a d v {\Bbb L}_{adv} Ladv整合为
max ⁡ F min ⁡ D { L a d v ( X s , X t ) − λ L s e g ( X s } \max_F \min_D \left\{ {\Bbb L}_{adv}({\Bbb X}_s , {\Bbb X}_t) - \lambda {\Bbb L}_{seg} ({\Bbb X}_s \right\} FmaxDmin{Ladv(Xs,Xt)λLseg(Xs}
其中 λ \lambda λ 是权衡参数。 通过使用源和目标表示来欺骗域鉴别器,我们的RAN能够产生域不变表示。 在测试阶段,将目标域中的图像馈送到学习的FCN中以产生用于像素级分类的表示.

4、实施

4.1 图像适应

我们采用预先训练的ResNet-50 [8]架构作为基本CNN。 特别是,我们只在该组中包括五个卷积层,即$ L = {conv1,res2c,res3d,res4f,res5c} , 因 为 这 些 层 的 表 示 通 常 在 每 个 比 例 中 具 有 最 高 的 能 力 。 源 域 和 目 标 域 中 的 图 像 的 层 的 权 重 通 常 根 据 自 适 应 图 像 的 视 觉 外 观 来 确 定 。 另 外 , 在 优 化 公 式 ( 4 ) 时 , 一 个 常 见 的 问 题 是 需 要 设 置 权 衡 参 数 α 来 平 衡 内 容 和 “ s t y l e ” 。 由 于 最 终 目 标 是 语 义 地 分 割 图 像 中 的 每 个 像 素 , 因 此 需 要 精 确 地 保 留 语 义 内 容 。 结 果 , “ s t y l e ” 的 影 响 被 认 为 仅 仅 是 调 整 外 观 的 “ d e l t a ” 函 数 , 并 且 为 此 目 的 我 们 凭 经 验 设 定 了 ,因为这些层的表示通常在每个比例中具有最高的能力。 源域和目标域中的图像的层的权重通常根据自适应图像的视觉外观来确定。 另外,在优化公式(4)时,一个常见的问题是需要设置权衡参数α来平衡内容和“style”。由于最终目标是语义地分割图像中的每个像素,因此需要精确地保留语义内容。 结果,“style”的影响被认为仅仅是调整外观的“delta”函数,并且为此目的我们凭经验设定了 (4)αstylestyledeltaα= 10^{-14}$的小权重。 最大迭代次数 I I I 固定为 1 k 1k 1k。 在每次迭代 i i i中,图像 x o x_o xo由更 x o i − 1 − w i − 1 g i − 1 ∣ ∣ g i − 1 ∣ ∣ 1 x^{i-1}_o - w^{i-1}\frac{g^{i-1}}{\mid\mid g^{i-1} \mid\mid_1} xoi1wi1gi11gi1新,其中 g i − 1 = ∂ L a p p ( x o i − 1 ) ∂ x o i − 1 , w i − 1 = β I − i I , a n d β = 10 g^{i-1} = \frac{\partial {\Bbb L}_{app}(x^{i-1}_o)}{\partial x^{i-1}_o} , w^{i-1} = \beta \frac{I-i}{I} , and \quad \beta = 10 gi1=xoi1Lapp(xoi1),wi1=βIIi,andβ=10

4.2、特征适应

在我们的实现中,我们使用源自ResNet-101 [8]的扩张完全卷积网络[1]作为我们的FCN,已经证明它可以有效地生成语义分割的强大表示。 最后一个卷积层的特征图(即res5c)被送到分割和对抗分支。 在监督分割分支中,我们还使用金字塔池[37]扩充FCN的输出,以将上下文先验集成到表示特征中。 在对抗分支中,我们并行使用 k = 4 k = 4 k=4个扩张的卷积层来产生多个特征图,每个特征图具有 c = 128 c = 128 c=128个通道。 不同扩张卷积核的采样率分别为 1 , 2 , 3 和 4 1,2,3和4 1,2,34。 最后,在ASPP旁边使用sigmoid层来输出预测,其范围为 [ 0 , 1 ] [0,1] [0,1]

4.3、训练策略

我们的建议是在Caffe [12]框架上实现的,并且利用小批量随机梯度下降算法来优化模型。 我们在源域上预先训练只有分割Loss的RAN。 初始学习率为 0.0025 0.0025 0.0025。 与[1]类似,我们使用功能固定为 0.9 0.9 0.9的“多边”学习率政策。 动量和重量衰减分别设定为0.9和0.0005。 bitch大小为6。最大迭代次数为 30 k 30k 30k。 然后,我们与分割Loss和对抗Loss一起微调RAN。 权衡参数 λ \lambda λ设置为 5 5 5。初始学习率为 0.0001 0.0001 0.0001。 bitch大小为 8 8 8,最大迭代次数为 10 k 10k 10k。 其余的超参数与训练前的参数相同。

5、实验

5.1、数据集

我们对来自GTA5 [25] (游戏视频)数据集到城市景观(城市街景)数据集[2]的域适应性FCAN进行了全面评估。

GTA5数据集包含来自游戏侠盗猎车手V(GTA5)的24,966个图像(视频帧),并且还创建了每个图像的像素级ground truth。在游戏中,图像被捕获在洛桑桑托斯的虚拟城市,该城市起源于洛杉矶市。每个图像的分辨率为1914×1052。有19个类,与室外场景(例如,城市景观)的其他分割数据集兼容并且在评估中使用。 Cityscapes数据集是城市街景的语义理解的一个流行基准,其中包含从50个不同城市的街景中收集的5,000个图像(帧)的高质量像素级注释。图像分辨率为2048×1024。遵循分割任务中的标准协议(例如,[2]),使用19个语义标签(汽车,道路,人,建筑物等)进行评估。在两者之间,训练,验证和测试集分别包含2,975,500和1,525帧。按照[9,21]中的设置,仅使用验证集(500帧)来验证我们实验中的无监督语义分段。

此外,我们还将伯克利深度驾驶分段(BDDS)数据集[9]作为另一个目标领域,用于验证我们的FCAN的优点。 BDDS数据集由数千个带有像素级注释的dashcam视频帧组成,它们与Cityscapes共享兼容的标签空间。图像分辨率为1280×720。按照[9,21]中的设置,使用1,500帧进行评估。

在所有实验中,我们采用每个类别的联合交叉(IoU),并将所有类别的IoU表示为性能指标。

5.2、评估AAN

我们首先从两个方面检验AAN对语义分割的有效性:1)AAN调整域的图像,2)仅通过执行AAN或加RAN进行自适应。源自适应(Src Ada)这里是使用目标域的“style”渲染源图像,反之亦然,用于目标自适应(Tar Ada)。

FCN是指通过直接利用源域上学习的FCN对目标图像进行预测来设置语义分段。相比之下,RAN进一步通过我们的RAN执行representation-level适配。

表1.使用AAN的不同方式之间的mIoU性能比较。

Train Validation FCN RAN
Src Tar 29.15 44.81
Src Tar Ada 34.68 45.03
Src Ada Tar 31.71 46.21
Src Ada Tar Ada 36.25 45.59
Late Fusion Late Fusion 37.61 46.60

表1总结了不同利用AAN的方式之间的mIoU性能。总体而言,通过AAN + RAN在源域中调整图像的最高mIoU为46.21%。将AAN应用于源或目标或两个域中的图像的结果始终表现出比在不使用AAN(第一行)时直接在分段中使用FCN的设置更好的性能。结果基本上表明了探索appearance-level域适应的优势。 RAN进一步改善了每个环境中的表现,表明appearance-level和representation-level适应是相互补充的。另一个观察结果是,当在源图像上执行AAN时,RAN的性能增益趋于变大。然而,当通过AAN调整目标图像时,增益降低。我们推测这可能是AAN将一些噪声合成到适应的目标图像中的结果,特别是在物体的边界处,这反过来影响了分割的稳定性。此外,当融合通过四种设置预测的分割的分数图时,mIoU性能可以提升至46.6%。除非另有说明,否则我们在以下评估中将此融合版本称为AAN。

深度学习(9)——无监督语义分割之全卷积域适应网络(译文)_第4张图片

图4.通过AAN进行外观级别调整的示例。

图4分别显示了源域和目标域中图像的appearance-level传输的四个示例。如图所示,原始图像中的语义内容都在自适应图像中得到很好的保存。当使用Cityscapes的“style”在GTA5中渲染图像时,图像的整体颜色变得暗淡并且颜色饱和度趋于低。相反,当反转传输方向时,Cityscapes中的图像颜色变得更亮,并且具有高饱和度。结果表明两者之间具有良好的appearance-level转移。

5.3、FCAN的消融研究

接下来,我们将研究FCAN中的每个设计如何影响整体性能。自适应批量归一化(ABN)简单地将源域中学习的FCN中的BN层的均值和方差替换为在目标域中的图像上计算的BN层的均值和方差。对抗域适应(ADA)利用对抗性训练的思想来学习域不变表示,域判别器在图像级别上判断域。当扩展域判别器以对每个图像区域进行分类时,该设计被命名为Conv。 ASPP进一步扩大了过滤器的视野,以增强对抗性学习。 AAN是我们的appearance-level改编。

深度学习(9)——无监督语义分割之全卷积域适应网络(译文)_第5张图片

图5. Cityscapes中语义分割结果的示例。 给出了FCAN不同阶段的原始图像,基本事实和比较分割结果。

表2. FCAN中每个设计的性能贡献。

Method ABN ADA Conv ASPP AAN mIoU
FCN 29.15
+ABN 35.51
+ADA 41.29
+Conv 43.17
+ASPP 44.81
FCAN 46.60

表2通过考虑FCAN中每个阶段的域适应的另一个因素来详细说明mIoU的改进。无论域适应框架如何,ABN都是减轻域移位的一般方法。在我们的案例中,ABN成功地将mIoU表现从29.15%提高到35.51%。这表明ABN是一种非常有效和实用的选择。 ADA,Conv和ASPP是我们RAN中的三种特定设计,每种设备的性能增益分别为5.78%,1.88%和1.64%。换句话说,我们的RAN导致总体性能提升了9.3%。结果验证了representation-level适应的思想。 AAN进一步增加了mIoU 1.79%,FCAN的mIoU性能最终达到46.6%。图5展示了我们FCAN不同阶段的四个语义分段结果示例。如图所示,随着包括更多适应设计,分割结果变得越来越准确。例如,在早期阶段,诸如道路和天空等大多数类别都不能很好地分割。相反,在后面的步骤中,即使是自行车和卡车等少数类别也能很好地进行细分。

5.4、与最先进的技术进行比较

表3.与Cityscapes上最先进的无监督域自适应方法的性能比较。

Method mIoU
DC [30] 37.64
ADDA [31] 38.30
FCNWild [9] 42.04
FCAN 46.60
FCAN(MS) 47.75

我们与几种最先进的技术进行比较。域混淆[30] (DC)通过域混淆丢失来对齐域,域混淆丢失被优化以学习跨不同域的统一分布。 Adversarial Discrimtivetive Domain Adaptation [31] (ADDA)结合了解开的权重分享和对抗性学习,用于歧视性特征学习。 FCNWild [9]采用完全卷积对抗训练来进行语义分割领域的自适应。为了公平比较,所有方法中使用的基本FCN源自ResNet-101。性能比较总结在表3中。与DC和ADDA相比,其中域判别器都是在图像级别(image level)上设计的,FCNWild和FCAN在区域级别(region level)上执行域对抗性学习表现出更好的性能。此外,FCAN通过额外纳入ASPP策略和AAN的强化,导致了对FCNWild的明显改进。多尺度(MS)方案将mIoU性能提升至47.75%。图6详细介绍了不同类别的性能。我们的FCAN在19个类别中的17个中实现了最佳性能,这在经验上验证了我们的模型在类别级别上的有效性。

深度学习(9)——无监督语义分割之全卷积域适应网络(译文)_第6张图片

图6.不同方法的每类IoU性能和所有19个类别的平均mIoU性能。

深度学习(9)——无监督语义分割之全卷积域适应网络(译文)_第7张图片

图7.语义分割结果和域判别器的预测图的示例,其中亮度指示属于目标域的区域的高概率。

为了检查在FCAN中学习的域鉴别器,图7示出了四个图像示例,包括原始图像,它们的ground truth,FCAN的分割结果和域判别器的预测图。亮度表示该区域具有高概率属于目标域。让我们回想一下,对抗性学习是最大限度地欺骗域判别器。这意味着理想情况下目标域中图像的预测图应该是暗的。例如,域判别器错误地预测前两个图像中红色边界框中的区域,这表明这些区域上的表示倾向于难以区分。因此,这些区域(天空)由FCAN精确分割。相反,域判别器正确地预测最后两个图像中的区域,表明区域表示仍然依赖于域。因此,对这些区域(自行车)的分割结果并不那么好。

5.5、半监督适应

表4.城市景观的半监督适应结果。

# of images FCN (On Cityscapes) FCAN (Semi-supervised)
0 - 46.60
50 47.57 56.50
100 54.41 59.95
200 59.53 63.82
400 62.53 66.80
600 65.39 67.58
800 67.01 68.42
1000 68.05 69.17

实践中的另一个常见情况是目标域中存在少量标记的训练示例。 因此,我们将FCAN扩展为半监督版本,将城市景观的训练集作为标记数据Xtl。 从技术上讲,进一步考虑了目标域中图像的像素级分类损失,然后方程(7)中的总体目标变为 max ⁡ F min ⁡ D { L a d v ( X s , X t ) − λ s L s e g ( X s ) − λ t L s e g ( X t l ) } \max_F \min_D \left\{ {\Bbb L}_adv({\Bbb X}_s , {\Bbb X}_t) - \lambda_s{\Bbb L}_{seg}({\Bbb X}_s) - \lambda_t{\Bbb L}_{seg}({\Bbb X}^l_t) \right\} maxFminD{Ladv(Xs,Xt)λsLseg(Xs)λtLseg(Xtl)}表4显示了mIoU表现随着来自目标域的标记训练数据的增加。 值得注意的是,FCN直接在目标域中的标记数据上学习,FCAN指的是我们的半监督版本。 正如预期的那样,如果在训练中仅包含目标域中的几百个图像,则FCAN的性能增益往往很大。 当增加Cityscapes的图像数量时,增益会逐渐降低。 即使数量达到1k,我们的半监督FCAN仍然略好于受监督的FCN。

5.6、BDDS的结果

深度学习(9)——无监督语义分割之全卷积域适应网络(译文)_第8张图片

图8. BDDS中语义分段结果的示例。

表5.对BDDS的不同无监督域适应方法的比较。

Method mIoU
FCNWild [9] 39.37
FCAN 43.35
FCAN(MS) 45.47
FCAN(MS+EN) 47.53

除Cityscapes数据集外,我们还将BDDS作为目标域来评估我们的FCAN的无监督设置。 表5总结了性能比较。特别是,FCAN的mIoU性能达到43.35%,比FCNWild提高了3.98%。 多尺度设置,即FCAN(MS),将性能提高到45.47%。 最后,通过融合来自ResNet-101,ResNet-152和SENet [11]的模型,集合版本FCAN(MS + EN)可以将mIoU提高到47.53%。 图8显示了BDDS中的三个语义分段示例,它们分别由FCN和FCAN输出。 显然,FCAN获得了更有希望的分割结果。 即使在天空中的反射(第二行)或云(第三行)的补丁的情况下,我们的FCAN也可以很好地分割天空。

6、结论

我们提出了完全卷积自适应网络(FCAN)架构,该架构探索了语义分割的域自适应。特别是,我们从appearance-level和representation-level适应的角度研究问题。为了验证我们的结论,我们已经在我们的FCAN中分别为每个目的设计了图像适应网络(AAN)和特征适应网络(RAN)。 AAN是在一个域中使用来自另一个域的“style”域渲染图像,从而导致跨两个域的外观不变。 RAN旨在以域对抗的方式指导表示特征学习,理想情况下输出域不变表示。从游戏视频(GTA5)转移到城市街景场景(Cityscapes)的实验验证了我们的建议和分析。更值得注意的是,我们在将游戏视频传输到驱动器 - 凸轮视频(BDDS)时实现了最先进的性能。我们未来可能的工作包括两个方向。首先,将在AAN中研究使用另一种统计模式渲染图像的语义内容的更高级技术。其次,我们将进一步将我们的FCAN扩展到其他特定的分割场景,例如室内场景分割或纵向分割,其中可以容易地生成合成数据。

你可能感兴趣的:(深度学习)