*基于类平衡自我训练的无监督域自适应用于语义分割

基于类平衡自我训练的无监督域自适应用于语义分割
摘要:最近的深度网络实现了最先进的性能在各种语义分割任务中。尽管有这样的进步,但是这些模型在现实世界中面临挑战,它们存在很大的差别在已标签训练/源文件和预测/目标文件。这种差别被称为“域差别”,并且会严重的导致性能下降不能轻易的通过进一步增加表现力来补救。无监督域自适应(UDA)寻求在没有目标域标签的情况下解决这种问题。本文中,我们提出了一种新的基于迭代自训练程序的无监督域的自适应的网络框架,其中问题被表述为潜在的可变损失最小化,并且可以通过在目标数据上交替生成伪标签并使用这些伪标签重新训练模型来解决。在自训练之上,我们还提出了类平衡自训练的网络框架,以避免大量的类在伪标签生成上逐渐占主导地位,并且引入空间先验去细化生成的标签。综合实验表明本文提出的方法在多个主要UDA设置下取得了最先进的语义分割性能。

目录
1 引言 3
2 相关工作 4
3 初步措施 4
3.1 微调监督域自适应 4
3.2 自训练用于无监督域适应 5
4 提出的方法 5
4.1 带自定进度的自训练 5
4.2 类平衡自训练 6
4.3 自定进度的学习策略设计 7
4.4 融入空间先验 8
5 数值实验 10
5.1 小转变:跨城市适应 10
5.2 大转变:合成到现实的适应 10
6 结论 12

1 引言
语义分割是计算机视觉核心任务,其中一个目的是密集地为输入图像中的每个像素分配标签。在过去十年中,该领域投入了大量精力[1,5,6,9,10,13,20,38,39,44,45], 最近深度代表性学习的进展取得了相当大的进步[15, 19, 31]。开放的基准数据集的竞赛已经取得了很多强大的模型,这些模型在这些基准数据集上产生过拟合。尽管基准性能的界限已经被推到了新的极限,经常在实际应用中遇到挑战,例如自动驾驶,其需要无处不在的感知模块的良好性能。这是因为基准数据集通常偏向于某个特定的环境,而测试场景可能会遇到大的问题它由许多因素引起的,包括地理位置,照明,摄像机,天气状况等的变化。在这种情况下,即使强大的模型的性能也经常急剧下降,并且这样的问题通过进一步建立增强模型能力不能轻易地纠正 [9,16,17]。
提高网络泛化能力的一个自然想法是收集和注释覆盖更多不同场景的数据。但是,密集注释图像是耗时且耗劳动力。例如,每个城市景观图像平均需要大约90分钟来注释[10]。为了克服这个约束,努力从渲染的场景有效地生成密集注释的图像,例如(GTA5)[24]和SYNTHIA [26]。然而,模拟/真实域之间的大的外观差距显着降低综合训练的模型的性能。
根据上述的问题,我们关注语义分割的无监督域自适应的挑战性问题,针对无监督适应在带标签的源域训练分割模型到目标域且不知道目标标签。最近,无监督的域自适应已被广泛用于分类和检测任务。有一个主要趋势是使用基于对抗训练的方法来匹配源特征和目标特征的分布[3,9,12,17,29]。尤其是,这些方法旨在最小化域对抗性损失,以减少源和目标特征分布之间的全局和类别差异,同时通过最小化特定任务的损失来保持源域任务的良好性能。
基于域自适应的对抗训练的方法最近取得了巨大成功。然而,在这项工作中,我们表明,通过采用另一种方式而不使用对抗性训练,可以获得类似甚至更好的适应性能。而不是通过混淆域鉴别器来尝试进行调整,而是将特征空间对齐和任务本身统一在一个统一的损失之下,这在第4节中给出。在单一的统一损失下,我们将全局和类别特征对齐结合作为我们统一任务的一部分,而不是考虑特征匹配和分类任务分开。
具有手工特征的传统自训练方法是一种常见的半监督学习方法,可以为源数据和目标数据学习更好的决策边界。通常这些方法不考虑特征分布匹配。但与CNN相结合,自训练变成一个强大的域自适应方法,不仅可以学习更好的决策边界,还可以找到匹配的源和目标分布的特征空间。本质上,由softmax交叉熵损失引导的自训练中的特征学习不仅鼓励源和目标特征的全局接近,而且还促进分类特征对齐。基于CNN的自训练方法与基于全局和类别特征对齐方法的对抗训练具有相同的目标[9,17],但它试图通过更简单和更优雅的方式来解决域自适应。
基于域自适应的自训练领域用于语义分割是不先进的。我们提出了一个典型的基于CNN的自训练(ST)框架,用于语义分割中的域自适应,其工作流程如图所示。以GTA5→Cityscapes为例进行调整。通过交替地生成对应于目标域中的大选择分数(即,softmax概率)的一组伪标签来执行自训练。然后根据这些伪标签和标记的源数据微调网络。应该提到的是,自训练假设预测概率较大的目标样本具有更好的预测精度。源域和目标域之间的视觉(例如,外观,规模等)域差别通常是类间的不同。这可能导致网络不同的难度在每个类别学习可迁移知识的时候。例如,不同的国家可能有不同的建筑景观和植物,但交通灯和车辆是相似的。因此,源域训练模型更难以学习建筑和植物的可迁移知识相比交通灯和车辆。此外,源域的不平衡类分布,源分布和目标分布之间的差异也会导致难度不同在不同类别之间的迁移学习。这导致目标域中各种类的不同预测置信水平。由于自训练选择具有较大置信度的伪标签,因此倾向于偏向容易转移的类而忽略其他类并且具有较差的适应性能。
总之,我们在本文中专注于基于自训练的语义分割自适应方法。 我们的贡献如下。·
 构建一个深层网络,我们引入了自训练且自定进度的学习适应框架用于分割。我们将其表示为混合整数非线性程序形式的损失最小化问题,可以以端到端的方式求解。域不变特征和分类器期望被学习。
 为了解决ST中伪标签的类不平衡问题,我们提出了一种新的类平衡自训练(CBST)应用于语义分割。提出CBST利用按类别归一化的置信度分数来选择和生成具有平衡类分布的伪标签。
 此外,我们观察到交通场景有其自身的空间结构,并引入了空间先验(SP)的概念。我们将空间先验加入提议的自训练,从而实现具有空间先验(CBST-SP)的类平衡自训练。由空间先验加权的概率分数用于伪标签生成度量。
 我们全面评估了适应大规模渲染图像数据集SYNTHIA / GTA5的方法,对于真实的图像数据集,城市景观,并实现最先进的性能,大幅超越其他方法。我们还在跨城市适应设置中测试我们的方法,cityscapes到NTHU数据集,并实现最先进的性能。
2 相关工作
深度学习的革命引发了对基于深度神经网络的语义分割的广泛兴趣。Long et al. [20] 提出了一种用于像素级分类的完全卷积网络。最近,一些研究人员提出了强大的分割网络,如ResNet-38,PSPNet等[38,39,44]。
无监督域适应已经在计算机视觉中被广泛研究,主要用于分类和检测任务。在深度神经网络时代,主要的适应思想是通过以端到端的方式最小化源和目标特征分布之间的差异来学习域不变特征[11,12,14,21,32,35,37]。其中,有几种方法利用最大均值差异(MMD)及其内核变量来实现特征分布差异最小化的目标。最近,人们越来越关注利用基于对抗性学习的方法来缩小源域和目标域之间的差距[14,21,36,37]。无监督域适应的另一个重要策略是基于自训练[4,47],它在视觉和自然语言处理中有很多应用[22,25,40,47]。Tang et al. [33] 提出了一种自适应的适应性,通过以易于难的方式学习标记的源样本和具有伪标签的目标数据,将对象检测模型从图像转换到视频。Chen etal. [7]提出了一个适应框架,通过使用来自共同训练的想法,从源域到目标域慢慢调整其训练集。Bekker [2] et al. 解决了噪声标签的问题。正如[43]指出的那样,解决分类的方法不能很好地转化为语义分割问题。因此,最近用于语义分割的域自适应已成为热门话题。一些研究人员专注于利用对抗性学习来最小化特征空间的域差别。[9,17]提出了像素级别对抗域自适应方法,以减少特征空间中的域差别。基于领域对抗性训练,[28]引入了一个批评网络,检测边界附近的样本和生成器可以为目标域生成判别特征。[43]提出了一种课程适应方法,以规范目标域中预测的标签分布,以遵循源域中的标签分布。解决域适应问题的另一个可能方向是利用样式转移技术将带注释的源域图像样式化为目标域图像。根据这一想法,基于样式转移网络CycleGAN [46],[16]提出了一种周期一致的自适应框架,将周期一致性损失与对抗性损失相结合,从而最小化像素级和特征级域差别。
3 初步措施
3.1 微调监督域自适应
如果源和目标中相同任务的标签都可用,则可能最直接的方式来执行域自适应,并对两个域上的模型进行微调。对于语义分割网络中softmax作为输出,自适应问题可以表示为最小化下面的损失函数:

其中Is表示索引的源域中的图像s = 1, 2, …, S, ys,n人工标记在 Is的第n个像素(n = 1, 2, …, N) ,w网络的权重,Pn(w, Is) 是包含该类的softmax输出像素n处的概率。类似的定义适用于It,yt,n和Pn(w,It)。
3.2 自训练用于无监督域适应
在无监督域适应的情况下,目标的人工标签是不可用。微调分割模型的另一种方法是
将目标标签视为可以学习的隐藏变量。 因此,问题可以表述如下:

其中yˆ表示目标标签集,C是类别的数量,and e(i) a one-hot vector.关于yˆ通过最小化(2)式,优化的yˆ会近似于真实目标的人工标记。域自适应随后可以近似的表示为(1)式。我们称yˆ为伪标签,并且称这个训练策略为自训练。
4 提出的方法
4.1 带自定进度的自训练
共同学习模型并优化未标记数据上的伪标签自然是困难的,因为不可能完全保证所生成的伪标签的正确性。一个更好的策略是遵循“由易到难”通过自定进度课程学习的方案,其中我们试图从生成的伪标签中找到置信度最高的那个预测标签并且希望他们大多数是正确的。一旦模型更新且能更好的适应目标域,随后这个方案会寻找剩余的低置信度的标签。为了结合课程学习,我们考虑如下所示的自训练方程:

当设定ys,n为0我们就忽略伪标签在模型中训练,L1正则化作为负稀疏推广项以防止忽略所有伪标签的零解。k是控制忽略的伪标签数量的超参数。较大的k鼓励模型训练选择更多伪标签。为了最小化方程(3)中的损失,我们采用如下替代块坐标下降算法:
a) 关于yˆt,n.修复(初始化)w且最小化方程3中的损失。
b) 关于w修复yt,n并优化方程式(3)中的目标。
我们称之为a)的一步,然后是b)的一步作为一轮。在这项工作中,我们提出了一种自训练算法,其中步骤a)和步骤b)交替重复多轮。显然,步骤a)从目标域中选择最有置信度的伪标签的某一部分,步骤b)在给定步骤a)中给出的伪标签去训练网络模型。图1示出了GTA5→Cityscapes的域适应提出的算法流程。
求解步骤b)导致具有随机梯度下降的网络学习。然而,在给定对离散变量的优化的情况下,求解步骤a)需要非线性整数编程。给定k>0,步骤a)可以重新表示为:

由于yt,n是需要离散的单热矢量或零矢量,可以通过以下方程优化伪标签配置:

与传统的自训练不同,手工标注的特征图可以学习到域不变的分类器,基于CNN的自训练不仅可以学习域不变的分类器,还可以学习域不变的特征。softmax损失默默地尝试减少特征空间中的域差异。此外,selftraining还具有缺失值(伪标签)问题,类似于EM算法。所提出的替代优化方法可以在不先观察目标域标签的情况下学习模型的权重。
可以注意到,提出的框架类似于[33]和其他几个相关的工作。然而,在单一学习框架下,伪标签生成与课程学习上意义一致,提出了更泛化的模型通过自训练和自定进度的学习。更重要的是,就具体应用而言,上述自训练框架揭示了适应语义分割模型的相对新方向。我们将证明,与主要基于对抗性训练的许多现有技术方法相比,基于自训练的方法导致相当好或竞争性能。
4.2 类平衡自训练
正如第一节所提到的,视觉域差别和类别分布的差异可能导致类别之间的域转移难度不同,导致目标域中易转移的类别的预测置信度得分相对较高。由于自训练生成对应于较大置信度的伪标签,因此出现了一个问题,即模型往往偏向于这些最初好转移的类,并忽略了训练过程中的其他难的类。因此,自训练难以在多类别自适应问题中表现良好。为了解决这个问题。我们提出了类平衡自训练的框架,其中类别置信度等级被规范化为:

其中每个kc是一个单独的参数,用于确定类c中所选伪标签的比例。正如我们观察到的那样,kc之间的差异为伪标签选择引入了不同级别的类别偏差,并解决了类内平衡问题。
类平衡自训练的优化流程与方程式(3)相同除了伪标签的生成。同样,我们可以将伪标签的优化的步骤重写为:

注意公式(7)中的损失函数不能通过方程(3)的求解器随便地最小化。相反,优化方程(7)要求遵循类平衡求解器:

从式8中,我们可以看到方程(6)中的伪标签生成,不再依赖于输出pn(c | w,It),但取决于归一化输出 。伪标签使用归一化输出拥有相对低分的类会是平衡的但是有高的类内置信度的好处。因此,kc应该以exp(-kc)编码每个类的响应强度来平衡不同类的某种方式设置。此外,对于CBST,只有当所有平衡响应都小于1时,才会过滤任意像素的伪标签。也可能有多个类 。在这种情况下,选择具有最大平衡响应的类。
4.3 自定进度的学习策略设计
从前一节确定自训练的k,我们知道k在过滤掉小于k的概率的伪标签中起着关键作用。为了控制每轮中所选伪标签的比例,我们根据以下策略设置k:
我们采用每个像素的最大输出概率,并按降序对所有像素位置和所有目标图像进行排序。然后我们每轮(p ∗ T ∗ N)设置k使得exp(-k)等于已排名的概率。其中p是[0,1]之间的比例数。在这种情况下,伪标签优化产生p×100%置信度最大的伪标签用于网络训练。上述策略可以总结在算法1中。

我们设计了自定进度的学习策略,以便为每一轮额外添加更多伪标签。特别地,我们从20%开始p,并且在每一轮额外的伪标签生成中凭经验将5%添加到p。最大部分设置为50%。
确定CBST的kc,CBST中的kc政策也是如此定义的。尽管CBST似乎引入了比ST更多的参数,但我们提出了一种易于确定kc的策略,并有效地编码了类别置信度。
注意到算法2确定kc通过将所有像素作为类c且给类c一个概率排布,并每轮(p * Nc)设置kc使得exp(-kc)等于概率排名,其中Nc表示像素数预测为类别c,这种策略基本上将与每个分开的类别概率排在p×100%,作为阈值和置信度归一化的参考。比例变量p及其增加的政策是与ST完全相同。
4.4 融入空间先验
为了适应街景的模型,我们可以利用空间先验知识。交通场景具有共同的结构。例如,天空不太可能出现在底部,道路不太可能出现在顶部。如果源域和目标域中的图像视图相似,我们相信这些知识可以帮助调整源模型。因此,我们引入空间先验,类似于[30],通过计算源域中的类频率,然后用70×70高斯核平滑。特别地,我们使用qn(c)来预测像素n处的类别c的频率。在获得类频率之后,我们也通过 要求将它们标准化。图2显示了空间先验的热力图,根据GTA5数据集计算,其中黄色代表高能量和蓝色代表低能量。
将空间先验引入提出的CBST,我们将softmax输出与空间先验相乘,并将结果潜力视为伪标签生成中的选择度量:我们将softmax输出与空间先验相乘,并将结果潜能视为伪标签生成中的选择度量:

我们将上述算法表示为CBST-SP。工作流程和自定进度学习策略与CBST相同,除了潜在的qn(c)pn(c | w,It)是用于替换CBST中的pn(c | w,It)。应该指出的是,纳入空间先验不会改变网络训练,因为qn(c)可以取出log(·)作为常量。
5 数值实验
在本节中,我们通过对三个基准数据集进行实验,对所提出的方法进行全面评估。我们首先考虑从cityscapes转向NTHU数据集的跨城市适应案例[9]。在[9]之后,我们选择Cityscapes的训练集作为源。NTHU数据集包含4001,024×2,048来自4个不同城市的:罗马,里约,东京和台北。我们还考虑两个具有挑战性的问题:从SYNTHIA [26]到Cityscapes [10],从GTA5 [24]到Cityscapes。我们使用SYNTHIA-RANDCITYSCAPES子集,包括标记的9,400 760×1280图像。GTA5数据集包括从GTA5捕获的带注释的24,966 1,052×1,914个图像。Cityscapes的验证集被视为目标域。
实施细节 我们使用FCN8s-VGG16 [20]作为SYNTHIA到Cityscapes和GTA5到Cityscapes的基础网络,以便与使用相同基网的其他方法进行公平比较。此外,我们通过更好的模型ResNet-38 [39]来提升我们方法的性能。在跨城市环境中,我们通过CBST与ResNet-38展示最先进的性能。 这些网络在ImageNet上进行了预训练[27]。 SGD通过MXNET已被用于训练所有模型[8]。我们使用NVIDIA Titan Xp。 在CBST和CBST-SP实验中GTA5到cityscapes和cityscapes到NTHU,我们使用硬样本挖掘策略,根据目标预测部分挖掘最少的预测类。挖掘类是最差的5类,最优先考虑的是类比例小于0.1%的类。其他更多细节在补充文件中提供。

5.1 小转变:跨城市适应
NTHU数据集包含与Cityscapes共享的13个类。我们遵循与[9]相同的协议使用10倍交叉验证。指出每个类的IoU(Intersection-overUnion)和mIoU(平均IoU)。表1显示了结果。 与最先进的技术相比,我们的CBST实现了卓越或竞争的性能。
5.2 大转变:合成到现实的适应
从SYNTHIA 到 Cityscapes 我们遵循相同的评估协议和其他工作一样[17,43],我们选择SYNTHIA和CITYSCAPES之间的16个相同类作为有效标签。还有另外一个设置只考虑13个类别,不包括墙,围栏和杆[34].
表2报告了结果。mIoU *是13个类别的平均IoU,不包括以FCN8s-VGG16为基础模型的类,与其他方法相比,我们的CBST表现得很有竞争力。配备更好的基础网ResNet-38,CBST的性能优于最先进的ST,具有FCN8s-VGG16或ResNet-38的CBST可以为这些最初不能很好转移的类的mIoU和IoU实现更好的性能,如墙,骑手,摩托车和自行车。SYNTHIA(汽车障碍物)中栅栏的外观与城市景观(行人障碍物)中的栅栏极为不同,并且模型很难从SYNTHIA到Cityscapes学习栅栏的可迁移知识。图3给出了Cityscapes中的可视化分割结果。

From GTA5 to Cityscapes 表3给出了共享19类的实验结果。以FCN8s-VGG16为基本模型的结果,ST的性能表明适应的模型会很容易地偏向最初的易转移的类。然而,CBST不仅实现了比ST更好的mIoU,而且对于这些最初的难以转移的类别也获得了更好的IoU。此外,由于来自GTA5和Cityscapes的图像具有相似的视图结构,我们评估了我们提出的CBST-SP,实现了mIoU 36.1,这比使用强大的基础模型ResNet-50 [28]和DenseNet [23]的结果更好。配备强大的ResNet-38型号,我们的方法获得了更好的分数46.2,大大优于其他方法。多尺度测试(0.5,0.75,1.0)将mIoU提升至47.0。图4给出了Cityscapes中的可视化分割结果。

6 结论
在本文中,我们提出了一种基于深度神经网络的自训练(ST)框架,用于在语义分割的背景下进行无监督域自适应。ST被公式化为损失最小化问题,允许以端到端的方式学习域不变特征和分类器。引入了类平衡自训练(CBST)来克服通过生成具有平衡类分布的伪标签在类之间转移困难的不平衡问题。此外,如果图像视图中存在小的域差异,我们可以将空间先验(SP)合并到CBST中,从而产生CBST-SP。我们通过实验证明,我们提出的方法可以获得优异的结果,大大超过其他最先进的方法。我们凭经验证明我们提出的方法与对抗域适应方法兼容。

你可能感兴趣的:(论文)