【CVPR2022】DAFormer: 改进领域自适应语义分割的网络架构和训练策略

【CVPR2022】DAFormer: 改进领域自适应语义分割的网络架构和训练策略_第1张图片
Code:https://github.com/lhoyer/DAFormer
Paper: https://openaccess.thecvf.com/content/CVPR2022/papers/Hoyer_DAFormer_Improving_Network_Architectures_and_Training_Strategies_for_Domain-Adaptive_Semantic_CVPR_2022_paper.pdf

文章目录

  • Abstract
  • 一、方法
    • 1. Self-Training (ST) for UDA
    • 2. DAFormer Network Architecture
    • 3. Training Strategies for UDA
  • 二、实验


Abstract

由于获取真实世界图像的像素级注释以进行语义分割是一个昂贵的过程,因此可以用更容易访问的合成数据来训练模型,并适应真实的图像,而不需要它们的注释。在无监督领域自适应(UDA)中研究了这一过程。尽管有大量的方法提出了新的自适应策略,但它们大多是基于过时的网络架构。由于近期网络架构的影响尚未得到系统的研究,我们首先对UDA的不同网络架构进行了基准测试,并新地揭示了变压器在UDA语义分割中的潜力。基于这些发现,我们提出了一种新的UDA方法,DAFromer。DAfrom的网络架构由 Transformer encoder and a multi-level context-aware feature fusion decoder 组成。它是由三个简单但至关重要的训练策略来稳定训练和避免过拟合源域:
(1)在源域上的罕见类采样,通过减少自训练对公共类的确认偏差来提高伪标签的质量,(2)a Thing-Class ImageNet Feature Distance 和(3)学习率预热(learning rate warmup)促进了ImageNet预训练的特征转移.DAFormer represents a major advance in UDA. It improves the state of the art by 10.8 mIoU for GTA→Cityscapes and 5.4 mIoU for Synthia→Cityscapes and enables learning even difficult classes such as train, bus, and truck well.


一、方法

1. Self-Training (ST) for UDA

在UDA,神经网络gθ训练使用源域图像XS和一个one-hot标签YS。为了在目标图像XT实现良好的性能在没有访问目标标签YT(without having access to the target labels)。在源域上使用分类交叉熵(CE)损失来Naively训练网络gθ:
在这里插入图片描述
由于网络不能很好地推广到目标域,通常导致目标图像的性能较低。为了解决这一领域的差距,人们提出了几种策略:对抗训练[31,72,78]和自我训练(ST)[71,94,100]方法。在这项工作中,我们使用ST作为对抗训练是已知的不稳定的,目前优于ST方法。为了更好地将知识从源域转移到目标域,ST方法使用教师网络hφ来为目标域数据生成伪标签:
在这里插入图片描述
请注意,任何梯度都不会被反向传播到教师网络中。此外,还对伪标签进行了质量/置信度估计。
在这里插入图片描述
伪标签及其质量估计被用于在目标域上额外训练网络gθ:
在这里插入图片描述
这些伪标签可以通过在线[1,71,99]或离线[89,100,101]来生成。我们选择了在线ST,因为它的设置不那么复杂,只有一个训练阶段。在在线ST中,hφ在培训期间基于gθ进行更新。通常,权值hφ被设置为每个训练步骤t[69]后gθ的权值的指数移动平均值,以增加预测的稳定性:
在这里插入图片描述
ST已经被证明是特别有效的如果学生网络gθ训练增强目标数据,而教师网络hφ生成伪标签使用非增强目标数据半监督学习[17,65,69]和无监督域适应[1,71]。在这项工作中,我们遵循DACS[71]和使用颜色抖动,高斯模糊,类Mix[56]数据增强学习更多的领域健壮的特性。

2. DAFormer Network Architecture

我们假设鲁棒性是为了实现良好的域自适应性能的一个重要特性,因为它促进了域不变特征的学习。基于最近的发现,[3,55,57]和UDA的架构比较,Transformers[15,70]是UDA的一个很好的选择,因为它们满足这些标准。
【CVPR2022】DAFormer: 改进领域自适应语义分割的网络架构和训练策略_第2张图片
以往关于使用变压器骨干的语义分割的工作通常只利用解码器[81,87,97]的局部信息。相反,我们建议在解码器中使用额外的上下文信息,因为这已经被证明可以提高语义分割[36]的鲁棒性,这是UDA的一个有用的特性。

3. Training Strategies for UDA

Rare Class Sampling (RCS):对于源数据集中罕见的类的UDA性能在不同的运行中存在显著差异。稀有类采样(RCS)更频繁地采样来自源域的罕见类的图像,以便更好地和更早地学习它们。源数据集中每个类c的频率fc可以根据类c的像素数来计算:
【CVPR2022】DAFormer: 改进领域自适应语义分割的网络架构和训练策略_第3张图片
某一类c的采样概率P©被定义为其频率fc的函数:
在这里插入图片描述
频率越小的类的采样概率就越高。温度T控制着分布的平滑度。
Thing-Class ImageNet Feature Distance (FD):我们假设ImageNet预训练的有用特征被loss LS破坏,并且模型对合成源数据的过拟合。为了防止这一问题,我们基于语义分割UDA模型gθ的瓶颈特征Fθ的特征距离(FD)和ImageNet模型的瓶颈特征对模型进行了正则化:
在这里插入图片描述
ImageNet模型主要是训练事物类thing-classes(具有明确形状的物体,如汽车或斑马),而不是东西类 stuff-classes(非定形的背景区域,如道路或天空)[4]。因此,我们只计算包含由二值掩码描述的事物类c的图像区域的FD损失:
在这里插入图片描述
这个掩模是从缩小比例的标签yS中获得的,很小
在这里插入图片描述
为了将标签降采样到瓶颈特征大小,对每个类通道应用平均池,当一个类超过比率r时保留一个类:
在这里插入图片描述
总体UDA损失是所呈现的损失分量的加权和:在这里插入图片描述
Learning Rate Warmup for UDA:线性升温学习率[23]开始训练已经成功地用于训练网络[25]和变压器[15,75]因为它改善网络泛化[23]通过避免一个大的自适应学习率方差扭曲了梯度分布训练[46]的开始。在热身到迭代期间,迭代t的学习率设置为在这里插入图片描述

二、实验

【CVPR2022】DAFormer: 改进领域自适应语义分割的网络架构和训练策略_第4张图片
【CVPR2022】DAFormer: 改进领域自适应语义分割的网络架构和训练策略_第5张图片


你可能感兴趣的:(深度学习,机器学习,人工智能)