ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA!

作者 | III  编辑 | 汽车人

原文链接:https://zhuanlan.zhihu.com/p/547671620

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心技术交流群

后台回复【数据集下载】获取计算机视觉近30种数据集!

【文章信息】

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA!_第1张图片

Bidirectional Self-Training with Multiple Anisotropic Prototypes for Domain Adaptive Semantic Segmentation

Yulei Lu , Yawei Luo, Li Zhang, Zheyang Li, Yi Yang, Jun Xiao (ACM MM 2022)

论文:https://arxiv.org/abs/2204.07730

代码:github.com/luyvlei/BiSMAPs

【任务介绍】

近年来,随着深度神经网络的发展,语义分割任务取得了显著的进展。然而,令人满意的性能却伴随着昂贵标注代价,缓解标注成本问题的一个有效解决方法便是使用图形学仿真或者游戏引擎生成合成数据集。然而,域偏移(domain-shift)阻碍了在合成图像上训练的模型进一步部署在实际环境中。为了解决这个问题,领域适应(DA)方法提出了弥合源域和目标域之间的差距。在实际应用中,无监督域适应(unsupervised domain adaptation, UDA)由于不需要来自目标域的任何标记样例,最终将人工工作量降至最低而备受关注。

【本文动机】

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA!_第2张图片 图1

首先,现有方法利用整个源域信息进行适应,忽略了一些困难和受干扰源域样本对目标域性能没有贡献甚至阻碍的事实。例如,GTA5的数据集包含大量关于山区的场景,而cityscape则没有。为了实现区域对齐,引入这些像场景的样本反而会使目标分布发生偏移。

第二,传统方式传统方法假设每个类别服从具有相同方差的各向同性分布,因此简单地使用单个特征质 作为原型,采用欧氏距离作为度量来评估候选特征与当前原型的相似度。通过这种方式,与原型足够接近的特性将被分配一个伪标签。然而,这一假设并不一定适用于语义分割的像素级特征。例如,“vegetation”是一个类,但它实际上包括树干树冠等不同的部分。当使用单一的原型来表示“vegetation”时,树干的特征可能会不恰当地映射到更接近“pole”的原型,如图1(a)所示。此外,简单地使用欧氏距离作为度量,而忽略每个类的方差,可能会进一步恶化相似类别之间的伪标签分配,如图1(c)所示。

【本文方法】

1. 双向自训练框架

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA!_第3张图片 图2

双向的思想如图所示。它包括一个“前向过程”——利用源域原型在目标域内选择可靠的伪标签;一个互补的“反向过程”——利用目标域原型对源域的困难样本或干扰性样本进行“降级”。

在前向过程,我们改进了传统的自训练方法,引入“多重各向异性原型”来生成更准确的伪标签。在反向过程,我们生成源域可转移图(STM)来表示每个源样本在适应中的重要性,并相应地调整训练损失映射的权重。下面分别介绍前向过程和反向过程。

2. 前向过程——多重各向异性原型

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA!_第4张图片 图3

为了缓解传统单质心的表示能力的不足,我们使用高斯混合模型来代替传统的单质心模型如图3所示。高斯混合模型的对数概率密度由如下公式得出:

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA!_第5张图片

在源域上我们使用预训练过的语义分割模型抽取像素级特征,然后基于高斯混合模型求解各个类别的原型。在目标域上,基于同样的原型抽取出像素级特征后,我们基于公式(4)求解每个像素属于各个高斯混合模型的对数似然值作为特征与原型的相似度度量。最后使用公式(6)基于对数概率密度阈值来筛选出高置的样本。

fd0b94bce59199be028a1da72f687a68.jpeg

3. 反向过程——源域样本降级

在目标域基于无监督聚类生成原型,对于源域特征,我们使用计算他与目标域原型最小的距离:

c86cd221f74612102623b3036459a178.png

这里D(x)衡量了任意一个源域特征到目标域的距离,A代表聚类出来的目标域原型。

但是由于长尾分布的影响,头部类会得到一个比较高的权重,因此我们引入类别熵来平衡类别级的可迁移性,具体来说,我们使用归一化类别熵和特征距离的和求解出综合可迁移性:

6c93195adfb35e11fd5701629f17253d.png 1215de88fcaaf543dc80f261486b43c4.png

其中e代表类别熵,d_mean代表平均特征距离。

4. 训练流程

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA!_第6张图片 图5

训练遵循预训练+自训练的二阶段范式:

对于源域,基于可迁移图做加权的监督训练:

594d070f0ceb44c45d1ef1a8afa098b2.jpeg

对于目标域,使用对称交叉熵和伪标签做监督训练:

3cb3400a0d1c0c6f3c870a90120d6b34.jpeg

另外领域数据增强和EMA模型,对训练施加一致性正则化:

3cc1f6c4b298491c9c4a86d13b422d7f.png

最终损失由这3项构成,在预训练阶段,仅包含公式(10)的损失:

d49e5bad589668b375fa917c8e84b8dd.png

【实验结果】

1. 与其他方法对比

与其他SOTA方法比较,本文方法在GTA5->Cityscape任务上蒸馏前取得了57.7的性能,蒸馏后达到了61.2的性能,达到了SOTA的效果。

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA!_第7张图片

2. 消融分析

在预训练阶段,源域可迁移图(STM)的引入相比baseline带来了1.9的性能增益,自训练阶段多重各向异性原型带来了9.1的性能提升。综合一致性正则和蒸馏技术,最终的性能达到了61.2.

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA!_第8张图片

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、多传感器融合、SLAM、光流估计、轨迹预测、高精地图、规划控制、AI模型部署落地等方向;

加入我们:自动驾驶之心技术交流群汇总!

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA!_第9张图片

你可能感兴趣的:(计算机视觉,机器学习,人工智能,深度学习,算法)