ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA

有预训练,460多m。

来源丨https://zhuanlan.zhihu.com/p/547671620

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA_第1张图片

Bidirectional Self-Training with Multiple Anisotropic Prototypes for Domain Adaptive Semantic Segmentation

Yulei Lu , Yawei Luo, Li Zhang, Zheyang Li, Yi Yang, Jun Xiao (ACM MM 2022)

论文:https://arxiv.org/abs/2204.07730

代码:github.com/luyvlei/BiSMAPs

任务介绍

近年来,随着深度神经网络的发展,语义分割任务取得了显著的进展。然而,令人满意的性能却伴随着昂贵标注代价,缓解标注成本问题的一个有效解决方法便是使用图形学仿真或者游戏引擎生成合成数据集。然而,域偏移(domain-shift)阻碍了在合成图像上训练的模型进一步部署在实际环境中。为了解决这个问题,领域适应(DA)方法提出了弥合源域和目标域之间的差距。在实际应用中,无监督域适应(unsupervised domain adaptation, UDA)由于不需要来自目标域的任何标记样例,最终将人工工作量降至最低而备受关注。

本文动机

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA_第2张图片

图1

首先,现有方法利用整个源域信息进行适应,忽略了一些困难和受干扰源域样本对目标域性能没有贡献甚至阻碍的事实。例如,GTA5的数据集包含大量关于山区的场景,而cityscape则没有。为了实现区域对齐,引入这些像场景的样本反而会使目标分布发生偏移。

第二,传统方式传统方法假设每个类别服从具有相同方差的各向同性分布,因此简单地使用单个特征质 作为原型,采用欧氏距离作为度量来评估候选特征与当前原型的相似度。通过这种方式,与原型足够接近的特性将被分配一个伪标签。然而,这一假设并不一定适用于语义分割的像素级特征。例如,“vegetation”是一个类,但它实际上包括树干树冠等不同的部分。当使用单一的原型来表示“vegetation”时,树干的特征可能会不恰当地映射到更接近“pole”的原型,如图1(a)所示。此外,简单地使用欧氏距离作为度量,而忽略每个类的方差,可能会进一步恶化相似类别之间的伪标签分配,如图1(c)所示。

本文方法

1. 双向自训练框架

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA_第3张图片

图2

双向的思想如图所示。它包括一个“前向过程”——利用源域原型在目标域内选择可靠的伪标签;一个互补的“反向过程”——利用目标域原型对源域的困难样本或干扰性样本进行“降级”。

在前向过程,我们改进了传统的自训练方法,引入“多重各向异性原型”来生成更准确的伪标签。在反向过程,我们生成源域可转移图(STM)来表示每个源样本在适应中的重要性,并相应地调整训练损失映射的权重。下面分别介绍前向过程和反向过程。

2. 前向过程——多重各向异性原型

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA_第4张图片

图3

为了缓解传统单质心的表示能力的不足,我们使用高斯混合模型来代替传统的单质心模型如图3所示。高斯混合模型的对数概率密度由如下公式得出:

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA_第5张图片

在源域上我们使用预训练过的语义分割模型抽取像素级特征,然后基于高斯混合模型求解各个类别的原型。在目标域上,基于同样的原型抽取出像素级特征后,我们基于公式(4)求解每个像素属于各个高斯混合模型的对数似然值作为特征与原型的相似度度量。最后使用公式(6)基于对数概率密度阈值来筛选出高置的样本。

3. 反向过程——源域样本降级

在目标域基于无监督聚类生成原型,对于源域特征,我们使用计算他与目标域原型最小的距离:

这里D(x)衡量了任意一个源域特征到目标域的距离,A代表聚类出来的目标域原型。

但是由于长尾分布的影响,头部类会得到一个比较高的权重,因此我们引入类别熵来平衡类别级的可迁移性,具体来说,我们使用归一化类别熵和特征距离的和求解出综合可迁移性:

其中e代表类别熵,d_mean代表平均特征距离。

4. 训练流程

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA_第6张图片

图5

训练遵循预训练+自训练的二阶段范式:

对于源域,基于可迁移图做加权的监督训练:

对于目标域,使用对称交叉熵和伪标签做监督训练:

另外领域数据增强和EMA模型,对训练施加一致性正则化:

最终损失由这3项构成,在预训练阶段,仅包含公式(10)的损失:

实验结果

1. 与其他方法对比

与其他SOTA方法比较,本文方法在GTA5->Cityscape任务上蒸馏前取得了57.7的性能,蒸馏后达到了61.2的性能,达到了SOTA的效果。

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA_第7张图片

2. 消融分析

在预训练阶段,源域可迁移图(STM)的引入相比baseline带来了1.9的性能增益,自训练阶段多重各向异性原型带来了9.1的性能提升。综合一致性正则和蒸馏技术,最终的性能达到了61.2.

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA_第8张图片

你可能感兴趣的:(深度学习宝典,语义分割,深度学习,人工智能)