Multi-Target Domain Adaptation with Collaborative Consistency Learning

全文翻译

摘要

由于在真实世界图像上进行像素级标注的成本很高,最近用于语义分割任务的无监督域适应变得越来越流行。然而,大多数域适应方法仅限于单源单目标对,无法直接扩展到多个目标域。在这项工作中,我们提出了一个协作学习框架来实现无监督的多目标域适应。首先为每个源-目标对训练一个无监督的域适应专家模型,并通过在不同目标域之间建立的桥梁进一步鼓励相互协作。这些专家模型进一步改进,增加了对具有相同结构化上下文的每个样本进行一致的像素级预测的正则化。为了获得跨多个目标域的单一模型,我们提出同时学习一个学生模型,该模型不仅可以模仿每个专家在相应目标域上的输出,还可以通过对不同专家的权重进行正则化来拉近不同专家之间的距离。大量实验表明,所提方法能够有效利用标记源域和多个未标记目标域中包含的丰富结构化信息。它不仅在多个目标域上表现良好,而且与在单个源-目标对上专门训练的最先进的无监督域适应方法相比,也表现良好。代码在https://github.com/junpan19/MTDA.上可用

1 .引言

语义分割旨在通过将每个像素分配给一个语义类[ 33、6、7、55、63]来解释图像。近年来,语义分割取得了令人瞩目的进展,被广泛应用于智能系统如自动驾驶、人机交互等低层视觉任务[ 22、21、23]。它的成功主要归功于对大量标注数据的监督学习。然而,人类在像素级标注上的努力是昂贵的,这在很大程度上限制了分割模型的可扩展性。随着游戏引擎模拟的大量低成本和多样化的合成数据的出现,无监督域适应( UDA )引起了广泛的关注,以使在合成数据上学习到的模型适应真实数据。无监督域适应方法[ 28、51、59、34、4、61、36、37]通过在有标记的源域和无标记的目标域上训练模型来缓解域不匹配问题。
然而,传统的无监督域适应在语义分割中的设置通常局限于单源-单目标对,如图1 ( a )所示。学习到的模型只适用于单一目标域,无法轻易扩展到多个目标域,即多目标域适应( MTDA )。通过这样的设置,期望能够学习到一个能够充分利用来自单个有标签源域和多个无标签目标域的数据,同时在多个目标域上表现良好的单一模型。这种设置在实际应用中具有很大的价值。例如,在自动驾驶中,人们期望在不同的光照、天气和城市景观的各种环境中都有一个模型工作。对于这种不同的环境,很难收集到有标注的数据,但容易产生大量的无标注数据。
关于MTDA [ 14、40、56]已经有了一些工作,但是大部分工作都集中在分类任务上。针对多目标领域自适应设置下的语义分割任务,相关工作开展较少。据我们所知,这是第一个探索多目标域适应语义分割的工作。该任务面临的主要挑战有两个方面:( 1 )在多个目标域中缺乏像素级的监督信息,导致挖掘固有的、可迁移的知识非常困难;( 2 )很难有一个模型在多个目标域上都能很好地工作。有两种直观的方法可以将成对DA扩展到多个目标域:( 1 )对每个目标域分别训练多个模型,( 2 )对来自多个目标域的组合数据训练单个模型。然而,直接使用多个模型并不能起到单领域模型集成的效果。模型调度不准确会增加实际应用中的危险风险。通过直接数据组合开发的模型很可能由于域之间的差异而导致性能下降。直觉上,一个以幼稚方式学习的通用专家对于每个目标领域的知识可能不如专业专家。
本文提出了一种新颖的面向多目标领域适应的协同一致性学习框架,该框架包括多个专家模型之间的协同一致性学习和在线知识蒸馏,以获得单一领域-通用学生模型。这项工作表明,一旦充分挖掘了域之间的连接,即每个源-目标域对之间以及目标域之间的连接,就可以获得比使用无监督域适应方法为每个源-目标域对学习的模型更好的性能。
在提出的协同一致性学习框架中,首先将来自所有领域的数据分别转换为每个目标领域的风格。通过这种方式,我们在每一对目标域之间搭建了一座桥梁,即来自同一域的图像被翻译成对应不同目标域的不同风格。对于每种风格,分别在源域的翻译标记数据和多个目标域的翻译未标记数据上训练语义分割模型。每个网络都是特定领域的专家,通过一种UDA损失和一个额外的一致性损失进行训练,该损失基于桥对相同内容但不同风格的图像的分割结果进行对齐。这种协同一致性学习有助于特定领域专家之间的知识交流。为了获得跨多个目标领域的单一模型,我们设计了一个学生模型,该模型的权重由多个专家的权重正则化,并通过知识蒸馏的方式由多个专家进行教学。通过这种方式,学生模型能够从跨多个领域的教师那里学习共同的语义知识。综上所述,我们做出以下贡献:

  • 据我们所知,这是第一个探索语义分割中无监督的多目标领域适应任务的工作;
  • 我们提出了一个新的协同一致性学习框架来处理语义分割中的MTDA任务,其中充分利用多个目标领域中的无标签数据来训练跨所有目标领域的单个模型;
  • 实验结果表明了所提方法的有效性。我们可以获得一个单一的模型,该模型不仅在多个目标域上都能很好地工作,而且在每个目标域上都能很好地对抗特定领域的模型。

2 .相关工作

2 . 1 .面向语义分割的无监督域适应

单目标域适应:UDA在分割中的一个典型做法是将在合成源域上训练的模型应用于真实的目标域。不幸的是,合成数据和真实数据之间的域偏移会恶化模型泛化[ 47,64,53]的性能。在源域和目标域之间寻找桥梁的方法主要有三类。第一类是基于对抗的UDA [ 47、35、9、29、18、19、50、42]方法,通过最大化特征[ 47、35、9、18、19]或熵空间[ 50、42]中源和目标之间的混淆来减少域差异。第二类方法尝试利用各种图像翻译技术[ 62,20 ]来学习领域不变表示,例如[ 53 ]中的目标到源的翻译,[ 31 ]中的双向翻译和[ 26 ]中的纹理多样化翻译。第三类方法尝试将自训练的[ 64、32、31、29、52、26、42]或模型集成的[ 54、50、8]应用于未标记目标域的进一步改进。尽管UDA用于分割是一个被广泛研究的课题,但之前的工作大多是在单目标域适应( STDA )的设置下解决UDA任务,在实际应用中存在局限性。此外,以往针对STDA的工作大多集中在充分利用已标记数据来提高未标记域[ 19,3,53]的性能。我们认为,充分利用未标记数据也有利于挖掘未标记数据中的信息,从而提高目标领域的最终性能。基于这些观察,多目标域适应( MTDA )在现实世界中是更现实的设置。
多目标域适应。直接将领域专用UDA扩展到多个目标域的方法有两种,即( 1 )为每个目标域单独训练多个模型( 2 )在多个目标域的组合数据上训练单个模型。遗憾的是,这些方法不适合处理MTDA问题,因为它们会因为多目标域的不匹配而导致性能下降。尽管已经做了一些工作来解决MTDA任务,但它们只专注于解决分类任务[ 14、40、56]。MTDA用于分割更具挑战性,因为它本质上是一个稠密像素预测任务。与我们最相关的工作是[ 40 ],它同样应用多个教师来获得每个目标领域的共同知识模型。然而,在[ 40 ]中,来自不同目标领域的无标签数据没有被充分利用来训练更强的教师,并且在线知识蒸馏在学生和教师上都没有任何正则化。
领域泛化。MTDA的任务还与领域泛化( Domain generalized,DG )有关,它试图通过学习源[ 25、12、1、58、30、57]的领域不变特征,将仅在源域上训练的模型泛化到多个看不见的目标域。Khosla等人[ 25 ]提出在源域的训练过程中,通过分解域特异性和域无关性成分来消除数据偏差。Yue等[ 30 ]提出通过对抗训练学习领域不变的特征表示。在文献[ 57 ]中,领域随机化和一致性增强训练都被用来学习一个具有合成图像的领域不变网络。相比于无目标域数据的DG任务,MTDA任务旨在通过充分挖掘无标签数据,为多个目标域训练模型。

2 . 2 .知识蒸馏

知识蒸馏( Knowledge Distillation,KD )在人脸识别、超分辨率和目标检测等实际应用中被广泛研究用于学习边缘设备的紧凑和空腹模型。KD的思想最早由文献[ 17 ]提出,其中使用学生模型来模拟教师预测的分布。通过将知识从教师传递给学生,学生模型的表现与教师模型[ 13、38、16、41、24]相当甚至更好。Zhang等[ 60 ]提出学习一个学生的集合,在整个训练过程中相互协作教学。在本文中,我们分享了与一般KD相似的理念,并将其适应于MTDA任务。在每个目标域中采用多个具有良好性能的特定领域专家模型作为教师,并期望学生在所有目标域中表现良好。学生由多名教师同时授课,同时也向所有教师反馈,所有这些都以在线方式实现。这就产生了使用合成图像训练的鲁棒域不变CNN。

3 .方法

3.1。概述

我们提出了一个新颖的框架来处理MTDA的语义分割任务。由于只有源领域的图像才有标注图,因此该任务的关键是充分利用给定的源领域数据,探索如何挖掘未标注目标领域中蕴含的丰富结构化信息。我们的解决方案是首先为每个目标领域训练一个专家模型,然后通过在不同目标领域之间建立的桥梁来鼓励专家模型同时相互协作。由于我们的最终目标是获得一个在所有目标领域都能很好工作的单一模型,因此我们将上述专家模型作为教师,并额外训练一个学生模型。它不仅学习模仿每个专家在相应目标域上的输出,还学习拉近不同专家之间的距离,并对其权重进行正则化。总体框架如图2所示。总体框架如图2所示。注意,所有这些都是同时进行的。
形式上,我们将源域的数据表示为 D s = \mathbb{D}_s= Ds= { ( I s , y s ) } \left\{\left(I_s, y_s\right)\right\} {(Is,ys)},第 m m m个目标域的数据表示为 D ι m = \mathbb{D}_{\iota_m}= Dιm= { I L m } \left\{I_{L_m}\right\} {ILm},其中 I s I_s Is and y s y_s ys 分别表示图像和相关的像素级标注。我们的工作目标是将 D s \mathbb{D}_s Ds 中的知识调整为 M M M个不与任何注释图关联的目标域 D t m \mathbb{D}_{t_m} Dtm

3 . 2 .面向多目标领域

专家MTDA学习的协同一致性学习:对于每个源-目标域对,我们使用现有的大多数无监督域适应方法[ 50、47]训练一个域适应模型。在这项工作中,我们在源域 D s \mathbb{D}_s Ds上训练了一个结合交叉熵损失用于分割和对抗损失用于结构自适应的模型,类似于[ 50、47]。然而,所提出的方法不是直接使用每个源-目标对中的数据来学习一个专家,而是使用所有域中可用的数据来学习一个专家。具体来说,对于特定目标领域的专家,首先应用风格迁移方法将所有领域的数据转换为该目标领域的风格。这样,不同域之间的差异在一定程度上得到了减小。具有不同的语义上下文但相同的风格有助于学习特定领域的UDA专家模型。此外,重新样式化的数据还充当了连接不同目标领域进行知识交流的桥梁。第m个目标域的专家模型与监督分割损失 L seg  m \mathcal{L}_{\text {seg }}^m Lseg m和对抗损失 L adv  m \mathcal{L}_{\text {adv }}^m Ladv m 联合优化如下:
L m = L seg  m ( P s t m , y s ) + λ a d v L a d v m \mathcal{L}^m=\mathcal{L}_{\text {seg }}^m\left(P_s^{t_m}, y_s\right)+\lambda_{a d v} \mathcal{L}_{a d v}^m Lm=Lseg m(Pstm,ys)+λadvLadvm
式中: P P P 为最后一层领域专家的输出。对于 I ( ⋅ ) ( ⋅ ) I_{(\cdot)}^{(\cdot)} I()() and P ( ⋅ ) ( ⋅ ) P_{(\cdot)}^{(\cdot)} P()(),上标表示翻译风格,下标表示对应的域。 L seg  m \mathcal{L}_{\text {seg }}^m Lseg m表示概率图与其像素级标注图 y s y_s ys之间的交叉熵目标。 λ a d v \lambda_{a d v} λadv 控制对抗损失的权重。 L a d v m \mathcal{L}_{a d v}^m Ladvm定义为:
L a d v m = E [ log ⁡ ( 1 − D m ( P t m ) ) ] + E [ log ⁡ D m ( P s t m ) ] + ∑ n = 1 n ≠ m M E [ log ⁡ ( 1 − D m ( P t n t m ) ) ] + E [ log ⁡ D m ( P s t m ) ] , \begin{aligned} \mathcal{L}_{a d v}^m= & \mathbb{E}\left[\log \left(1-D^m\left(P_{t_m}\right)\right)\right]+\mathbb{E}\left[\log D^m\left(P_s^{t_m}\right)\right] \\ & +\sum_{\substack{n=1 \\ n \neq m}}^M \mathbb{E}\left[\log \left(1-D^m\left(P_{t_n}^{t_m}\right)\right)\right]+\mathbb{E}\left[\log D^m\left(P_s^{t_m}\right)\right], \end{aligned} Ladvm=E[log(1Dm(Ptm))]+E[logDm(Pstm)]+n=1n=mME[log(1Dm(Ptntm))]+E[logDm(Pstm)],
该模型通过对抗训练使多个目标域与源域对齐并学习域不变信息。 D m D^m Dm 是一个判别器,用于对概率图进行分类,无论是源域还是由多个翻译后的目标域组成的综合目标域。注意,所有专家共享相同的网络架构,但每个专家具有不同的权重集。
协同一致性学习的知识交流:上述专家领域适应模型能够在相应的领域适应任务上给出合理的表现。然而,来自多个未标记目标域的数据中的权力尚未得到充分利用。对于来自某一目标域的数据,已被翻译成其他目标域的不同风格,但保留了相同的语义上下文。训练多个专家模型对具有相同语义上下文的每个样本进行一致的像素级预测。由于不同的专家模型在不同风格的样本上学习,他们以不同的方式学习像素级的分类能力,他们的预测结果也各不相同。正是这些不同的预测提供了一个机会,可以从其他专家那里学习互补的知识,并提取对语义分割性能真正重要的关键信息。因此,我们利用协作学习进行多个专家模型之间的知识交流。从其他专家到第m个专家协同学习的知识交换可以表示为:
L c l m = 1 M − 1 ∑ n = 1 n ≠ m M D K L ( P t n ∥ P t n t m ) \mathcal{L}_{c l}^m=\frac{1}{M-1} \sum_{\substack{n=1 \\ n \neq m}}^M \mathcal{D}_{K L}\left(P_{t_n} \| P_{t_n}^{t_m}\right) Lclm=M11n=1n=mMDKL(PtnPtntm)
式中: D K L \mathcal{D}_{K L} DKL 为概率图 P t n t m P_{t_n}^{t_m} Ptntm and P t n P_{t_n} Ptn之间Kullback-Leibler (KL)-divergence 的平均值。通过 L c l \mathcal{L}_{c l} Lcl训练领域 m m m的专家模仿其他 M M M-1 个领域专家的输出分布。这种知识交换鼓励每个专家以无监督的方式充分利用无标签数据。对第 m m m个领域专家的总体目标函数进行优化:
L expert  = 1 M ∑ n = 1 M ( L n + λ c l L cl  n ) \mathcal{L}^{\text {expert }}=\frac{1}{M} \sum_{n=1}^M\left(\mathcal{L}^n+\lambda_{c l} \mathcal{L}_{\text {cl }}^n\right) Lexpert =M1n=1M(Ln+λclLcl n)
其中, λ c l \lambda_{c l} λcl利用了一致性损失的重要性。

3 . 3 .在线知识蒸馏来自多个专家

我们已经说明了如何充分利用可用的有标签和无标签数据来训练多个领域专家,以提高他们的能力。然而,我们的最终目的是获得一个在多个目标领域表现良好的单一模型。我们提出从多个专家模型中在线提取知识,并在其模型权重上附加正则化。具体来说,在框架中加入学生网络,并由多位专家输出进行监督。
L okd  student  = 1 M ∑ n = 1 M D K L ( P t n ∥ Q t n ) \mathcal{L}_{\text {okd }}^{\text {student }}=\frac{1}{M} \sum_{n=1}^M \mathcal{D}_{K L}\left(P_{t_n} \| Q_{t_n}\right) Lokd student =M1n=1MDKL(PtnQtn)
其中 Q Q Q 为域类学生最后一层的输出。那么,领域泛化学生模型的整体优化目标可以定义为:
L student  = L seg  student  ( Q s , y s ) + λ adv  L adv  student  + λ okd  L okd  student  , \mathcal{L}^{\text {student }}=\mathcal{L}_{\text {seg }}^{\text {student }}\left(Q_s, y_s\right)+\lambda_{\text {adv }} \mathcal{L}_{\text {adv }}^{\text {student }}+\lambda_{\text {okd }} \mathcal{L}_{\text {okd }}^{\text {student }}, Lstudent =Lseg student (Qs,ys)+λadv Ladv student +λokd Lokd student ,
其中 λ o k d \lambda_{o k d} λokd分别是平衡在线知识蒸馏和权重正则化训练的权重因子。 L seg  student  \mathcal{L}_{\text {seg }}^{\text {student }} Lseg student 表示概率图 Q s Q_s Qs与其像素级标注图 y s y_s ys之间的交叉熵目标函数。对抗损失 L adv  student  \mathcal{L}_{\text {adv }}^{\text {student }} Ladv student  表示为:
L a d v student  = 1 M ∑ n = 1 M E [ log ⁡ ( 1 − D student  ( Q t n ) ) ] + E [ log ⁡ D student  ( Q s ) ] , \begin{aligned} \mathcal{L}_{a d v}^{\text {student }}= & \frac{1}{M} \sum_{n=1}^M \mathbb{E}\left[\log \left(1-D^{\text {student }}\left(Q_{t_n}\right)\right)\right] \\ & +\mathbb{E}\left[\log D^{\text {student }}\left(Q_s\right)\right], \end{aligned} Ladvstudent =M1n=1ME[log(1Dstudent (Qtn))]+E[logDstudent (Qs)],
式中: D student  D^{\text {student }} Dstudent 为训练领域通用学生模型的判别器。然而,由于多个专家之间的多样性,直接强迫一个学生向多个专家学习的表现是有限的。学生在同时提取来自不同专家的知识时可能会感到困惑。为了解决这个问题,我们建议让特定领域专家更接近学生。这样,专家之间的差距减小,学生更容易从这些专家中提取出共同有用的知识。领域专家 { F expert  m } m = 1 M \left\{F_{\text {expert }}^m\right\}_{m=1}^M {Fexpert m}m=1M和领域一般学生 F student  F_{\text {student }} Fstudent  之间的差距可以通过以下权重正则化项来减小:
L w r = 1 M ∑ m = 1 M ∥ θ m − θ student  ∥ 1 , \mathcal{L}_{w r}=\frac{1}{M} \sum_{m=1}^M\left\|\theta^m-\theta^{\text {student }}\right\|_1, Lwr=M1m=1M θmθstudent  1,
其中 θ m \theta^m θm and θ s \theta^s θs 分别表示第 m m m个领域特定专家模型和领域通用学生模型的权重。CCL框架的整体优化目标可以定义为:
L = L student  + L expert  + λ w r L w r , \mathcal{L}=\mathcal{L}^{\text {student }}+\mathcal{L}^{\text {expert }}+\lambda_{w r} \mathcal{L}_{w r}, L=Lstudent +Lexpert +λwrLwr,
其中 λ w r \lambda_{w r} λwr为加权参数。最后,将得到的领域通用模型应用于M个目标领域。

4 .实验

在这一部分,我们描述了所提出的CCL的实验设置和实现细节。还提供了广泛的消融研究以及与其他MTDA和STDA方法的比较。我们表明我们的方法可以在多个大规模的城市驾驶数据集上很好地工作。

4 . 1 .数据集

在MTDA实验环境下,分别以GTA5 [ 44 ]和辛西娅[ 45 ]等合成数据集作为源域,以多个真实数据集Cityscapes [ 10 ]、Indian Driver ( IDD ) [ 49 ]和Mapillary [ 39 ]作为目标域。提出的CCL模型使用来自不同领域的有标签源数据和无标签目标数据进行训练。在多个目标域对应的数据集的验证集上的结果用于评估其性能。
GTA5包含从视频游戏GTA5中收集的24,966张分辨率为1914 × 1052像素的合成图像以及与Cityscapes、IDD和Mapillary兼容的19个类别的像素级注释。
SYNTHIA是另外一个合成数据集。SYNTHIA的SYNTHIARAND-CITYSCAPES分割包含9400幅1280 × 760分辨率的渲染图像作为另一个源域。我们使用Cityscapes、IDD和Mapillary的16个公共类别进行训练,使用13个公共类别进行测试。
Cityscapes是一个真实的数据集,包含从欧洲城市拍摄的5,000个街道场景,并标记为19类。我们使用2,975张图像进行训练,500张验证图像。
IDD是一个比Cityscapes更多样化的数据集,它可以捕捉印度道路上的非结构化交通。共包含10003张图像,其中用于训练的图像6993张,用于验证的图像981张,用于测试的图像2029张。
Mapillary提供了从世界各地收集的25,000张图像和来源多样的图像采集设备。其中,用于训练的图像为18 000张,用于测试的图像为5 000张,用于验证的图像为2 000张。
4 . 2 .训练细节
与文献[ 47 ]和[ 50 ]类似,我们使用以ResNet - 101 [ 15 ]和VGG - 16 [ 46 ]为骨干的Deep Lab-v2 [ 5 ]模型,并使用在ImageNet [ 11 ]上预训练的模型进行初始化。对于判别器,我们也采用了与[ 47、50]相同的网络架构。语义分割模型参数采用SGD优化器[ 2 ]进行优化,其中权重衰减和动量分别设置为0.9和5 × 1 0 − 4 10^{-4} 104。学习率初始设置为2.5 × 1 0 − 4 10^{-4} 104。采用多项式过程[ 5 ]作为学习率调度。判别器采用Adam优化器[ 27 ]进行优化,动量分别为0.9和0.99,学习率设置为 1 0 − 4 10^{-4} 104。设 λ a d v , λ c l , λ o k d \lambda_{a d v}, \lambda_{c l}, \lambda_{o k d} λadv,λcl,λokd and λ w r \lambda_{w r} λwr 1 0 − 3 10^{-3} 103。这里,我们采用一种简单的方式在LAB颜色空间的色域中进行图像平移[ 43 ]。
4 . 3 .与基线模型的比较
我们比较了所提出的CCL与三种基线:“单独模型”、“仅源"和"数据组合"的分割性能。个体模型"与[ 50 ]类似,是针对每个对应的目标训练多个模型。源只有"和"数据组合"是跨多个目标域训练单个模型的MTDA设置。源Only '是只用源域的数据训练模型。” “数据组合"通过直接将多个目标域的数据组合为一个域来训练。在这里,我们使用两个目标域(即M = 2)进行实验,但是我们的方法可以很容易地扩展到目标域数量较多的情况。表1报告了各方法的结果。在表1中,在Cityscapes和IDD上分别训练两个模型的"单独模型"方法在对应域上分别取得了43.3 %和43.6 %的mIoU。然而,对于每个领域需要两个模型。与之相比,” Source only “使用单一模型,但由于合成数据和真实数据之间的域转换,在Cityscapes和IDD上的性能下降了6.5 %和6.1 %。通过直接将多个目标数据合并为一个域,“数据合并"训练的模型在Cityscapes和IDD上的性能也比"个体模型"方法滞后3.0 %和1.6 % m Io U。我们的方法在单个模型上的Cityscapes和IDD分别达到了45.0 %和46.0 % mIoU,显著优于"数据组合” + 4.7 %和+ 4.0 %。通过充分挖掘来自多个目标域的未标记数据,所提出的CCL甚至比采用两个模型并在每个目标域上单独训练的"个体模型"效果更好,在Cityscapes和IDD上分别提高了+ 1.7 %和+ 2.4 % mIoU。图3给出了不同基线与所提CCL的定性比较。
4 . 4 .与现有方法的比较
我们首先在以Res Net - 101为骨架的GTA5 - to - Cityscapes和辛西娅- to - Cityscapes上与单目标域适应( STDA )方法进行比较。结果见表2。我们的方法在GTA5 - to - Cityscapes和辛西娅- to - Cityscapes上的表现都优于现有的领域UDA方法。但值得注意的是,通过一轮训练,本文提出的单一模型在Cityscapes和IDD上都取得了良好的性能。我们还将我们的方法与DG和MTDA在’ GTA5 to Cityscapes and IDD '和’辛西娅to Cityscapes and IDD ‘上进行了比较。与DG方法相比,DG方法在训练时不使用未标记数据[ 57 ]。我们分别在Cityscapes和IDD上超过了[ 57 ]。我们将我们的方法与之前的两种方法在MTDA上进行了比较。由于之前关于MTDA的工作只关注于分类任务,我们在相同网络的语义分割中仔细实现了这些方法。与’ MTDA-ITA '相比,我们的方法在两个域上都取得了显著更好的性能。MT-MTDA '是采用多名教师以离线知识蒸馏的方式交替教授一个学生的方法。然而,该方法也没有考虑探索来自不同目标域的信息。我们的方法在Cityscapes和IDD上都取得了比[ 40 ]更好的性能。
4 . 5 .消融研究
在本部分中,我们通过对以ResNet - 101为骨架的GTA5 to Cityscapes和IDD任务进行消融研究来评估所提出的CCL框架中的每个组件。结果见表3。
我们进行了一组消融研究,以检查所提出方法的不同组成部分的作用。这里的基线(模型1 )被设计为直接对两个目标域施加对抗损失的方法,即λ cl = λokd = λwr = 0。当在线知识蒸馏损失λ okd开启时,模型2在IDD上获得了+ 1.0 %的mIoU提升,但在Cityscapes上却遭受了0.5 %的mIoU下降。这可以用领域专家模型转换引起的混淆来解释。
当开启权重正则化损失λ wr后,模型3在Cityscapes和IDD上比基线有明显的+ 0.8 %和+ 0.6 % m Io U的提升。使用λ okd和λ wr,模型1在Cityscapes和IDD上同时提升了1.7 %和1.8 % mIoU,在两个目标域上也都优于"个体模型”。当采用协同一致性学习时,模型2、模型3和模型4都得到了一致的改进。具体来说,模型7在Cityscapes和IDD较模型4有明显的1.0 %和1.3 %的提升。
4.6 .对不同数据集
Synthetic - To - Real Mtda的泛化。在这里,我们进行了一组不同目标域的实验。我们以STDA的任务为基准,包括:( 1 ) GTA5 to Cityscapes,( 2 ) GTA5 to IDD,( 3 ) GTA5 to Mapillary。每个STDA模型分别在相应的目标域上进行训练。表4中,3个单独训练的模型的STDA基线在Cityscapes、IDD和Mapillary上分别达到43.3 %、43.6 %和45.8 % m Io U。它也可以扩展到适应所有这三个数据集。实验结果表明,我们的方法在单一模型上的效果始终优于STDA基线,而STDA基线是在相应的目标域上单独训练的。我们使用单一模型的方法在相应的目标域上的效果始终优于STDA基线。
Real-to-real MTDA。在表5中,我们还进行了从真实数据集到真实数据集的领域实验。这里将Cityscapes中的一个IDD和Mapillary作为源域,其余两个作为目标域。实验结果表明,本文提出的方法不仅在syn - to - real自适应上取得了较好的效果,而且在real - to - real的情况下也取得了较好的效果。
5 .结论
在这项工作中,我们提出了一种新颖的协同一致性学习框架来实现多目标域适应。其核心思想是通过同时施加多个专家模型预测之间的一致性约束,为每个目标领域训练一个强专家模型。他们进一步被用作多个教师,以在线方式协作地教授一个学生模型,使单个模型能够在多个目标域中很好地工作。大量的实验表明,我们的方法不仅产生了在多个目标域上都能很好工作的单一模型,而且在每个域上都能取得比领域专用UDA方法更好的性能。
Multi-Target Domain Adaptation with Collaborative Consistency Learning_第1张图片

Multi-Target Domain Adaptation with Collaborative Consistency Learning_第2张图片

Multi-Target Domain Adaptation with Collaborative Consistency Learning_第3张图片

Multi-Target Domain Adaptation with Collaborative Consistency Learning_第4张图片

Multi-Target Domain Adaptation with Collaborative Consistency Learning_第5张图片

Multi-Target Domain Adaptation with Collaborative Consistency Learning_第6张图片

Multi-Target Domain Adaptation with Collaborative Consistency Learning_第7张图片
Multi-Target Domain Adaptation with Collaborative Consistency Learning_第8张图片

你可能感兴趣的:(文献阅读,深度学习,人工智能)