Scale-Aware Domain Adaptive Faster R-CNN

摘要
目标检测通常假设训练和测试样本来自一个相同的分布,然而,这在实践中并不总是成立。这样的分布不匹配可能会导致显著的性能下降。在这一工作中,我们提出了尺度感知域自适应Faster R-CNN,旨在提高目标检测的跨域鲁棒性。特别是,我们的模型改进了传统的Faster R-CNN模型,在两个层面上处理了域的漂移:(1)图像层面的漂移,如图像样式、光照等;(2)实例层面的移动,如目标的外观、大小等。两个领域自适应模块通过对抗性训练方式学习领域分类器实现。此外,我们还观察到目标尺度上的巨大差异常常给跨域目标检测带来重大挑战。因此,我们通过将目标尺度入对抗性训练来改进我们的模型。我们在多个跨域场景下评估了我们提出的模型,包括恶劣天气下的目标检测、从合成数据中学习和跨摄像机适应,在这些场景中,我们提出的模型显著优于基线和竞争方法。实验结果表明了该模型在跨域目标检测中的有效性。
1、介绍
目标检测是计算机视觉中的一个基本问题,其目标是识别和定位输入图像中所有特定类别的目标实例。受最近深度卷积神经网络(CNN)的成功驱动,已经提出了许多基于CNN的目标检测方法,大大提高了检测精度。
虽然在标准基准数据集上取得了良好的性能,由于视角、物体外观、背景、光照、图像质量等方面的较大差异,现实世界中的目标检测仍然面临挑战,这可能会导致训练数据和测试数据之间有相当大的域漂移。以自动驾驶为例,汽车上使用的相机类型和设置可能与用于收集训练数据的不同,汽车可能是在不同的城市,物体的外观不同。此外,该自动驾驶系统有望在各种天气条件下(如雨、雾)可靠工作,而训练样本通常在能见度较好的晴天采集。由于仿真和现实之间的视觉不匹配,使用合成数据来训练深度CNN模型的最新趋势也提出了类似的挑战。作为一个例子,几个关于自动驾驶的数据集如图1所示,其中可以观察到相当大的域漂移。
据观察,这种域转移会导致性能显著下降。尽管收集更多的训练数据可能在一定程度上缓解域漂移问题,但在许多现实场景中这仍然不是简单的,因为手动注释边界框是昂贵和耗时的。因此,开发算法使目标检测模型适应新的目标领域,而不需要在目标领域中收集额外的ground-truth标签是非常理想的。
Scale-Aware Domain Adaptive Faster R-CNN_第1张图片 为了解决图像分类任务中的域自适应问题,已有许多技术被提出。然而,这样的技术通常是为了对齐整个图像的特征,这可能不容易适用于目标检测的任务。原因主要有两方面。一方面,由于目标检测的目的是同时预测目标边界框和类标签。定位的微小变化可能导致错误的类别预测,因此模型更容易受到数据变化的影响。另一方面,目标在域间的变化往往是复杂的。特别是,当一个图像中包含多个实例时,域的漂移可能发生在图像级别(例如,图像缩放、样式、照明等)和实例级别(例如,目标外观、大小等)。这两个级别上的域移位也可以不同。
在本研究中,我们旨在解决这一跨域目标检测问题,并提出一种新的尺度感知域自适应 Faster R-CNN (SA-DA-Faster)模型来解决这些挑战。特别地,我们考虑了无监督的域适应场景:在源域给出了完全监督,而在目标域没有监督。因此,在不增加标注代价的情况下,可以提高目标域内的目标检测精度。
我们基于Faster R-CNN框架构建模型。一方面,为了处理图像和实例级的不同域漂移,我们在训练中增加了Faster R-CNN的两个自适应模块,分别减小了图像级和实例级的域差异;在每个组件中,我们训练一个领域分类器,并使用对抗训练策略来学习领域不变的鲁棒特征。另一方面,考虑到定位对目标检测模型的鲁棒性至关重要,我们进一步在图像级和实例级域分类器之间加入一致性正则化,学习Faster R-CNN模型中的域不变区域建议网络(RPN)。我们将此模型称为域自适应Faster R-CNN (DA-Faster),这主要在我们的前期工作中描述。
为了进一步完善跨域场景下数据变化的检测模型,我们额外考虑了目标尺度变化在跨域适应中带来的挑战,提出了具有尺度感知的域自适应Faster R-CNN模型。特别是,自然图像中物体的规模可以有很大的变化。例如,在自动驾驶中,由于透视投影效果,远处的车辆通常很小,而近处的车辆在图像中相对较大。因此,在所有尺度上执行统一的特性对齐以适应领域将是困难的。相反,更可取的做法是在两个领域的相应尺度之间执行单独的对齐(例如,将小目标对齐到小目标,将大目标对齐到大目标)。此外,在某些情况下,如在大雾天气中驾驶,域的变化也随着目标的尺度而变化。雾通常使远处的物体比近处的物体更模糊。这也提出了对不同尺度的物体进行不同适应的需求。
为了解决这个问题,我们在域对齐过程中明确地考虑目标尺度。具体来说,我们采用特征金字塔网络(FPN) 生成多个不同尺度的特征图,用于检测不同尺度的实例。为了对齐特征,我们在每个尺度上分别构建一个图像级域分类器来对齐单个尺度的表示。此外,在每个尺度上构建实例级域分类器,以对齐单个尺度的实例特征。不同尺度的域分类器不共享权值,因此在每个尺度上分别进行特征对齐。因此,每个域分类器只需要专注于某一尺度,解决一个相对更局部的对齐问题,而不是跨所有尺度的全局特征对齐问题。我们将这两个新提出的自适应模块分别称为尺度感知图像级自适应和尺度感知实例级自适应。这两个模块可以很容易地合并到Faster RCNN模型中,这导致了我们最终的尺度感知域自适应Faster R-CNN方法。
我们使用多个数据集,包括Cityscapes、KITTI、SIM 10K和Foggy Cityscapes,进行了广泛的实验来评估我们的领域自适应Faster R-CNN。实验结果清楚地表明,我们所提出的方法在多个领域差异的场景下,解决目标检测的领域漂移问题是有效的。
该研究的初步版本发表在Chen et al. (2018a)。与会议版本相比,本文还作出了以下补充贡献:
针对自然场景中尺度变化较大的问题,我们开发了一个尺度感知适应模块,可以利用尺度信息更好地进行特征对齐。
我们通过大量的实验和分析验证了所提出的尺度感知适应模块。结果表明,尺度感知的适应策略在不同的跨领域场景下是非常有效的。我们的SA-DA-Faster模型在跨域检测方面取得了最新的成果。
对DA-Faster模型进行了更多的实验,包括更先进的主干,以进一步验证我们的两级适应策略。

2、相关工作
在这项工作中,我们感兴趣的是跨域目标检测。 我们提供了在目标检测和领域自适应的最相关的工作的概述。
1、目标检测
目标检测的目的是通过预测输入图像中的边界框坐标和语义类来检测输入图像中所有类目标的实例。这是计算机视觉中的一个基本问题,它可以追溯到很久以前,产生了大量的方法。早期的工作将目标检测作为滑动窗口分类问题。深度学习在计算机视觉中的成功导致了目标检测的范式转变。许多基于CNN的检测模型已经被提出。其中,区域CNN (R-CNN)的开创性工作,由于其有效性和简洁性而引起了极大的关注。**这项工作是由R-CNN 首创的,它使用建议算法提取感兴趣区域(RoI) ,然后用训练好的网络对每个RoI进行分类。然后在Fast R-CNN 中对该方法进行改进,在RoI之间共享卷积特征图。同样,Faster R-CNN 进一步提出了直接在CNN内生成目标建议,使用区域建议网络(RPN),而不是依赖于外部建议生成算法。Faster R-CNN获得了极具竞争力的性能,为许多目标检测工作奠定了基础,以及其他任务,如实例分割。**在相同的框架下,我们提出了特征金字塔网络(FPN),通过在卷积神经网络中构建特征金字塔来处理目标检测中的尺度变化。在本研究中,我们采用FPN作为一种提取不同尺度特征的方法。
目标检测文献主要集中在域内设置,其中训练和验证是在相同的数据分布上执行,而忽略了野外目标检测的域漂移问题。在这项工作中,我们采用Faster R-CNN框架,旨在提高其对新目标域的泛化能力。
2、图像分类的域适配
域自适应在图像分类中得到了广泛的研究。传统的方法包括域转移多核学习、非对称度量学习、子空间插值、测地流核、子空间对齐、协方差矩阵对齐等。最近的工作旨在提高深度神经网络的领域适应性。最近也提出了很多方法来执行两组数据之间的非配对图像转换,可以视为像素级域自适应。
然而,这些技术通常是为了对齐整个图像的特征分布而设计的,将它们重新用于其他应用程序(如目标检测)并非易事。与这些工作不同的是,我们关注的是目标检测问题,这是更具挑战性的,因为域漂移可以影响目标位置和类别预测。
3、目标检测的域适配
与图像分类相比,其他任务的领域自适应只是在最近几年才得到更多的关注。
对于检测任务,Xu等人提出了一种自适应支持向量机(SVM)来缓解基于变形零件的模型(DPM)的域漂移问题。Raj等人提出使用子空间对齐方法对R-CNN模型提取的特征进行对齐。此外,也有关于从其他来源学习检测器的工作,如从图像到视频,从3D模型,或合成模型。上面的工作要么不能以端到端方式进行训练,要么只关注特定的情况。我们的初步工作DA Faster R-CNN首次尝试构建端到端可训练模型用于跨域目标检测。该模型采用两级特征对齐的方法来学习域不变特征。随后,人们提出了各种技术来解决深度模型目标检测中的域漂移问题。特别是,SCDA引入了一种侧重于对齐歧视区域的模型。MTOR探索了区域级一致性、图间一致性和图内一致性中的目标关系,用于跨域目标检测。SWDA利用强域分类器和弱域分类器分别对齐局部和全局特征。在MAF中和Xie等人研究了类似的多级设计。在跨域目标检测中,研究了像素级自适应。更详细地说,Shan等人采用图像平移技术来减少像素空间的域差异。DM还提出了解决图像平移中的缺陷和源偏歧视问题。SPLAT利用对齐图像对中的信息。标签水平的适应也在一些工作中进行了讨论进行跨域检测,并产生了改进的性能。
也有一些工作讨论了其他任务的领域适应性,如语义分割、细粒度识别、单目深度估计等,这些也与我们的工作有关。
3、准备知识
3.1、Faster R-CNN框架
我们简要回顾了Faster R-CNN (Zhang et al. 2016)框架。Faster R-CNN是一个两阶段的检测器,由三个主要组件组成:共享的底层卷积层,区域建议网络(RPN)和基于区域感兴趣(RoI)的分类器。该架构如图2左侧所示。
首先,将输入图像表示为由共享的底层卷积层生成的卷积特征图。基于该特征映射,RPN生成候选目标建议,然后ROI分类器从特征向量中预测类别标签,该特征向量是通过在建议中池化特征映射获得的。训练损失包括RPN的损失和RoI分类器的损失
L det  = L rpn  + L roi  \mathcal{L}_{\text {det }}=\mathcal{L}_{\text {rpn }}+\mathcal{L}_{\text {roi }} Ldet =Lrpn +Lroi 
RPN和RoI分类器的训练损失都有两个术语:一个涉及分类,衡量预测的类级概率的准确性,另一个是框坐标上的回归损失,以便更好地定位。
3.2、用 H \mathcal{H} H散度来进行分布对齐
H  -divergence  \mathcal{H} \text { -divergence } H -divergence 用来衡量两组不同分布的样本之间的差异。 我们用 X \mathbf{X} X表示特征向量。 源域样本可以表示为 X S \mathbf{X}_{\mathcal{S}} XS,目标域样本可以表示为 x T \mathbf{x}_{\mathcal{T}} xT。 我们也用 h : x → { 0 , 1 } h: \mathbf{x} \rightarrow\{0,1\} h:x{0,1}表示一个域分类器,目的是预测源域样本 X S \mathbf{X}_{\mathcal{S}} XS为0,目标域样本 x T \mathbf{x}_{\mathcal{T}} xT为1。 假设H是所有可能的域分类器的集合, H  -divergence  \mathcal{H} \text { -divergence } H -divergence 将两个域之间的距离定义为 :
d H ( S , T ) = 2 ( 1 − min ⁡ h ∈ H ( err ⁡ S ( h ( x ) ) + err ⁡ T ( h ( x ) ) ) ) d_{\mathcal{H}}(\mathcal{S}, \mathcal{T})=2\left(1-\min _{h \in \mathcal{H}}\left(\operatorname{err}_{\mathcal{S}}(h(\mathbf{x}))+\operatorname{err}_{\mathcal{T}}(h(\mathbf{x}))\right)\right) dH(S,T)=2(1minhH(errS(h(x))+errT(h(x))))
其中  err  S \text { err } \mathcal{S}  err S  err  T \text { err } \mathcal{T}  err T分别为 h ( x ) h(\mathbf{x}) h(x)对源域和目标域样本的预测误差。 上面的定义意味着域差距 d H ( S , T ) d_{\mathcal{H}}(\mathcal{S}, \mathcal{T}) dH(S,T)是成反比域分类器的错误率 h h h。换句话说,对于最好的分类器来说错误率很高,这两个领域难以区分,所以他们相互接近,反之亦然。
在深度神经网络中,特征向量 X \mathbf{X} X通常包含某一层之后的激活。 让我们用 f f f表示产生 X \mathbf{X} X的网络。为了对齐两个域,因此我们需要强制网络 f f f输出使域距离 d H ( S , T ) d_{\mathcal{H}}(\mathcal{S}, \mathcal{T}) dH(S,T)最小的特征向量,从而得到:
min ⁡ f d H ( S , T ) ⇔ max ⁡ f min ⁡ h ∈ H { err ⁡ S ( h ( x ) ) + err ⁡ T ( h ( x ) ) } \min _{f} d_{\mathcal{H}}(\mathcal{S}, \mathcal{T}) \Leftrightarrow \max _{f} \min _{h \in \mathcal{H}}\left\{\operatorname{err}_{\mathcal{S}}(h(\mathbf{x}))+\operatorname{err}_{\mathcal{T}}(h(\mathbf{x}))\right\} minfdH(S,T)maxfminhH{errS(h(x))+errT(h(x))}
这可以通过对抗性的训练方式进行优化。 或者,该目标也可以通过反转梯度方向来优化,在无监督域自适应场景中,将梯度反转层(GRL)集成到CNN中进行图像分类。
Scale-Aware Domain Adaptive Faster R-CNN_第2张图片4、目标检测的域适配
按照域自适应中的常用术语,我们将训练数据的域称为源域,表示为 S \mathcal{S} S,将测试数据的域称为目标域,表示为 T \mathcal{T} T。 例如,当使用Cityscapes数据集进行训练,使用KITTI数据集进行测试时, S \mathcal{S} S表示Cityscapes域, T \mathcal{T} T表示KITTI域。 我们采用无监督域自适应协议,我们可以访问源域的图像和完全监督(即边界框和目标类别),但只能访问目标域的无标记图像。 目的是通过仅使用目标域内的未标记数据来学习适应目标域的目标检测模型。
4.1、概率视角
目标检测问题可以看作是学习后验 P ( Y , B ∣ I ) P(Y, B \mid I) P(Y,BI),其中 I I I是图像表示, B B B是一个目标的边界框, Y ∈ { 1 , … , K } Y \in\{1, \ldots, K\} Y{1,,K}为目标的类别( K K K为类别总数)。
我们将目标检测训练样本的联合分布表示为 P ( Y , B , I ) P(Y, B, I) P(Y,B,I)。 然后我们将源域联合分布表示为 P S ( Y , B , I ) P_{\mathcal{S}}(Y, B, I) PS(Y,B,I),目标域联合分布表示为 P T ( Y , B , I ) P_{\mathcal{T}}(Y, B, I) PT(Y,B,I)。 注意,这里我们使用 P T ( Y , B , I ) P_{\mathcal{T}}(Y, B, I) PT(Y,B,I)来分析域移位问题,尽管边界框和类别注释(即B和Y)在训练期间是未知的。 在域位移存在时, P S ( Y , B , I ) ≠ P T ( Y , B , I ) P_{\mathcal{S}}(Y, B, I) \neq P_{\mathcal{T}}(Y, B, I) PS(Y,B,I)=PT(Y,B,I)
图像级自适应
基于贝叶斯公式,联合分布可分解为:
P ( Y , B , I ) = P ( Y , B ∣ I ) P ( I ) P(Y, B, I)=P(Y, B \mid I) P(I) P(Y,B,I)=P(Y,BI)P(I)

与分类问题类似,我们对目标检测做了协变量偏移假设,即两个域的条件概率 P ( Y , B ∣ I ) P(Y, B \mid I) P(Y,BI)不变,域分布偏移是由于边缘分布 P ( I ) P(I) P(I)的差异造成的。 换句话说,两个域之间的检测器是一致的:给定一幅图像,无论该图像属于哪个域,检测结果都应该是相同的。 在Faster R-CNN模型中,图像表示I实际上是基础卷积层的特征图输出。 因此,为了处理域漂移问题,我们应该强制两个域的图像表示的分布相同(即 P S ( I ) = P T ( I ) P_{\mathcal{S}}(I)=P_{\mathcal{T}}(I) PS(I)=PT(I)),这被称为图像级适应。
实例级适配
另一方面,联合分布也可以分解为:
P ( Y , B , I ) = P ( Y ∣ B , I ) P ( B , I ) P(Y, B, I)=P(Y \mid B, I) P(B, I) P(Y,B,I)=P(YB,I)P(B,I)
根据协变量位移假设,即条件概率 P ( Y ∣ B , I ) P(Y \mid B, I) P(YB,I)对于两个域是相同的,我们得到域分布位移来自于边缘分布 P ( B , I ) P(B, I) P(B,I)的差异。直观上,这意味着两个域之间的语义一致性: 给定包含一个目标的同一个图像区域,其类别标签应该是相同的,不管它来自哪个域。 因此,我们还可以强制来自两个域的实例表示的分布是相同的(即, P S ( B , I ) = P T ( B , I ) P_{\mathcal{S}}(B, I)=P_{\mathcal{T}}(B, I) PS(B,I)=PT(B,I))。 我们将其称为实例级对齐。
这里的实例表示 ( B , I ) (B, I) (B,I)是针对每个实例从ground truth外接框中的图像区域中提取的特征。 虽然对于目标域来说,边界框注释是不可用的,但是我们可以通过 P ( B , I ) = P ( B ∣ I ) P ( I ) P(B, I)=P(B \mid I) P(I) P(B,I)=P(BI)P(I)来获得它,其中 P ( B ∣ I ) P(B \mid I) P(BI)是一个边界框预测器(例如,Faster R-CNN中的RPN)。 这只在P(b|i)是域不变时成立,为此我们提供了下面的一个解。
理想地联合适配
可以在图像或实例级别上执行域对齐。 考虑 P ( B , I ) = P ( B ∣ I ) P ( I ) P(B, I)=P(B \mid I) P(I) P(B,I)=P(BI)P(I),假设两个域的条件分布 P ( B ∣ I ) P(B \mid I) P(BI)是相同的且非零的,则有
P S ( I ) = P T ( I ) ⇔ P S ( B , I ) = P T ( B , I ) P_{\mathcal{S}}(I)=P_{\mathcal{T}}(I) \Leftrightarrow P_{\mathcal{S}}(B, I)=P_{\mathcal{T}}(B, I) PS(I)=PT(I)PS(B,I)=PT(B,I)
换句话说,如果两个域的图像级表示的分布是相同的,那么实例级表示的分布也是相同的。然而,理想地估计条件分布 P ( B ∣ I ) P(B \mid I) P(BI)通常是不平凡的。 原因有两方面: 1)在实践中很难完全一致的边际分布 P ( I ) , 这 意 味 着 估 计 P(I),这意味着估计 P(I)P(B|I) 的 输 出 某 种 程 度 上 是 有 偏 向 的 , 2 ) 边 界 框 注 释 仅 供 源 域 训 练 数 据 , 因 此 的输出某种程度上是有偏向的,2)边界框注释仅供源域训练数据,因此 2)P(B \mid I) 只 是 学 会 了 使 用 源 域 的 数 据 , 这 是 很 容 易 偏 向 源 域 。 为 此 , 我 们 提 出 在 图 像 和 实 例 级 别 上 进 行 域 分 布 对 齐 , 并 应 用 一 致 性 正 则 化 来 减 少 估 计 只是学会了使用源域的数据,这是很容易偏向源域。 为此,我们提出在图像和实例级别上进行域分布对齐,并应用一致性正则化来减少估计 使,P(B \mid I) 的 偏 差 。 如 第 3.2 节 所 介 绍 的 , 要 对 齐 两 个 域 的 分 布 , 需 要 训 练 域 分 类 器 的偏差。 如第3.2节所介绍的,要对齐两个域的分布,需要训练域分类器 3.2h(x) 。 在 目 标 检 测 的 情 况 下 , 。 在目标检测的情况下, \mathbf{X} 可 以 是 图 像 级 表 示 可以是图像级表示 I 或 实 例 级 表 示 或实例级表示 (B, I) 。 因 此 , 将 域 标 签 表 示 为 。 因此,将域标签表示为 D , 可 以 认 为 图 像 级 域 分 类 器 为 估 计 ,可以认为图像级域分类器为估计 P(D \mid I) , 实 例 级 域 分 类 器 为 估 计 ,实例级域分类器为估计 P(D \mid B, I)$。利用贝叶斯定理,我们得到:
P ( D ∣ B , I ) P ( B ∣ I ) = P ( B ∣ D , I ) P ( D ∣ I ) P(D \mid B, I) P(B \mid I)=P(B \mid D, I) P(D \mid I) P(DB,I)P(BI)=P(BD,I)P(DI)
特别是, P ( B ∣ I ) P(B \mid I) P(BI)是一个域不变的边界框预测器,而 P ( B ∣ D , I ) P(B \mid D, I) P(BD,I)是一个域依赖的边界框预测器。回想一下,在实践中我们只能学习依赖于域的边界框预测器 P ( B ∣ D , I ) P(B \mid D, I) P(BD,I),因为我们没有目标域的边界框注释。因此,通过加强两个域分类器之间的一致性,即 P ( D ∣ B , I ) = P ( D ∣ I ) P(D \mid B, I)=P(D \mid I) P(DB,I)=P(DI),我们可以学习 P ( B ∣ D , I ) P(B \mid D, I) P(BD,I)接近 P ( B ∣ I ) P(B \mid I) P(BI)
5、域适配模块
本节将介绍模型中使用的域自适应组件:图像级自适应和实例级自适应,它们用于对齐这两个不同级别上的特征表示分布。
5.1、图像级适配
在Faster R-CNN模型中,图像级表示指的是功能基本卷积的地图输出层(见图2中的绿色平行四边形)。消除域分布不匹配在图像层次,我们采用patch-based域分类器的右下部分所示图2。
特别地,我们在每个特征映射的激活上训练一个域分类器。由于每个激活的接受域对应于输入图像的一个图像patch,域分类器实际上预测每个图像补丁的域标签。
这种选择有两个好处:(1)对齐图像级表示通常有助于减少由全局图像差异(如图像样式、图像比例、光照等)引起的移动。类似patch-based损失已经证明是有效的在最近的工作风格转移,也涉及全局变换,和(2)批大小通常是非常小的训练目标检测网络,由于使用高分辨率的输入。这种基于patch的设计有助于增加训练样本的数量来训练领域分类器。更正式地,我们用 z z z表示训练图像的域标签, z = 0 z = 0 z=0表示源域, z = 1 z = 1 z=1表示目标域。我们将基卷积层后的输入图像的特征映射表示为 C ( u , v ) C_{(u, v)} C(u,v)表示位于 ( u , v ) (u,v) (u,v)的激活。域分类器的输出表示为 p ( u , v ) p_{(u, v)} p(u,v)。利用交叉熵损失,输入图像的图像级适配损失可记为:
L i m g = − ∑ C ( u , v ) ∈ C [ z log ⁡ p ( u , v ) + ( 1 − z ) log ⁡ ( 1 − p ( u , v ) ) ] \mathcal{L}_{i m g}=-\sum_{C_{(u, v)} \in C}\left[z \log p_{(u, v)}+(1-z) \log \left(1-p_{(u, v)}\right)\right] Limg=C(u,v)C[zlogp(u,v)+(1z)log(1p(u,v))]
如第3.2节所述,为了对齐域分布,我们需要同时优化域分类器的参数,使上述域分类损失最小化,同时优化基网络的参数,使上述域分类损失最大化。对于实现,我们使用梯度反向层(GRL),而普通梯度下降用于训练域分类器。通过GRL层时,将梯度符号颠倒,以优化基础网络。
5.2、实例级适配
实例级表示是指基于ROI的特征向量,然后输入最终的每个ROI类别分类器和框回归器。对齐实例级表示有助于减少局部实例差异,如目标外观、大小、视角等。类似于图像级的自适应,我们训练一个领域分类器的特征向量,以对齐实例级的特征分布。我们表示所有实例特征为 Q Q Q,从第i个实例中提取的特征为 Q i Q_i Qi。对于实例特性 Q i Q_i Qi,实例级域分类器的输出表示为 p i p_i pi。输入图像的实例级自适应损失现在可以写入为:
L ins  = − ∑ Q i ∈ Q [ z log ⁡ p i + ( 1 − z ) log ⁡ ( 1 − p i ) ] \mathcal{L}_{\text {ins }}=-\sum_{Q_{i} \in Q}\left[z \log p_{i}+(1-z) \log \left(1-p_{i}\right)\right] Lins =QiQ[zlogpi+(1z)log(1pi)]
与图像级自适应类似,我们在域分类器之前添加一个梯度反向层来应用对抗性训练策略。
5.3、一致性正则化
正如4.1节所分析的,在不同层次上加强域分类器之间的一致性有助于学习边界框预测器的跨域鲁棒性(即Faster R-CNN模型中的RPN)。因此,我们进一步加了一个一致性正则化器。由于图像级域分类器对图像级表示 C C C的每个激活产生一个输出,因此我们取图像中所有激活的平均值作为其图像级概率,这被实现为一个全局平均池化操作。一致性正则化器可以写成:
L c s t = ∑ Q i ∈ Q ∥ 1 ∣ C ∣ ∑ C ( u , v ) ∈ C p ( u , v ) − p i ∥ 1 \mathcal{L}_{c s t}=\sum_{Q_{i} \in Q}\left\|\frac{1}{|C|} \sum_{C_{(u, v)} \in C} p_{(u, v)}-p_{i}\right\|_{1} Lcst=QiQC1C(u,v)Cp(u,v)pi1
其中 ∣ C ∣ |C| C表示卷积特征图中激活的总次数, ∥ ⋅ ∥ 1 \|\cdot\|_{1} 1表示距离 ℓ 1 \ell_{1} 1
6、尺度感知域自适应Faster R-CNN
我们在上面提出了一个域自适应Faster R-CNN框架,用于跨域适应。然而,正如引言中所讨论的,不同领域的数据变化往往是复杂的(例如,图像规模、风格、照明、物体外观、大小等)。这些差异既发生在单个域内,也发生在跨域内,这使得两个域之间的特征分布对齐非常具有挑战性。虽然前面介绍的技术可以帮助减少源域和目标域之间的特征差异,但由于大的数据方差,两个域之间仍然可能存在相当大的不对齐。在诸多不对准因素中,尺度是非常重要的。因此,我们特别关注尺度问题,并设计了一个尺度感知域自适应Faster R-CNN (SA-DA-Faster)模型。
特别是,自然图像中物体的规模可能变化很大。例如,在图像中,远处的汽车通常很小,而近处的汽车相对较大。因此,从不同尺度的物体中提取的特征分布可能非常不同。此外,域移在不同的尺度上也可能是不同的。我们用图3中的一个例子来说明这种效果。因此,在所有尺度上进行统一的特征对齐(如Domain Adaptive Faster R-CNN)可能是不够的。相反,更可行的做法是在两个域(即。例如,将小目标对准小目标,将大目标对准大目标)。
Scale-Aware Domain Adaptive Faster R-CNN_第3张图片Scale-Aware Domain Adaptive Faster R-CNN_第4张图片基于这一观察结果,我们进一步将尺度方差问题纳入我们的Domain Adaptive Faster RCNN,以明确地建模特征空间中的尺度变化,并利用这些额外信息来实现更好的特征对齐。在我们新的SA-DA-Faster模型中,我们首先在检测器中建立一个特征金字塔来提取不同尺度的特征。然后,我们将之前引入的自适应模块推广到尺度感知的情况下,以对齐对应尺度的特征。下面,我们将首先简要回顾特征金字塔网络(FPN),然后介绍基于它的领域对齐模块。
6.1、目标检测的特征金字塔网络
在典型的CNN设计中,尺度是与抽象层次相结合的,因为网络中较早的层的特征更局部,代表低级的特征,如边缘,而较高层的特征分辨率更粗,代表更复杂的结构,如语义。与之前的工作相比,更多地结合了局部特征,在这项工作中,我们的主要目标是针对不同的尺度对齐特征。因此,特性规模需要从抽象级别分离出来。特征金字塔网络的工作通过在卷积神经网络中构建特征金字塔提供了一种解决方案。我们以ResNet或VGG中典型的五块网络为例介绍FPN结构。FPN有两条路径:自下而上路径和自上而下路径。在图4的左边部分用一个例子展示了这个概念。这种自下而上的路径与典型的前馈网络是相同的。我们将原始的conv1, conv2, conv3, conv4, conv5特征表示为 { C 1 , C 2 , C 3 , C 4 , C 5 } \left\{C^{1}, C^{2}, C^{3}, C^{4}, C^{5}\right\} {C1,C2,C3,C4,C5}。每个阶段都定义了一个金字塔阶段。由于各阶段的特征分辨率不同,每个阶段自然有不同的尺度。然后构建自顶向下的路径,将语义较强的高层特征传播到网络的底层。更详细地说, P 5 P^5 P5是由 C 5 C^5 C5通过 1 × 1 1\times 1 1×1卷积层生成的。然后在每一阶段,高级 P i P^i Pi的特征向上采样2,通过 1 × 1 1\times 1 1×1卷积层与 C ( i − 1 ) C^{(i−1)} C(i1)的特征求和。这样,每一层的特征都可以代表该阶段的尺度,同时包含高层信息。因此,规模可以像我们希望的那样从抽象级别中分离出来。得到的特征映射集记为 { P 1 , P 2 , P 3 , P 4 , P 5 } \left\{P^{1}, P^{2}, P^{3}, P^{4}, P^{5}\right\} {P1,P2,P3,P4,P5},分别对应于相同尺度/分辨率的 { C 1 , C 2 , C 3 , C 4 , C 5 } \left\{C^{1}, C^{2}, C^{3}, C^{4}, C^{5}\right\} {C1,C2,C3,C4,C5}。但是相对于语义化程度越来越高的 { C 1 , C 2 , C 3 , C 4 , C 5 } \left\{C^{1}, C^{2}, C^{3}, C^{4}, C^{5}\right\} {C1,C2,C3,C4,C5} { P 1 , P 2 , P 3 , P 4 , P 5 } \left\{P^{1}, P^{2}, P^{3}, P^{4}, P^{5}\right\} {P1,P2,P3,P4,P5}中的特征都对语义信息敏感,可以用于目标检测。
FPN骨干网广泛应用于Faster R-CNN框架。通过FPN主干,RPN可以建立在每个金字塔阶段(例如, { P 1 , P 2 , P 3 , P 4 , P 5 } \left\{P^{1}, P^{2}, P^{3}, P^{4}, P^{5}\right\} {P1,P2,P3,P4,P5})上,以产生不同规模目标建议。然后从每个目标提案中提取ROI特征,形成最终的分类器。利用第4节中引入的同一组损失来学习检测器。
6.2、尺度感知适配
FPN将不同尺度的特征划分为不同的阶段,通过对特征金字塔的各个阶段分别进行对齐来实现尺度感知的特征自适应。我们扩展了图像级和实例级的概念,以增强这两个自适应组件的规模意识,具体介绍如下。
尺度感知图像级适配
图像级的特征表示在特征金字塔中分为几个层次,即 { P 1 , P 2 , … , P s , … } \left\{P^{1}, P^{2}, \ldots, P^{s}, \ldots\right\} {P1,P2,,Ps,}。为了对齐图像级特征,我们提出了一种尺度感知的图像级自适应模块,该模块构建了图像级域分类器,每个分类器对应于 { P 1 , P 2 , … , P s , … } \left\{P^{1}, P^{2}, \ldots, P^{s}, \ldots\right\} {P1,P2,,Ps,}。每个域分类器都有与5.1节中介绍的相同的架构,类似于PatchGAN,可以稠密地为激活产生域标签预测。
我们用 z z z表示训练图像的域标签, z = 0 z = 0 z=0表示源域, z = 1 z = 1 z=1表示目标域。我们表示 P ( u , v ) s P_{(u, v)}^{s} P(u,v)s激活位于 ( u , v ) (u, v) (u,v)的特征映射 P s P^s Ps。表示域分类器的输出作为 p ( u , v ) s p_{(u, v)}^{s} p(u,v)s和使用交叉熵损失,输入图像的图像级适配损失可以通过求和损失在所有尺度,和所有的位置。因此,损失记为:
L sa-img  = − ∑ s ∑ P ( u , v ) s ∈ P s [ z log ⁡ p ( u , v ) s + ( 1 − z ) log ⁡ ( 1 − p ( u , v ) s ) ] \begin{array}{l} \mathcal{L}_{\text {sa-img }} \\ =-\sum_{s} \sum_{P_{(u, v)}^{s} \in P^{s}}\left[z \log p_{(u, v)}^{s}+(1-z) \log \left(1-p_{(u, v)}^{s}\right)\right] \end{array} Lsa-img =sP(u,v)sPs[zlogp(u,v)s+(1z)log(1p(u,v)s)]
每个鉴别器通过一个梯度反向层连接到图像特征 P s P^s Ps,该梯度反向层在反向通道中反转梯度方向,用于对抗训练以对齐特征分布。
L sa-ins  = − ∑ s ∑ Q i s ∈ Q s [ z log ⁡ p i s + ( 1 − z ) log ⁡ ( 1 − p i s ) ] \mathcal{L}_{\text {sa-ins }}=-\sum_{s} \sum_{Q_{i}^{s} \in Q^{s}}\left[z \log p_{i}^{s}+(1-z) \log \left(1-p_{i}^{s}\right)\right] Lsa-ins =sQisQs[zlogpis+(1z)log(1pis)]
在训练中,通过梯度反层对领域分类器的梯度进行反转,从而使实例级特征的域不变。
尺度感知实例级适配
类似地,尺度感知自适应的概念可以推广到实例级自适应,因为每个特征图负责产生不同尺度的检测。 我们将每个尺度的实例级特征表示为 { Q 1 , Q 2 , … , Q s , … } \left\{Q^{1}, Q^{2}, \ldots, Q^{s}, \ldots\right\} {Q1,Q2,,Qs,}。 然后在每个金字塔阶段建立一个独立的实例级域分类器来区分一定尺度的实例特征。
和前面一样, z z z是训练图像的域标签。 我们用 p i s p^s_i pis表示域分类器对特征 Q i s Q_i^s Qis的预测, i i i是金字塔阶段 s s s的第 i i i个特征。实例级自适应损失是通过在 z z z p i s p_i^s pis之间应用softmax loss得到的。 通过对金字塔各阶段的实例进行归纳,得出了尺度感知的实例自适应损失:
L sa-ins = − ∑ s ∑ Q ( u , v ) s ∈ Q s [ z log ⁡ p ( u , v ) s + ( 1 − z ) log ⁡ ( 1 − p ( u , v ) s ) ] \begin{array}{l} \mathcal{L}_{\text {sa-ins}} \\ =-\sum_{s} \sum_{Q_{(u, v)}^{s} \in Q^{s}}\left[z \log p_{(u, v)}^{s}+(1-z) \log \left(1-p_{(u, v)}^{s}\right)\right] \end{array} Lsa-ins=sQ(u,v)sQs[zlogp(u,v)s+(1z)log(1p(u,v)s)]
在训练中,将来自领域分类器的梯度通过梯度反转层进行反转,从而使实例级特征域不变。
6.3、网络概览
我们在图2中说明了我们的DA-Faster模型,在图4中说明了尺度敏感适配Faster - R-CNN模型。
图2的左边部分是原始的Faster R-CNN模型。底层卷积层在所有组件之间共享。然后在其上建立RPN和RoI池化层,再通过RoI头提取实例级特征。我们在Faster R-CNN基础架构中增加了我们的域适应组件,这导致了我们的域自适应Faster R-CNN模型。
在我们的领域自适应Faster R-CNN中引入了三个新的组件。在最后一个卷积层之后添加图像级域分类器,实例级域分类器添加到RoI-wise特性的末尾。这两个分类器通过一致性损失联系起来,以鼓励RPN是领域不变的。所提网络的最终训练损耗是各部分之和,可记为:
L = L det  + λ ( L img  + L ins  + L cst  ) \mathcal{L}=\mathcal{L}_{\text {det }}+\lambda\left(\mathcal{L}_{\text {img }}+\mathcal{L}_{\text {ins }}+\mathcal{L}_{\text {cst }}\right) L=Ldet +λ(Limg +Lins +Lcst )
其中 λ λ λ是平衡Faster R-CNN损失和我们新添加的域适应组件的权衡参数。可以使用标准SGD算法以端到端方式对网络进行训练。注意,域自适应组件的对抗性训练是通过使用GRL层实现的,GRL层在传播过程中自动逆转梯度。训练阶段使用图2中的整体网络。在推理过程中,可以删除域自适应组件,并简单地使用具有自适应权值的原始Faster RCNN体系结构。
使用新的尺度感知的自适应模块,SA-DA-Faster模型可以以类似的方式进行训练,只需将 L i m g \mathcal{L}_{img} Limg替换为Eq. 9中定义的尺度感知的图像级自适应损失 L sa-img  \mathcal{L}_{\text {sa-img }} Lsa-img ,将 L ins  \mathcal{L}_{\text {ins }} Lins 替换为Eq. 10中尺度感知的实例级损耗 L sa-ins  \mathcal{L}_{\text {sa-ins }} Lsa-ins 
7、实验
7.1、实验设置
我们在实验中采用了无监督域自适应协议。训练数据由两部分组成:提供图像及其注释(边界框和实例类别)的源域训练数据和仅提供无标记图像的目标域训练数据。采用与目标训练数据具有相同数据分布的测试分割模型。在所有实验中,均以阈值为0.5的平均精度(mean average precision, mAP)作为主要评价指标。
除非另有规定,我们使用ResNet-50作为检测骨干,使用FPN 将特征划分为不同的尺度。所有训练和测试图像都被调整大小,使较短的边有800像素的长度,以适应GPU内存。模型使用ImageNet上预训练的权重进行初始化。每批由1幅源图像和1幅目标图像组成。对于式11中的自适应模块,我们设 λ λ λ = 0.1。该模型进行60 k k k次迭代训练,初始学习率为0.0025,权重衰减为0.0001。
7.2、主要实验结果
在本节中,我们评估了我们提出的用于四种跨域场景的目标检测的Domain Adaptive Faster R-CNN模型:(1)从合成数据中学习,其中训练数据来自视频游戏,而测试数据来自真实世界;(2)在恶劣天气驾驶,其中训练数据属于良好的天气条件,而试验数据属于大雾天气;(3)跨摄像机适配,其中训练数据和测试数据是通过不同的摄像机设置捕获的;(4)绘画适配,其中训练数据由标注的真实图像组成,而测试数据为绘画图像。为了更好地评估每个组件的贡献,我们包含了模型的删减版本的结果。
7.2.1、从合成数据中学习
随着计算机图形学技术的发展,合成数据已经成为训练神经网络的一个有吸引力的来源,因为可以以低得多的成本获得注释。然而,合成数据仍然显示出与真实世界图像的明显视觉差异,通常与用真实数据训练的模型相比,性能会有显著下降。因此,我们的第一个实验是检验提出的模型在这种情况下的有效性。我们使用SIM 10K数据集作为源域,而Cityscapes数据集作为目标域,我们将在下面简要介绍。数据集SIM 10k由视频游戏《侠盗猎车手》(GTAV)生成的10000张图像组成。在SIM 10k中,10000幅训练图像中提供了58701辆车的边界框。所有图像都在训练中使用。城市景观数据集是描述驾驶场景的城市场景数据集。这些图像是由车载摄像机拍摄的。该数据集包括2975张图像在训练集中,500张图像在验证集中。我们使用来自训练集的无标记图像作为目标域来适应我们的检测器,并在验证集上报告结果。Cityscapes中有8个带有实例标签的类别,但由于SIM 10k中只有car标注,所以本次实验只使用car。因为Cityscapes中只提供了实例Mask,所以为了生成边界框,我们将每个实例mask的紧密矩形作为ground truth的边界框。
Scale-Aware Domain Adaptive Faster R-CNN_第5张图片
结果
实验结果见表1。使用ResNet-50骨干的Faster R-CNN在AP中实现了32.9%。与非自适应的Faster RCNN基线相比,仅使用图像级别的自适应组件在AP中实现了36.2%(+ 3.3%的基线增益),仅使用实例级对齐在AP中实现了39.5%(+ 6.6%的基线增益)。这证明了所提出的图像级自适应和实例级自适应组件可以有效地减少各层上的域漂移。综合这两个因素,AP值为40.7%(比基准值增加7.8%),这证实了我们关于两个水平上减少区域位移的必要性的推测。一致性正则化带来了+ 0.5%的轻微改善,导致AP为41.2%,这也是我们的domainadaptive Faster R-CNN(DA-Faster)模型。
为了建立我们的尺度感知域自适应Faster R-CNN (SA-DA-Faster)模型,首先我们用FPN的ResNet-50取代骨干网。这种非自适应基线导致了36.7%的AP,优于ResNet-50骨干。然而,与领域内场景相比,FPN在目标检测方面的改进是相当有限的。这说明在跨域的情况下,并不能保证由骨干网带来的改进会保留下来,因此需要适配模块来解决这个问题。通过应用所提出的尺度感知的自适应模块,我们所提出的SA-DA-Faster模型在AP中达到了55.8,与非自适应FPN基线相比显著提高了+ 19.1%。与DA-Faster模型相比,改进幅度更大,证明了所提出的尺度感知自适应策略的有效性。
7.2.2、在恶略天气中驾驶
我们通过研究不同天气条件间的域转移来进行进一步的评估。天气是区域差异的一个重要来源,因为随着天气条件的变化,场景在视觉上是不同的。检测系统能否在不同天气条件下可靠运行,对自动驾驶系统的安全至关重要。在本节中,我们将研究当我们将一个模型从正常天气调整到大雾天气时探测物体的能力。
数据集Cityscapes作为我们的源域,图像主要是在晴朗的天气中获得的。在这个实验中,我们报告了带有实例注释的类别的结果:人、骑手、汽车、卡车、公共汽车、火车、摩托车和自行车。与前面的实验相似,我们通过在各自的实例mask周围取最紧的矩形来获得ground-truth的边界框。
对于目标域,我们使用Foggy Cityscapes数据集。雾城市景观是一个合成的雾数据集,在它模拟的真实场景雾。这些有雾的图片是使用原始的晴朗天气的图片以及城市景观的深度图渲染的。示例见图1和图3以及相关论文。Foggy Cityscapes的语义标注和数据分割继承自Cityscapes,是研究能见度变化引起的域转移的理想方法。《Foggy Cityscapes》包含多个版本,每个版本都有一个固定的雾密度水平,然而,在我们的实验中,我们将自己的雾密度水平限制在150米可视范围内的版本(Sakaridis et al. 2018)。
Scale-Aware Domain Adaptive Faster R-CNN_第6张图片
我们使用来自Cityscapes的训练集作为(带标签的)源训练集,使用来自Foggy Cityscapes的训练集作为(未带标签的)目标训练集。结果报告在验证集的雾城市景观。
表2给出了我们的结果和其他基线的结果。类似的观察也适用于这个场景。我们的DA-Faster模型将跨域性能从25.6%提高到41.3%,而SA-DA-Faster模型将非自适应基线从30.3%提高到44.0%。结果再次证实了我们提出的两级自适应模块的有效性,以及尺度感知方法的有效性。此外,我们注意到在大多数类别中有一个普遍的改进,这表明提出的技术可以减少不同目标类别之间的领域差异。
7.2.3、跨相机适配
由于不同的数据集可能在捕获设置、图像质量/分辨率等方面存在差异,因此在类似天气条件下拍摄的真实数据集之间通常存在域漂移。因此,每个数据集在收集数据时通常表现出一些偏差。对于检测,不同的数据集在规模、大小和类别分布上也有很大的差异,有时很难确定域漂移的来源。在这一部分中,我们重点研究了两个真实数据集之间的适应性,我们在实验中使用了KITTI和Cityscapes。数据集采用包含7481幅图像的KITTI训练集。该数据集用于适应和评估。图像的原始分辨率为1250×375,并重新调整大小,使较短的长度为500像素长。城市景观被用作另一个领域。与第一个实验一致,我们使用car的AP,

Scale-Aware Domain Adaptive Faster R-CNN_第7张图片

我们在两个适应方向上都应用了该方法,将城市景观的KITTI表示为K→C,反之亦然。表3总结了我们的结果,通过使用建议的适配模块,我们可以观察到明显的性能提高。我们的方法对于适应方向K→C和C→K都是有用的。
7.2.4、适配到画上
在这个实验中,我们研究了所提出的方法对真实图像适应绘画图像的有效性。按照之前工作中采用的协议,我们使用Pascal VOC数据集作为源域。此数据集包含20类目标的ground-truth边界框。我们结合PASCALVOC 2007和2012的训练和验证集进行训练,得到约15k的训练图像。然后Clipart或Watercolor数据集(Inoue et al. 2018)被用作目标域。这两个数据集包含不同风格的绘制图像。Clipart由1000张相同的PASCAL 20个类别的图像组成,这些图像用于训练适应和报告结果。而水彩数据集包含2000张图像和来自PASCAL的6个类别的子集。我们使用训练集进行自适应,并对测试集中的1000幅图像进行评估。请注意,在无监督域自适应协议的训练中,没有使用目标域的ground-truth标签。
我们总结了在Clipart上的结果如表5,在水彩上的结果如表4。在这两种情况下,所提出的模块都有助于减少域差异,提高跨域检测性能。结果表明,该方法具有广泛的应用价值。
Scale-Aware Domain Adaptive Faster R-CNN_第8张图片7.3、实验分析
本节提供额外的实验分析,旨在提供对所提出模型的进一步理解。首先,为了理解所提出的图像级和实例级自适应的不同作用,我们对7.3.1节中的检测错误进行了研究,并对7.3.2节中输入大小的影响进行了研究。然后,我们对提出的尺度感知的适应模块进行了更详细的研究,通过测试7.3.3节中的各种适应设计。最后,我们将7.3.4节中不同适应策略下的特征分布可视化。在本节的所有实验中,我们使用Sim10k→Cityscapes。除非另有说明,所有设置与第7.2.1节保持一致。
7.3.1、顶级检测的错误分析
在前面的小节中,我们已经展示了图像级和实例级对齐都有助于减少域差异。为了进一步验证图像级自适应和实例级自适应的个体效应,我们分析了在不同层次上使用自适应成分的模型的置信度最高检测引起的精度。
我们以Sim10k→Cityscapes为研究案例。我们分别为vanilla Faster R-CNN模型选择了具有最高可信度的20,000个预测,我们的模型仅具有图像级适应,我们的模型仅具有实例级适应。受(Hoiem et al. 2012)启发,我们将检测分为三种类型:correct:检测与ground-truth有大于0.5的重叠。mis-locality:检测与ground truth在0.3 - 0.5之间有重叠,background:检测与groundtruth的重叠小于0.3,即以背景为假阳性。
结果如图5所示。从图中我们可以看到,每个单独的组件(图像级或实例级自适应)提高了正确检测的数量(蓝色),并显著减少了误报的数量(其他颜色)。此外,我们还观察到使用实例级对齐的模型比使用图像级对齐的模型具有更高的背景误差。这可能是因为图像级对齐更直接地提高了RPN,从而产生了具有更好定位性能的区域建议。
Scale-Aware Domain Adaptive Faster R-CNN_第9张图片
Scale-Aware Domain Adaptive Faster R-CNN_第10张图片
Scale-Aware Domain Adaptive Faster R-CNN_第11张图片Scale-Aware Domain Adaptive Faster R-CNN_第12张图片7.3.2、图像级和实例级适配
为了进一步分析图像级和实例级自适应的影响,我们在Sim10k→Cityscape中通过改变图像尺度进行了实验。由于在两个数据集中使用了不同的摄像机,不同的摄像机参数可能导致两个域之间的尺度漂移。
特别地,我们把图像的较短长度称为它的比例尺。为了研究图像尺度是如何影响我们的两个域自适应分量的,我们在目标域改变图像的大小,来看看当源域的尺度固定为800像素时,这是如何影响两个分量的行为的。
Scale-Aware Domain Adaptive Faster R-CNN_第13张图片
Scale-Aware Domain Adaptive Faster R-CNN_第14张图片Scale-Aware Domain Adaptive Faster R-CNN_第15张图片Scale-Aware Domain Adaptive Faster R-CNN_第16张图片
我们在图6中绘制了不同模型的性能。通过改变目标图像的尺度,我们观察到香草的Faster R-CNN(即,非适应)的性能在尺度不匹配时显著下降。对比两种适应模型,图像级适应模型比实例级适应模型对尺度变化的鲁棒性更强。
这背后的原因是规模变化是一个全局的转变,它影响所有的实例和背景。在我们的设计中,全局域偏移主要通过图像级对齐来解决,而实例级对齐则是为了最小化实例级的差异。当全局域漂移严重时,实例提议的定位误差会增大,从而导致实例级对齐的精度被破坏。然而,使用两者总是在所有尺度上产生最好的结果。与最初的Faster R-CNN相反,我们的模型可以受益于目标图像的高分辨率,并且随着输入尺寸的增加,其性能越来越好。
7.3.3、在尺度感知上的消融实验
在本研究中,我们研究了对齐特征表示的各种策略的性能。我们使用Sim10k→Cityscapes进行研究。为了进行比较,所有实验都采用ResNet-50和FPN进行。与第6.1节中的符号一致。我们将自下而上路径的卷积特征表示为 C 1 C^1 C1 C 2 C^2 C2 C 3 C^3 C3 C 4 C^4 C4 C 5 C^5 C5,金字塔特征表示为 P 1 P^1 P1 P 2 P^2 P2 P 3 P^3 P3 P 4 P^4 P4 P 5 P^5 P5。我们用 ⋅ {·} 表示构建一个在括号内的所有特征之间共享的域分类器。
我们将结果显示在表6中。首先,我们研究了不同的图像级特征对齐策略。图像级自适应可以表示为{ C 5 C^5 C5},因为只有最后一个卷积特征是对齐的。这种方法实现了+4.3%的性能收益。另外,通过进一步对齐{ C 3 C^3 C3}实现了+1.4%的性能提升,这与对局部特征进行额外对齐的研究结果一致(He and Zhang 2019;Xie等人2019;Saito等人2019)。由于在每个尺度上都建立了独立的域分类器,所以尺度感知的图像级自适应可以表示为{ P 1 P^1 P1}, { P 2 P^2 P2}, { P 3 P^3 P3}, { P 4 P^4 P4}, { P 5 P^5 P5}。尺度感知的图像级自适应达到45.0,明显优于之前的方法。为了进一步证明这些好处,我们还测试了一种与尺度无关的图像级自适应,其中我们在所有金字塔特征中应用了一个共享域分类器。这种方法可以记为{ P 1 P^1 P1, P 2 P^2 P2, P 3 P^3 P3, P 4 P^4 P4, P 5 P^5 P5},其AP结果较差,仅为43.0,说明统一的特征对齐方式不足以对不同尺度的特征进行对齐。例如,尺度感知版本比尺度不可知版本的性能高出1.9%。
通过将尺度感知的实例级适应和尺度感知的图像级适应结合在一起,我们实现了55.8%的AP,显著优于使用相同ResNet-50-FPN骨干的竞争适应策略(Shen et al. 2019),进一步验证了我们的尺度感知适应模块的优势。
Scale-Aware Domain Adaptive Faster R-CNN_第17张图片7.3.4、逐尺度分析
最后,为了进一步理解特征对齐的影响,我们进行了一个尺度分析,其中我们从不同目标尺度可视化实例级特征,并提供了一个尺度尺度的定量评估。我们研究了四种不同的模型:(a)具有ResNet-50骨干的非自适应Faster R-CNN (NonAdapt), (b)具有FPN骨干的非自适应Faster R-CNN (FPN), ©我们的域自适应Faster R-CNN (DA-Faster)和(d)我们的尺度感知域自适应Faster R-CNN (SA-DA-Faster)。
我们使用Sim10k→Cityscapes进行研究。首先为每个模型统一抽样5120个实例级特征。然后用TSNE将特征嵌入可视化。可视化如图7所示。在最上面一行,我们显示了实例规模,根据实例大小,我们将每个实例分为三类小(小于 2 0 2 20^2 202个像素),中等( 2 0 2 20^2 202- 10 0 2 100^2 1002个像素),大(大于 10 0 2 100^2 1002像素)。
下面一行是域名标签。如图7所示,NonAdapt (a)和FPN (b)在特征空间中跨越了不同尺度的特征,可以观察到显著的域漂移。DA-Faster ©执行统一的域对齐,这与规模无关。因此,这两个领域的特性在某种程度上是一致的。然而,这种对齐会产生一个副作用,即在不同的尺度上错误地对齐特征。相比之下,我们的SA-DA-Faster (d)能够充分利用尺度信息,并在对齐特征时保持尺度的可鉴别性。这导致了一个可观察到的更好的特征对齐。
在定量结果上,我们对不同尺度的目标分别进行评价。我们报告了每个量表的MAP,并将结果总结在表7中。我们观察到,提出的模块也显示了更好的量化结果跨尺度。
Scale-Aware Domain Adaptive Faster R-CNN_第18张图片
7.4、和SOTA比较
自我们工作的会议版本以来,已经提出了许多端到端跨域检测模型。为了便于与其他竞争方法的比较,我们也包括了多个最近的跨领域自适应方法的结果。
我们汇总了SIM10K→城市景观结果见表8,城市景观结果见表9,城市景观结果见表10,城市景观结果见表10,Pascal结果见表11,Pascal结果见表11,Pascal结果见表12。由于不同的工作中使用了不同的主干架构,我们也列出了每种方法的主干架构。
Scale-Aware Domain Adaptive Faster R-CNN_第19张图片Scale-Aware Domain Adaptive Faster R-CNN_第20张图片Scale-Aware Domain Adaptive Faster R-CNN_第21张图片与其他方法相比,所提出的SA-DA-Faster模型实现了最高性能,并在所有基准中设置了一个新的艺术状态。值得注意的是,在许多情况下,我们的模型比竞争方法的性能要好得多。例如,在SIM10K→Cityscapes上,我们的模型比MTOR要好9.2%,MTOR是基于与我们的模型相似的主干。实验结果表明了该尺度感知自适应方法的有效性。请注意,我们的方法在概念上不同于其他旨在进行多层次特性对齐的工作(He和Zhang 2019;Xie等人2019;Saito et al. 2019),正如在这项工作中,我们明确地在特征对齐过程中考虑目标规模。
最后,我们在图8、9和10中提供了一些数据集的定性结果。在这里我们展示了非自适应基线,DA-Faster和SA-DA-Faster模型的结果。我们可以清楚地看到检测质量的改善。结果表明,所提出的尺度感知自适应方法显著提高了性能,特别是对小目标。

8、结论
在这项工作中,我们提出了尺度感知域自适应Faster R-CNN跨域目标检测。该模型在两个层面对域差异进行对齐:(1)图像层面的位移,如图像样式、光照等;(2)实例层面的位移,如对象外观、大小等。两个领域自适应模块通过对抗性训练方式学习领域分类器实现。此外,由于目标尺度变化较大造成的困难,通过将目标尺度明确地纳入对抗性训练,进一步改进了特征对齐过程。我们综合评估了我们提出的模型在多个跨领域场景下的性能,包括恶劣天气下的目标检测、从合成数据中学习和跨摄像机适应,并表明我们的模型显著优于基线和竞争方法。

你可能感兴趣的:(计算机视觉,cnn,自动驾驶,深度学习)