跨域视觉问题,如图像到图像的转换和域自适应目标检测,近年来受到越来越多的关注,也成为计算机视觉界新的兴起和具有挑战性的方向。 近年来,尽管该领域在数据收集方面做出了巨大的努力,但同时涵盖实例级图像到图像迁移和领域自适应目标检测任务的数据集仍然很少。 在这项工作中,我们引入了一个大规模的跨域基准CDTD(包含四种不同模式的155,529张高分辨率自然图像,并使用目标边界框注释。 以下部分提供了整个数据集的摘要。 我们提供了这两个任务的基准测试的全面基线结果。 此外,我们提出了一种新的实例级图像转换INIT方法和一种梯度分离的域自适应目标检测方法,以获取和发挥数据集跨不同领域的实例级标注功能。
在现实世界的场景中,一般的视觉任务如图像识别、目标检测、图像平移等,总是面临着来自视点、背景、物体外观、光照、遮挡条件、场景变化等方面的严峻挑战。 这些不可避免的因素使得这些领域转移环境下的任务成为近年来一个具有挑战性和新兴的研究课题。 此外,域变化是视频监控、自动驾驶等现实任务中一个公认的、急需突破的棘手问题。 因此,迫切需要一个大规模的跨域基准测试来推动这一领域的发展。
最近出现的跨域环境下的大规模图像数据集,如VisDA 、Office-Home 、Syn2real、DomainNet 主要集中在传统的分类或检测任务上, 因此,它们不能灵活地应用于新的提出的任务,如图像到图像的翻译,特别是实例级的翻译任务。 这项工作的动机是建立一个在跨不同领域的大型、不受限制的真实世界场景下具有实例级图像注释的数据集(每个实例都有一个边界框坐标和语义标签), 为了解决实例级图像的翻译和进一步扩展到域自适应目标检测的任务。
实例级image-to-image翻译:
图像到图像(Image-to-Image, I2I)翻译在计算机视觉中越来越重要,许多视觉和图形问题可以被表述为超分辨率、神经风格转移、着色等I2I翻译问题。该技术也被应用于医学图像处理等相关领域,进一步提高了医学体积分割性能。一般来说,Pix2pix被认为是第一个使用条件生成对抗网络进行图像生成的I2I翻译统一框架,而在训练过程中需要成对的例子。一个更通用和更具挑战性的设置是未配对I2I转换,其中配对的数据不可用。
最近的一些努力已经在这个方向上做出了努力,并取得了非常有前景的成果。例如,CycleGAN 提出了周期一致性损失,以加强学习过程,如果图像通过学习映射平移到目标域,然后通过逆映射平移回来,输出应该是原始图像。此外,CycleGAN假设潜在空间是独立于两个映射。相比之下,UNIT假设两个域图像可以映射到一个共享的潜在空间。MUNIT和DRIT进一步假设潜在空间可以被解绑定为共享内容空间和领域特定属性空间。
然而,到目前为止,所有这些方法都专注于将样式或属性迁移到整个图像上。如图1(1)所示,由于图像中各个空间区域的模式一致,所以在风格统一的场景或内容相对简单的场景中,它们都能很好地工作。而对于包含多个目标的复杂结构图像则不是这样,因为图像中目标和背景之间的风格视觉差异总是很大,甚至完全不同,如图1(2)所示。
为了解决上述限制,在本工作中,我们提出了一种方法,可以使用图1(3)所示的不同样式代码分别翻译目标和背景/全局区域,并且仍然以端到端方式进行训练。我们的方法的动机如图3所示。我们不使用全局风格,而是使用实例级风格向量,它可以为目标域中与视觉相关的目标生成提供更准确的指导。我们认为样式对于不同的目标、背景或全局图像应该是不同的,这意味着样式代码对于整个图像不应该是相同的。更具体地说,一辆汽车从“阳光”域到“夜晚”域,与这两个域之间的全局图像转换相比,应该有不同的风格代码。我们的方法通过涉及实例级样式来实现这个目标。给定一对未对齐的图像和目标位置,我们首先应用编码器分别获取中间的全局和实例级内容和样式向量。然后利用跨域映射通过交换样式/属性向量来获得目标域图像。我们的交换策略将在第4节中详细介绍。该方法的主要优点是对目标层样式的探索和使用,直接影响和指导目标域目标的生成。当然,我们也可以为目标对象应用全局样式来强制模型以学习更多不同的结果。
域适配目标检测:
如图2所示,无监督域自适应目标检测的目的是在域漂移的情况下学习一个鲁棒检测器,其中训练(源)域是富含边界框注释的标签,而测试(目标)域是标签不可知的,训练域和测试域之间的特征分布是不同的甚至完全不同的。以前的解决方案通常使用对抗性损失来设计全局和局部级别图像的分布对齐。对齐通常需要额外的组件或子网络来实现,这些组件或子网络复杂且难以解释。在这项工作中,我们提出了一个简单的训练技术,称为梯度分离,防止梯度流从上下文子网通过检测骨干路径,从而可以学习更多的区分目标和全局/上下文图像之间的表示,并更多地聚焦于目标区域。该方法通过在不同的网络阶段切割多个辅助目标,从而产生兼容的堆叠互补损失,从而有效地自动对齐源域和目标域的分布。我们对提出的数据集进行了两种基线方法DA 和强弱对齐实验,我们的结果始终优于两种基线方法。
总之,我们的贡献有四倍:
本手稿的初步版本已在之前的CVPR 2019会议上发表。与之前的会议论文相比,我们的主要新贡献是将我们的数据集扩展到领域自适应目标检测任务,我们提出了一个基于梯度分离的叠加互补损失方法,以提高之前的最先进的方法,并获得相当的竞争性能。我们还对原始的实例级图像到图像转换任务进行了额外的实验和可视化。此外,我们包括了更多的描述数据集,领域自适应目标检测方法和更多的基线结果。
这项工作的其余部分组织如下。 在第二节中,我们回顾了我们研究的相关工作。 在第3节中,我们介绍了CDTD数据集的构建及其统计。 我们还提供了与其他相关数据集的逐个特征比较。 在第4节中,我们介绍了提出的用于实例级图像到图像转换的INIT方法。 我们建议在目标图像上使用细粒度的局部(实例)和全局样式在空间上转换源图像。 在第五节中,我们介绍了一种用于域自适应目标检测任务的梯度分离方法。 该方法防止了背景子网络的梯度通过检测主干路径的流动,从而可以学习到更有区别的对象和全局/背景图像之间的表示,并更加关注目标区域。 在第6节中,我们提供了大量的实验和消融研究,我们收集的图像到图像的平移任务数据集,一些基线和我们的方法结果在领域自适应目标检测任务。 第7节总结了这项工作。
为了进行跨领域研究,收集了多种数据集。image-to-image翻译领域中,最常用的是edge ↔ shoes,Yosemite (summer ↔ winter),Cityscape,如表1所示,这些数据集是在低分辨率(e.g., edge ↔ shoes),或规模有限,也就是说,图片太小的数量(例如,城市)。相比之下,我们的数据集有更多的图像来探索提出的算法的潜力。如表2所示,当前域自适应目标检测数据集的主要弱点是在图像数量上的尺度。一般来说,我们的数据集比现有的高质量/分辨率的数据集大大约15到20倍。
Image-to-Image Translation:
I2I转换的目标是学习两个不同域之间的映射。Pix2pix首次提出使用条件生成对抗网络对输入到输出图像的映射函数进行建模。受到Pix2pix的启发,一些工作进一步将其适配到各种相关任务,如语义布局→场景,草图→照片等。尽管常用,这些方法的主要缺点是需要成对的训练示例和输出是单模态的。为了产生多模态和更多样的图像,BicycleGAN鼓励潜在空间和目标空间之间的双客观一致性,以避免模式崩溃问题。一个生成器学习映射给定的源图像,结合一个低维的潜在代码,在训练期间输出。而这种方法仍然需要成对的训练数据。
最近,CycleGAN提出了利用循环一致性损失来解决未配对I2I翻译问题。UNIT进一步做出了共享潜变量假设,在他们的方法中采用了Couple GAN。为了解决多模态问题,MUNIT、DRIT、Augmented CycleGAN等采用解纠缠表示,从未配对的训练数据中进一步学习多样化的I2I翻译。
Instance-level Image-to-Image Translation:
据我们所知,到目前为止,在实例级I2I翻译问题上所做的工作很少。也许最类似于我们的工作是最近提出的InstaGAN,它利用目标分割掩码来翻译图像和相应的实例属性集,同时保持实例的排列不变属性。一个上下文保持损失的设计是为了鼓励模型学习目标实例之外的身份函数。与我们的主要区别是,instaGAN不能充分转换整个图像的不同域。他们专注于翻译实例和保持外部区域,相反,我们的方法可以同时翻译实例和外部区域,使全局图像更加真实。此外,InstaGAN是建立在CycleGAN,这是单一模态,而我们选择利用MUNIT和DRIT建造我们的初始化,因此我们的方法继承了多通道和无监督属性,与此同时,生产更加多样化和高质量图像。
其他一些现有工作或多或少与本文相关。例如,DA-GAN学习了深度注意编码器来实现实例级翻译,这是无法处理多实例和复杂环境的。BeautyGAN通过使用直方图损失和人脸解析面具,专注于面部化妆转移。Mechrez et al。Mechrez等人提出了一种基于图像上下文和语义的上下文损失,该损失将具有相似语义信息的区域进行比较,同时考虑整个图像的上下文。
域适配目标检测:
大量的文献已经对识别的无监督域自适应进行了广泛研究,我们的方法或多或少地借鉴了它们的优点,比如通过对抗学习(领域不变对齐)来对齐源域和目标域分布。然而,目标检测是一个技术上不同于分类的问题,因为我们希望更多地关注感兴趣的目标(区域)。
常用的域移目标检测方法主要有两个方向:(1)训练监督模型,然后对目标域进行微调;或者(ii)无监督的跨域表示学习。前者需要在目标数据上附加实例级注释,这是相当费力、昂贵和耗时的。因此,大多数方法都侧重于后者,但仍然存在一些挑战。第一个挑战是,源域和目标域数据的表示应该嵌入一个公共空间来匹配目标,例如隐藏特征空间,输入空间或两者都有。第二,一个功能对齐或匹配操作或源/目标域的机制应该进一步定义,如子空间对齐, H-divergence和对抗学习,推广强弱对齐,普遍对齐等等。总的来说,我们在本工作中提出的方法就是针对这两个挑战,它也是一种基于学习的跨领域对齐方法,具有端到端框架。
我们引入了一个大规模的以街景为中心的数据集CDTD,它解决了I2I翻译中的三个核心研究问题:(1)无监督学习范式,即数据中没有特定的一对一映射; (2)多模态域合并。 大多数现有的I2I翻译数据集只提供两个不同的领域,这限制了探索更具挑战性的任务(如多领域合并环境)的潜力。 我们的数据集包含四个域:一个统一的街景中的晴天、夜晚、多云和雨天2; (3)多粒度(全局和实例级)信息。 我们的数据集提供了实例级边界框注释,它可以利用更多的细节来学习翻译模型。 表1显示了不同I2I翻译数据集的逐项特征比较。 我们还在图4中可视化了数据集的一些示例。 例如类别,我们标注了街景中常见的三种物体:车、人、交通标志(限速标志)。 由于我们的数据集涵盖了多个具有共享类别的领域,所以它也适用于域自适应目标检测任务。
CDTD数据集由155,529张图像组成,其中用于训练的图像有132,201张,用于测试的图像有23,328张。 该数据集包含四个相关但视觉上不同的领域:晴天、夜晚、多云、雨天。 整个数据集的详细统计数据(#images)如表3所示。 所有图像收集在东京,日本SEKONIX AR0231相机。 整个收集过程持续了大约3个月。
非配对图像对图像翻译的目的是学习不同领域的非对齐图像对之间的映射。 这一领域的最新进展如MUNIT和DRIT主要侧重于先从给定的图像中分离内容和风格/属性,然后直接采用全局风格来指导模型合成新的域图像。 但是,如果目标域图像内容丰富且有多个不同的目标,这种方法会产生严重的矛盾。 在本文中,我们提出了一种简单而有效的实例感知图像到图像转换方法(INIT),该方法在空间上对目标图像采用细粒度的局部(实例)和全局样式。 该方法具有三个重要的优势:(1)实例级目标损失可以帮助学习更准确的重构和融合目标的多样性属性;(2)局部/全局区域的目标域使用的样式来自源域对应的空间区域,直观上是更合理的映射; (3)联合训练过程可以兼顾细粒度和粗粒度,结合实例信息提高全局翻译质量。 我们观察到,我们的合成图像甚至可以帮助现实世界的视觉任务,比如通用物体检测。
更准确地说,我们的目标是在没有成对训练示例的情况下实现两个不同领域之间的实例感知I2I转换。 我们利用MUNIT和DRIT方法构建我们的框架。 为了避免重复,我们省略了一些无关痛痒的细节。 类似于MUNIT 和DRIT,我们的方法直接且易于实现。 如图6中所示,我们的翻译模型包含两个编码器如, (g和o表示全局和实例图像区域分别),和在两个域或两个解码器,。因为我们有目标坐标,我们可以合并目标区域并将它们加入实例级的解码器来提取内容/风格向量。 目标内容向量的另一种方法是从全局图像内容特征中采用RoI池化。 这里我们使用图像裁剪(目标区域)并共享两个编码器的参数,这更容易实现。
解开目标和整个整个图像上的内容和风格:
我们的方法还将输入图像/目标分解为共享内容空间和特定领域的风格空间。 以全局图像为例,每个编码都可以将输入分解为内容代码和样式代码,其中,,, I表示输入图像表示。 和是全局级别的内容/风格特性。
生成样式代码库:
我们从目标、背景和整个图像中生成样式代码,这些代码构成了我们的样式代码库,用于下面的交换操作和转换。 相比之下,MUNIT和DRIT只使用整个图像风格或属性,难以建模和覆盖丰富的图像空间表示。
关联内容样式对以进行循环重构:
我们的跨周期一致性通过交换编码器-解码器对来实现(图7中虚线弧线)。跨周期包括两种模式:跨域(X↔Y)和跨粒度(entire image↔object)。 我们在图7中说明交叉粒度(X↔Y),交叉点的一致性(X↔Y)类似于MUNIT和DRIT。 如图5所示,交换或内容样式关联策略是跨多粒度区域的层次结构。 直观地看,粗糙的(全局)风格会影响精细的内容,并被用于局部区域,而如果过程反过来,就不是这样了。 我们也使用AdaIN 将内容向量和风格向量结合起来,可以表述为:
其中c是输入内容批处理,s是样式输入。 μ(c)、σ (c)是均值和标准差,AdaIN的目标是用σ(s)对归一化内容输入进行缩放,并用μ(s)对其进行移位。
合并多尺度:
在技术上很容易将多尺度优势整合到框架中。 我们简单地将图7中的目标分支替换为分辨率降低的图像。 在我们的实验中,我们使用1/2比例尺和原始大小的图像作为成对进行比例尺增强训练。 具体来说,小尺寸图像和原始尺寸图像的样式可以相互执行,生成器需要学习两者的多尺度重构,这样才能得到更准确的结果。
重建损失:
我们对整个图像和对象使用自重建和跨周期一致性损失,以鼓励重建它们。 对于已编码的c和s,解码器应该将它们解码回原始输入,
我们也可以重构潜在分布。
其中和是实例级内容和全局级样式特性。 然后,我们可以使用下面的队形来学习它们的重建:
其中k可以是I,o,c或s. p(k)表示数据k的分布,跨周期一致性的形成与此过程类似,更多细节可参考(Lee et al. 2018)
对抗损失:
生成式对抗学习已被用于许多视觉任务,如检测,修复,集合等。 我们采用对抗性损失,和试图在每个域区分真实和合成图像/物体。 我们探索两种设计的鉴别器:权重共享或权重独立的全局和实例图像在每个领域。 消融实验结果如表4和表5所示,我们发现共享鉴别器在我们的实验中是一个较好的选择。
整个目标函数:
我们框架的完整目标函数为:
其中,为控制不同重建项重要性的权重。 在推理时,我们简单地使用全局分支生成目标域图像(图6右上部分),因此在这一阶段不需要使用边框注释,该策略也可以保证生成的图像是和谐的。
无监督域自适应目标检测旨在学习在域漂移情况下的鲁棒检测器,其中训练(源)域是带有边界框注释的标签丰富的领域, 而测试(目标)域是标签不可知的,训练域和测试域之间的特征分布是不同的甚至完全不同的。 根据领域自适应目标检测的常见公式,我们定义了一个源域X,其中有带注释的边界框,一个目标域Y,其中只有图像可以用于训练过程,没有任何标签(边界框和类别)。 我们的目的是训练一个鲁棒检测器,可以很好地适应源和目标领域数据,即,我们的目标是学习一个领域不变的特征表示,可以很好地在两个不同的领域检测。
在本节中,我们首先介绍分离策略,以及它如何帮助防止梯度流从上下文子网通过检测骨干路径。 然后介绍了在领域自适应目标检测场景中引入分离多目标学习的整体框架。
我们定义了一个子网络来从检测主干的早期层生成上下文信息。 直观地看,实例和上下文将关注于图像感知上的不同部分,所以它们中的任何一个的表现也应该是不同的。 然而,如果我们使用传统的联合过程进行训练,伴随子网络将与检测骨干同时更新,这可能导致从这两个部分学习到不可区分的表示/行为。 为此,我们提出在反向传播过程中抑制梯度,迫使上下文子网络的表示与检测网络不同,如算法1所示。 然后,我们应用实例上下文对齐模块,该模块具有分离生成的上下文和骨干对象表示形式,以便进行联合适配,如下节所述。 我们发现,梯度分离可以帮助获得更多的分辨力上下文和目标表征(见图8),我们的经验证据表明,这条路径携带的信息具有多样性,因此抑制这条路径上的梯度在这类任务中更优。
基于分离的多目标学习:
如图9所示,我们关注基于分离的互补目标学习,设,其中表示一幅图像,为样本对应的边界框和类别标签,i为索引。 每个标号表示一个类标号,其中c为类别,四维框坐标。 对于目标域,我们只使用图像数据进行训练,因此。 我们定义了一个递归函数的层,其中我们削减互补损失:
其中为第k层生成的feature map, F为第k层生成feature的函数,为第k层的输入。我们将域分类器k的补损公式为:
其中为第k个域分类器或鉴别器。 和分别表示来自源域和目标域的特征映射。我们还采用梯度反向层(GRL)来实现对对抗训练,其中在域分类器和检测骨干网络之间放置GRL层。 在反向传播过程中,GRL将域分类器经过的梯度反向到检测网络。
对于我们的实例-上下文对齐损失,我们将实例级表示和上下文向量作为输入。 实例级向量来自RoI层,每个向量只关注局部目标的表示。 上下文向量来自我们提出的结合了层次全局特征的子网络。 我们用相同的上下文向量连接实例特性。 由于上下文信息与目标的差异较大,联合训练检测和上下文网络将各个部分的关键信息混合在一起,我们提出了一种更好的解决方案,使用分离策略更新梯度。 我们将在下一节详细介绍它。 同时对实例和上下文表示进行对齐,可以减轻实例向量中物体外观、零件变形、物体大小等方面的差异,减轻上下文向量中光照、场景等方面的差异。 我们将定义为第i个训练图像的域标签,其中= 1为源图像,= 0为目标图像,因此实例-上下文对齐损失可以进一步表述为:
其中,和表示源例和目标例的个数。是第i幅图像中第j个区域建议的实例上下文域分类器的输出概率。 因此,我们的总SCL(叠加互补损耗)目标LSCL可记为:
我们的检测部分基于Faster RCNN,包括Region Proposal Network (RPN)等模块。 这是许多自适应检测工作中的常规做法。 检测损失的目的概括为:
其中为分类损失,为bounding box回归损失。 采用SGD对整个模型进行训练,模型中的总体目标函数为:
λ是检测损失和互补损失之间的权衡系数。 R表示Faster RCNN中的RPN和其他模块。
我们对收集的数据集(CDTD)进行了实验。 我们还使用COCO数据集来验证数据增强的有效性。
实现细节:
我们的实现是基于使用PyTorch的MUNIT。 对于I2I转换,由于GPU内存的限制,我们将图像的短边调整为360像素。COCO图像合成,因为训练图像数据集(INIT)和目标图像(COCO)在不同的发行版,我们继续我们的训练图像的原始大小和作物360×360像素来训练我们的模型,以了解更多的细节图片和对象,与此同时,忽视全局信息。 在这种情况下,我们构建我们的目标部分作为一个独立的分支,每个对象在训练期间调整大小为120×120像素。 我们将交换超参数设置为:, ,, ,,。
我们对以下四种最近提出的最先进的非配对I2I翻译方法进行了评估:
- CycleGAN:CycleGAN包含两个翻译函数(X→Y和X←Y)和相应的对位损失。 它假设输入的图像可以转换到另一个域,然后可以映射回一个周期一致性损失。
- UNIT:UNIT方法是基于共享潜在空间假设的CycleGAN 的扩展。 它包含两个VAE-GANs
,并使用周期一致性损失用于学习模型。
- MUNIT:MUNIT由每个域的编码器和解码器组成。 它假设图像表示可以分解为一个领域不变的内容空间和一个领域特定的样式空间。 每个编码器的潜在向量解纠缠为内容向量和样式向量。 I2I转换通过交换内容样式对来执行。
- DRIT:DRIT的动机与MUNIT相似。 它由两个域的内容编码器、属性编码器、生成器和域鉴别器组成。 内容编码器将图像映射到共享内容空间,属性编码器将图像映射到特定于域的属性空间。 I2I转换采用跨周期一致性损失。
我们采用与以前无监督I2I翻译作品相同的评估协议,并使用LPIPS度量、Inception评分(IS) 和Conditional Inception评分(CIS)来评估我们的方法。
LPIPSMetric:
Zhang等人提出了LPIPS距离来衡量翻译多样性,该距离已被证实与人类感知心理相似性有良好的关联。 接下来,我们计算了测试集100幅输入图像中19对随机抽样翻译输出之间的平均LPIPS距离。 我们也使用预先训练的AlexNet 来提取深度特征。 结果如表4所示,“INIT w/ Ds”表示我们在整个图像和目标之间使用共享鉴别器训练我们的模型。 “INIT w/o d”表示我们对图像和目标分别建立了鉴别器。 由于我们使用了粗和细的风格,我们的平均INIT w/ Ds得分超过了MUNIT,有显著的利润。 我们还观察到我们的数据集(真实图像)有一个非常大的多样性得分,这表明数据集是多样化的和具有挑战性的。
IS (Inception Score)和CIS (Conditional Inception Score):
我们使用初始分数(IS)和条件初始分数(CIS) 来评估我们的学习模型。 IS度量所有输出图像的多样性,CIS度量单个输入图像条件下输出图像的多样性,是一种改进的IS,更适合评价多模态I2I翻译任务。 CIS的详细定义可参考Huang et al.(2018)。 我们还使用Inception V3模型在数据集的四个域类别标签上微调我们的分类模型。 其他设置与Huang等人相同。 从表5中可以看出,我们的结果始终优于基准MUNIT和DRIT。 基于多数据集的图像合成我们合成图像的可视化如图17所示。 左组图片是COCO,右组是Cityscapes。 我们观察到多数据集合成中最具挑战性的问题是它们之间的类间方差。
我们使用Mask RCNN 框架进行实验。 我们的sunny→night模型生成了整个COCO数据集的合成副本。 我们使用Mask RCNN4的开源实现来训练COCO模型。 对于训练,我们使用相同数量的训练epoch和其他默认设置,包括学习率计划,#batchsize等。
所有结果汇总在表6中,第一列(组)显示了我们使用的训练数据,第二组显示了我们进行测试的验证数据。 第三组和第四组分别是检测和分割结果。 我们可以看到,我们的真实图像训练模型在合成验证图像上可以获得30.4%的mAP,这说明原始COCO和我们的合成图像之间的分布差异不是很大。 我们的生成过程似乎更可能对图像进行光度畸变或亮度调整,可以视为一种数据增强技术,在Liu et al.(2016)中已经验证了其对目标检测的有效性。 从最后两行我们可以看到,合成图像不仅可以帮助提高真实图像测试性能,而且真实图像也可以提高合成图像的结果(对合成图像进行训练和测试)。 我们还比较了表7中不同生成方法的改进。 结果表明,与基线相比,目标分支可以为检测任务带来更多的好处。 我们还认为,所提出的数据增强方法可以受益于一些有限的训练数据场景,如从零开始学习检测器。
我们进一步对Cityscapes进行了场景解析。 然而,我们在这个实验中并没有看到明显的改善。 使用PSPNe和ResNet-50,在真实图像上进行训练和测试时,我们得到mIoU: 76.6%, mAcc: 83.1%,在合成图像上分别得到74.6%/81.1%。 我们可以看到真实图像和合成图像之间的差距非常小。 我们推测这种情况(没有收获)是因为合成的城市景观与原始的太接近了。 我们比较了表8中的性能下降情况。 由于COCO和Cityscape的指标不同,我们使用相对百分比进行比较。 结果表明,由于城市景观的下降幅度较小,COCO的合成图像可能更加多样化。
定性比较:
我们将我们的方法与基线MUNIT进行了定性比较。 图13为sunny→night的算例结果。
我们为每种方法随机选择一个输出。 很明显,我们的结果更加现实,更加多样化,质量也更高。 如果目标区域很小,MUNIT可能会陷入模式崩溃,在目标区域周围带来小的伪影,而我们的方法可以通过实例级重构来克服这一问题。 我们也可视化多模态的结果在图11随机采样的样式向量。 可以观察到这些图像中产生了不同程度的黑暗。
实例生成:
生成实例图12所示的结果,我们的方法可以生成更为多样化目标(列1、2、6),更多的细节(列5、6、7)即使反射(列7)。MUNIT有时未能产生预期的结果如果全局风格不适合目标(第2列)。
比较全局和局部风格编码分布:
为了进一步验证我们的假设,即对象和全局样式可以区分开来,我们将w/ Ds模型中的嵌入样式向量可视化。 可视化绘制了t-SNE工具。 我们在每个域的测试集中随机抽取100幅图像和物体,结果如图14所示。 相同的颜色组表示成对的全局图像和对象在同一域。 我们可以观察到,相同域的全局图像和目标图像的风格向量被分组和分离,并有明显的边缘,同时它们在嵌入空间中是相邻的。 这是合理的,也证明了我们学习过程的有效性。
实现细节:
在所有实验中,我们将图像的短边调整为600以下与ROI-align。 我们使用SGD优化器对模型进行训练,初始学习率设置为10−3,每5万次迭代后除以10。 除非另有说明,我们设λ为1.0,γ为5.0,实验中使用K = 3(超参数K的分析如表11所示)。 我们报告平均精度(mAP)与IoU阈值0.5的评估。 后续,在训练期间,我们在每个小批量中输入一个标记源图像和一个未标记目标图像。 我们的方法是在PyTorch平台上实现的。
基线和我们的结果:
基线和我们的结果如表9和10所示。 在翻译设置之后,我们对三个域对进行了实验:sunny→night (s2n), sunny→rainy (s2r), sunny→cloudy (s2c)。 由于rainy域的训练图像比sunny域的要少得多,s2r实验中我们在sunny集中随机抽取相同数量的rain集训练数据,然后训练检测器。 可以看出,我们的方法始终优于基线方法。 我们没有提供s2c(更快)的结果,因为我们发现在这个数据集中,cloudy图像和sunny图像非常相似(几乎相同),因此不适应的结果和适应的方法非常接近。
为了彻底验证我们所提出的梯度分离方法的每个组件的有效性和对其他基准的推广能力,我们从Cityscapes到Foggy Cityscapes 进一步研究了我们的框架的每个组件和设计。 源数据集和目标数据集分别有2975幅图像和500幅图像。 我们为这个消融研究设计了几个对照实验。 所有的实验都采用一致的设置,除非对某些部件或结构进行检查。 在本研究中,我们使用ImageNet预训练的ResNet-101作为主要使用的骨干,我们也提供预训练的VGG16模型的结果。 我们在SCL中使用了四种损耗函数:LS:最小二乘损失; CE:熵损失; FL:焦损失; ILoss: InstanceContext对齐损失。
Focal Loss (FL):
采用Focal loss LF,在训练中忽略容易分类的例子,专注于难以分类的例子:
其中,否则。
结果见表12。 我们提出了四个互补目标的几个组合及其损失名称和性能。 我们观察到,“LS|CE|FL|FL”使用上下文和分离得到最好的准确性。 这说明LS只能放置在低层特征(丰富的空间信息和贫乏的语义信息)上,FL应该放置在高层特征(弱空间信息和强语义信息)上。 对于中间位置,CE将是一个不错的选择。 如果在中高级特性上使用LS,在低级特性上使用FL,会使网络混淆学习层次语义输出,从而使ILoss+detach在这种情况下失去有效性。 这说明领域自适应目标检测在很大程度上依赖于深度监督,而多样化的监督应在受控和正确的情况下采用。 此外,我们提出的方法比基线强-弱和其他最新技术表现要好得多。
图15显示了方程11和12中λ和γ的参数灵敏度结果。 λ是SCL和检测目标之间的权衡参数,γ控制着焦损硬样品的强度。 我们对两种适应性进行了实验:Cityscapes→FoggyCityscapes和Sim10K→Cityscapes。 在Cityscapes→FoggyCityscapes中,当λ = 1.0和γ = 5.0时性能最佳,最佳精度为37.9%。 在Sim10K→Cityscapes上,λ = 0.1, γ = 2.0时效果最佳。
超参数K的分析:
表11显示了图9中超参数K的灵敏度结果。 此参数控制SCL损失和上下文分支的数量。 可以观察到,当K = 3时,所提方法在三个数据集上的性能最好。
在这项工作中,我们引入了一个大规模的跨域数据集,用于实例级图像到图像平移和域自适应目标检测任务。 针对不配对训练数据的实例感知翻译,提出了INIT方法。 大量的定性和定量结果表明,所提出的方法可以捕获目标的细节,并产生逼真和多样的图像。 我们还通过一种新的训练策略,梯度分离,解决了无监督域自适应目标检测,为卷积神经网络。 我们未来的工作将集中于从头开始探索领域转换任务,即没有预先训练的模型,以避免涉及来自预训练数据集的偏差。