Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection

参考Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection - 云+社区 - 腾讯云

摘要

深度检测模型在受控环境下非常强大,但在不可见的领域应用时却显得脆弱和失败。 所有改进该问题的适配方法都是在训练时获取大量的目标样本,这种策略不适用于目标未知和数据无法提前获得的情况。 例如,考虑监控来自社交媒体的图像源的任务:由于每一张图像都是由不同的用户上传的,它属于不同的目标域,这在训练期间是不可能预见到的。 我们的工作解决了这一设置,提出了一个目标检测算法,能够执行无监督适配跨域,只使用一个目标样本,在测试时间。 我们引入了一个多任务体系结构,它通过迭代地解决一个自监督的任务,一次性适应任何传入的样本。 我们进一步利用元学习模拟单样本跨域学习集,更好地匹配测试条件。 此外,交叉任务的伪标记程序允许聚焦于图像前景,增强了适配过程。 对最新的跨域检测方法的全面基准分析和详细的消融研究显示了我们的方法的优势。  

1、简介

尽管在过去的几年里目标检测取得了令人印象深刻的进展,但可靠地定位和识别跨视觉域的目标仍然是一个开放的挑战。 事实上,大多数现有的检测模型依赖于从大量标注的训练数据中学习到的深度代表性特征,这些特征通常来自特定的分布(来源),而且标注成本很高。 因此,当学习的模型应用于从不同(目标)领域采样的图像时,它们会遭受严重的性能退化。 这阻碍了在现实环境中部署检测模型,在现实环境中,通常不可能预测应用程序域或提前访问它以获取数据。 例如,考虑图3所示的社交媒体提要场景,其中有来自各种社交媒体的传入图像流,检测器被要求寻找自行车类的实例。 这些图片源源不断地出现,但它们是由不同的用户在不同的社交平台上分享的。 因此,即使它们可能包含相同的目标,它们中的每一个都是由不同的人在不同的背景下,在不同的观点和启发下获得的。 换句话说,每一幅图像来自不同的视觉域,不同于检测器被训练过的视觉域。 这给当前的跨域检测器提出了两个关键的挑战:(1)、为了适配目标数据,这些算法首先需要收集反馈,只有在收集到足够多的目标数据后,它们才能学会适应并开始对输入图像执行; (2)、即使算法已经学会了适应从馈源到时间t的目标图像,也不能保证从时间t+1到达的图像来自相同的目标域。  

这就是我们要解决的情况。 当只有一个目标样本可供适应,没有任何形式的监督时,我们专注于跨域检测。 我们提出了一种能够自适应于一个目标图像的目标检测方法,因此适用于上述社交媒体场景。 具体来说,我们构建了一个多任务深度架构,通过利用自我监督的借口任务来适应跨领域。 在初始预训练阶段,与主监督目标一起对源数据进行训练后,自监督模块对单个目标样本进行微调,并自定义特征,以实现最终的检测预测。 辅助知识进一步通过交叉任务的伪标记来引导,将目标检测的局部性注入到自我监督学习中。 此外,我们还展示了如何将自我监督作为元学习算法的内部基本目标,其外部目标是训练领域鲁棒检测模型时,可以更加有效。 通过将训练前过程重新定义为两层优化,我们模拟了几个单样本跨域学习集,更好地与最终部署条件相匹配,并在学习速度和准确性方面具有进一步的优势。  

总的来说,本文扩展了我们之前的工作[1],并给出了以下贡献。 

(1)、我们引入了一阶段无监督跨域检测设置,这是一种跨域检测场景,目标域在样本之间变化,因此只能从一幅图像学习自适应。 这个场景对于监控社交媒体图像源尤其重要。

(2)、提出了首个能够实现单样本无监督自适应的跨域目标检测器OSHOT。 我们的方法利用了嵌入到多任务体系结构中的跨任务伪标记过程引导的自我监督的一次性学习。

 (3)、提出了一种新的元学习方案,将主要监督检测任务与自我监督辅助目标相结合,通过多次自适应迭代,有效地推动模型产生良好的效果。 我们将其命名为FULLOSHOT:我们通过彻底的消融实验来讨论其有效性,以评估其所有内部部件的作用,并提供广泛的误差分析。

(4)、我们提出了一个专门的实验装置来研究一次性无监督跨域检测,设计了三个现有数据库和一个新的测试集从社交媒体feed收集。 我们将最新的自适应检测算法[2]、[3]、[4]和基于一次性风格转移的无监督学习[5]进行了比较,达到了最先进的水平。

(5)、进一步评价了基于多任务和元学习的跨领域多目标分类方法,验证了该方法的广泛适用性和有效性。  

2、相关工作

Object Detection

在过去的几年里,许多成功的目标检测方法已经发展,从原始的基于手工特征的滑动窗口方法,直到最近的深度学习授权解决方案。 现代检测器可分为一阶段和两阶段技术。 前者在卷积特征图上进行分类和包围框预测,要么解决网格单元上的回归问题,要么利用不同尺度和长宽比上的锚盒。 在后者中,初始阶段处理区域建议过程,随后是调整粗糙区域定位和分类框内容的细化阶段。 该策略的现有变体主要区别于区域建议算法。 不管具体的实现,探测器的鲁棒性跨视觉域仍然是一个主要问题。  

Cross-Domain Detection

当训练和测试数据来自两种不同的分布时,在第一种分布上学习到的模型注定在第二种分布上失败。 无监督的领域自适应方法试图消除执行学习的注释源和部署模型的目标样本之间的领域差距。 大多数文献关注的是基于特征对齐[或对抗方法的目标分类。 基于GAN的方法允许直接更新带注释的源数据的视觉样式,并直接在像素级减少域位移。 仅仅在过去的三年里,适配检测方法已经发展了三个主要组成部分:(i)、包括在不同内部阶段的多个且越来越精确的特征对齐模块,(ii)、添加了初步的像素级自适应和(iii)伪标记。 最后一种方法也称为自训练,它使用源模型检测器的输出作为对目标的粗标注。  

[19]首先强调了考虑全局和局部域适配的重要性,以及连接两者的一致性正则化。 [2]的Strong-Weak (SW)方法对之前的方法进行了改进,指出需要一个更好的平衡对齐,即强的全局适配和弱的局部适配。 [20]还对其进行了进一步扩展,其中自适应步长在网络的不同深度相乘。 最新的SW-ICRCCR方法进一步包括一个图像级多标签分类器和一个用于实现图像级和实例级预测之间一致性的模块。 第一种方法允许获得与分类信息相对应的关键区域,第二种方法评估图像级和实例级预测之间的一致性,并作为一个正则化因素,帮助指出目标领域中的硬对齐实例。  

域转移(Domain-Transfer, DT)方法通过生成与目标相似的新源图像,首次采用像素级自适应方法进行目标检测,并将其与伪标记相结合。 最近的Div-Match方法重新阐述了领域随机化的思想:多个具有不同约束条件的CycleGAN应用程序产生了三个额外的源变体,通过对抗的多域鉴别器,目标可以在不同程度上对齐。 在[24]中结合了一种减少假阴性的弱自训练程序和对抗背景评分正则化(BSR)。 最后[25]采用了伪标记和一种处理噪声注释的方法。  

Adaptive Learning on a Budget

在分类和检测方面,有大量关于从有限的数据中学习的文献。 然而,在领域变化的情况下,学习目标预算变得非常具有挑战性。 事实上,自适应学习的标准假设是,在训练时有大量的无监督目标样本,因此源模型可以从这些样本中捕获目标领域风格,并对其进行适配。

在减少目标基数方面只做了很少的尝试。 在[26]中,考虑的设置是少样本监督域自适应:只有少数目标样本可用,但它们被充分标记。 在[5]和[27]中,重点是使用一个大的源数据集和一个单一的无监督目标图像进行一次无监督样式转换。 这些工作提出了费时的基于自动编码器的方法来生成目标图像的版本,该版本保持其内容,但在视觉上与源图像的全局外观相似。 因此,我们的目标是生成没有任何区别的图像。 一个相关的设置是在线域自适应,其中无监督目标样本最初稀缺,但在[28],[29],[30]时间积累。 在这种情况下,目标样本属于一个连续的域平滑变化的数据流,因此可以利用后续样本之间的相干性进行自适应。  

Self-Supervised Learning

尽管不需要手动注释,但非监督数据具有丰富的结构信息,可以通过自我监督学习,即隐藏数据信息的一个子部分,然后试图恢复它。 这个过程通常被表示为伪装任务,可能的例子有图像补全、着色,补丁,旋转识别等等。 自我监督学习已经被广泛用于几乎没有注释的监督学习设置的初始化步骤,最近[37]已经通过深入分析显示了从单个图像进行自我监督学习的潜力。 一些研究也表明,在多任务框架[38],[39],[40]中,自我监督与监督学习相结合时,支持适应性和泛化。  

Meta-Learning

标准学习是基于能够在多个数据实例上提高性能的算法。 元学习是对其进行扩展,指的是在多个学习片段中改进算法的过程。 在实际应用中,基础学习模型被训练来解决数据集上的分类或检测等任务,而元学习循环则考虑同一族的多个任务来更新基础算法,以实现泛化或提高学习速度等更高层次的目标。 元学习在过去的几年里被广泛用于少量的学习,通过从完整的训练集中随机抽取样本来模拟缺乏数据的任务。 我们采用了类似的策略来创建包含多源训练集样本的单源任务,并为泛化做准备。 实际上,通过使用从训练域转移的验证域,可以(元)学习不同类型的元知识,如损失、正则化函数和数据增强,以最大限度地提高所学习模型的鲁棒性。  

Our approach

对于跨域检测涉及到预算学习的场景,并连接到少数元学习文献。 具体地,我们提出将一个自监督辅助目标与主要监督检测模型相结合,进行一次无监督自适应。 为了更好地将自监督训练阶段与单样本测试条件相匹配,我们通过模拟多个无监督单样本跨域学习事件来利用元学习。 我们并没有意识到之前将元学习应用于自我监督的尝试,而把它推到一个极端的无监督情况下。 所设计的方法还有一个额外的优势:它是无源的,这意味着测试时间适应在不访问源数据的情况下进行。

3、方法

我们引入了单样本无监督跨域检测场景,我们的目标是预测单个图像的, t是任何在训练时间不可用的目标域,从源域N个注释样本开始。 这里的结构化标签在每幅图像x中描述类标识c和包围框位置b,我们的目标是获得在域偏移的情况下能够精确检测出中的目标的。 

3.1 Strategy

为了实现所描述的目标,我们的策略是训练检测学习模型的参数,以便在新领域的单个无监督样本上经过几个梯度更新步骤后,可以获得最大的性能。 由于我们在目标样本上没有ground truth,我们通过学习一种表示来实现这个策略,这种表示利用由自监督任务捕获的固有数据信息,然后在目标样本上对其进行微调。 因此,我们将我们的方法设计为包括:(1)、初始预训练阶段,其中我们扩展了一个标准深度检测模型,添加了一个图像旋转分类器;(2)、随后的适应化阶段,通过进一步优化旋转目标,在单个目标样本上更新网络特征。 适应阶段不需要源数据。 此外,我们以一种新颖的跨任务方式利用伪标记,从而引导辅助任务聚焦于目标区域。 图2给出了我们方法的概览。 

Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection_第1张图片

3.2 Preliminaries

我们利用Faster R-CNN作为我们的基础检测模型。它是一个两阶段的检测器,有三个主要组成部分:初始块卷积层,区域建议网络(RPN)和基于区域感兴趣(ROI)的分类器。底层将任何输入图像x转换为其卷积特征映射,其中用于参数化特征提取模型。然后,RPN使用特征映射来生成候选目标建议。最后,roi分类器从roi池化获得的特征向量中预测类别标签。训练目标结合了RPN和ROI的损失,其中RPN和ROI的损失由两个术语组成:

                       

这里是分类损失,用于评估目标识别精度,而是框坐标上的回归损失,用于更好地定位。为了保持一个简单的符号,我们总结了ROI和RPN的作用,函数参数化。此外,我们使用强调RPN处理二元分类任务,以分离前景和背景目标,而ROI处理多类目标,需要区分c类前景目标类别。如前文所述,ROI和RPN的应用顺序是:它们都对卷积块生成的特征映射进行阐述,然后在多任务(分类、回归)目标函数的最终优化过程中相互影响。

3.3 Pretraining via Multi-task and Meta-Learning

作为第一步,我们扩展Faster R-CNN以包括图像旋转识别。形式上,我们对每个训练图像x应用四个几何变换,其中表示方向为。这样我们得到一组新的样本,我们去掉了α,但不失一般性。用分别表示辅助旋转分级机及其参数。根据训练过程,我们可以得到模型的不同变体。

Multi-task

监督任务和自监督任务可以在整个源数据上以标准的多任务方式联合训练。设计模型的总体目标是:

                      Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection_第2张图片

其中为交叉熵损失。这样,在检测目标和旋转目标的同步指导下,学习共享特征映射。更具体地说,所获得的表示将与目标位置和外观以及图像或对象方向协变。事实上,我们可以用两种不同的方式来设计:它可以是一个全连接(FC)层,比较需要作为输入特征映射(旋转)整体形象产生的,也可以利用ground-truth的位置每个目标的子选择特性只在原地图的边界框。boxcrop操作包括池化,目的是在进入最终FC层之前将特征维度进行缩放。在最后一种情况下,我们鼓励网络只关注目标的方向,而不引入背景的噪声信息,并提供比整个图像选项更好的结果,我们将在第4.6节中讨论。在实际操作中,无论是图像旋转还是框旋转,我们在每个实例中随机选择一个旋转角度,而不是考虑所有四个。

Meta-Learning

多任务学习需要深度学习的正则化,包括一个自监督任务的优势是免除任何额外的数据注释成本。然而,我们的主要兴趣仍然是检测,而旋转识别应被视为一个次要和辅助任务。为了管理这个角色的轮换,并更好地适应我们将在测试时面临的新领域上的未标记的一次性场景,我们重新规划了由元学习和构建MAML的双层优化过程所启发的问题。具体地,我们提出元训练的检测模型,以旋转任务作为其内部基学习者。优化目标为:

           Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection_第3张图片

换句话说,我们对每个源域样本x聚焦于旋转识别任务来开始,而这些源域样本已经用k=1, \ldots, K种不同方式进行了增强。我们考虑保持语义的增强(例如灰度,颜色抖动)并执行多次学习迭代(η基于梯度的更新步骤)。函数收集通过该程序在上获得的最优参数和相关的模块。外部元学习循环利用它来优化所有K数据变量的检测模型,并准备对单个样本进行泛化和微调。 

在这种情况下,我们有两个可能的选择来设计:要么考虑整个特征图,要么专注于boxcrop目标的位置。为了模拟部署设置,我们忽略了内部旋转目标的ground-truth物体位置,用下面一节详细介绍的交叉任务自我训练过程中获得的伪boxcrop代替boxcrop。我们报告了在算法1中应用于单个样本的元学习策略的伪代码实现。

                  Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection_第4张图片 

3.4 Cross-task self-training

自我训练是半监督学习中一个著名的范例,它允许利用弱预测模型来注释未标记的数据,然后将这些数据与获得的伪标记集成到学习过程中。在分类和检测模型中,这种方法也经常用于域适配。我们在这里提出了一个交叉任务变体:代替重用源模型在目标上产生的伪标签来更新检测器,我们利用它们作为自监督旋转分类器。这样,我们保持了自训练初始化的优势,大大减少了错误类伪标签导致错误传播的风险。

我们从预训练阶段的模型参数,我们从所有旋转版本的样本x。仅将原始图像生成的特征图(即q = 0)作为RPN和ROI网络分量的输入,得到预测的。这个伪标签由类标签和包围框位置组成。我们抛弃了第一种方法,只考虑第二种方法来定位所有四个特征图中包含一个目标的区域,并重新校准位置以补偿每个图的方向。通过此pseudoboxcrop操作后,所获得的特征将用于每个源样本的元学习阶段和每个目标样本的适配微调。

3.5、适配

在给定单一目标图像x^{t}的情况下,我们通过迭代求解其上的自监督任务来调整主干参数\theta_{f}。 这允许根据新示例的内容和样式调整原始特性表示。 具体来说,我们从所提供样本的旋转版本R\left(x^{t}\right)开始,通过对旋转分类器进行优化  

这一过程只涉及,而描述的RPN和ROI检测成分保持不变。下面我们用\gamma表示梯度步骤的数量(即迭代),\gamma = 0对应于预处理阶段。在微调过程结束时,内部特征模型由描述,对x^t的检测预测由获得。算法2概述了单个目标样本的适配过程。

                 Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection_第5张图片

3.6 Model Variants and Implementation Details

我们在FasterRCNN[48]的公共实现上构建了我们的模型。具体来说,我们选择了在ImageNet上预先训练的ResNet-50骨干,RPN,经过非最大抑制后的300个顶级建议,锚在三个尺度(128,256,512)和三个宽高比(1:1,1:2,2:1)。

下面,我们将根据具体采用的训练程序来区分所建议模型的名称。我们将使用OSHOT表示基本的One-SHOT多任务预训练方法,而我们将使用FULL-OSHOT表示基于元学习预训练的变体。我们还考虑了两种中间情况:Tran-OSHOT扩展OSHOT FULL-OSHOT中使用的数据semantic-preserving转换,和Meta-OSHOT对应FULL-OSHOT没有转换(即K = 1)。

针对OSHOT,我们使用SGD与0.9的动量来训练基础网络,最初的学习速率是0.001和衰变后50 K迭代。我们使用1的批大小,在预处理和适应阶段保持固定的批标准化层,冻结ResNet50的前两个块。旋转任务的权重设置为\lambda=0.05。实际上,FULL-OSHOT训练分为两个步骤。在最初的60k迭代中,训练与OSHOT相同,而在最后的10k迭代中,元学习过程被激活。内部循环优化的自监督任务运行η = 5迭代和批大小是2,以适应两次变换的原始图像。具体来说,我们使用灰度和色彩抖动,亮度、对比度、饱和度和色调都设置为0.4。所有其他超参数保持与OSHOT相同。trans -OSHOT与OSHOT仅在最后的10k学习迭代中不同,其中批处理大小为2,网络在一次迭代中看到多个不同视觉外观的图像。Meta-OSHOT与FULL-OSHOT完全相同,除了转换被丢弃,因此在最后的10k预训练迭代中batch size也是1。

适配阶段对所有变量都是相同的:前训练阶段获得的模型通过自监督任务的微调来更新。为防止过拟合,在旋转分级机前加入一个概率为p = 0.5的dropout。将辅助任务的权重增加到\lambda=0.2,加快适配过程。所有其他超参数和设置在训练前使用相同。微调步骤的数量被设置为匹配元训练的迭代次数\gamma=\eta=5,但我们也研究了增加\gamma对OSHOT的影响(见章节4.5)。

4、实验

在本节中,我们将对所提出的一次性无监督跨域检测场景进行广泛的实验分析。 特别是,我们展示了现有自适应检测方法的局限性,并讨论了我们提出的方法如何克服它们。  

4.1、数据集

我们考虑了多种现有数据集,此外还包括我们创建的一个新数据集,用于评估我们的方法在具有挑战性的社交媒体feed设置上的性能。  

Visual Object Classes (VOC)

Pascal-VOC是一个标准的真实世界图像数据集,用于目标检测基准。 VOC2007和VOC2012都包含20个常见类别的边界框注释。 VOC2007在train-val分割中有5011张图像,在test分割中有4952张图像,而VOC2012在train-val分割中有11540张图像。  

Artistic Media Datasets (AMD)

由Clipart1k、Comic2k和Watercolor2k[21]组成的三个目标检测数据集,用于在源域为VOC时对域自适应方法进行基准测试。 Clipart1k与VOC共享它的20个类别:它在训练集中有500张图片,在测试集中有500张图片。 Comic2k和Watercolor2k都有相同的6个类别(20个VOC类别的子集),并且在训练测试中分别有1000-1000张图片。  

Cityscapes

是一个具有8类像素级注释的城市街景数据集。 在训练和验证分割中分别有2975和500张图像。 我们使用实例级像素注释来生成对象的边界框,如[19]。  

Foggy Cityscapes

是通过在城市景观图像中添加不同级别的合成雾来获得的。 我们只考虑人工雾量最高的图像,因此训练验证分割分别有2975-500幅图像。  

KITTI

是一个描述多个城市驾驶场景的图像数据集。 通过跟随[19],我们将完整的7481图像用于训练(当用作源)和评估(当用作目标)。  

Social Bikes

是我们从Twitter、Instagram和Facebook上搜索#bike标签收集的530张人物/自行车场景的新数据集。 当源域为VOC时,它被设计为可能的目标,实际上人和自行车这两个类是共享的。 数据集子集的方形作物如图3所示:从社交源中随机获取的图像显示了不同的样式属性,不能在一个共享域下分组。  

                               Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection_第6张图片

4.2、实验设置和比较

为了运行所有实验,我们将图像的较小尺寸调整为600像素,并在训练前应用随机水平翻转。 在mAP结果的IoU阈值为0.5的情况下评估检测性能。 在下面我们将使用箭头指示实验设置,我们报告三个独立运行的平均值。 我们还使用TIDE进行检测错误分析,这是一个工具箱,允许估计每种检测错误对缺失mAP的影响程度。 特别是TIDE不仅计算假阳性和假阴性,而且通过计算每次检测和一个ground truth bounding box之间的最大欠条,将所有错误分为六类。 表示目标定位正确(IoUmax≥0.5)但分类不正确,表示目标分类正确但定位不正确(0.1≤IoUmax < 0.5),两者都用于两种情况同时发生时, 表示检测是正确的,但相同的ground truth bounding box已经与另一个更高评分的检测相关联,Bkg表示检测到的背景为前景(IoUmax < 0:1), Miss表示所有未检测到的ground truth框尚未被其他类型的错误覆盖。  

我们考虑一个普通检测模型和几种自适应方法作为基准。 基线是我们使用ResNet-50骨干的Faster R-CNN基线,仅在源域进行训练,部署在目标上,无需进一步调整。 跨基线是通过在最后的10k训练迭代中应用为FULL-OSHOT引入的相同的数据语义保持转换而获得的基线的变体。 这使我们能够评估有多少改进是由于更高的数据可变性,而不是训练策略。 DivMatch是一种跨域检测算法,通过利用目标数据,通过CycleGAN创建多个随机域,并使用敌对损失对齐它们的表示。 SW基于全局上下文相似性对源和目标特征进行对齐。

SW-ICR-CCR在SW之上添加了两个正则化模块:它们促使模型减少对不可转移源背景的关注,并给予难于对齐的实例更多的权重。 在所有的情况下,我们使用在ImageNet上预先训练的ResNet-50骨干进行公平比较。 我们注意到,跨域算法需要提前目标数据,并且不是设计来工作在我们的一次性无监督设置,因此我们为它们提供了10个目标图像的优势,在训练期间可以访问,并在每次运行时随机选择。 我们在推理过程中收集平均精度统计数据,假设目标域在部署后不会移动。  

4.3、执行和检测误差分析

Adapting to social feeds

当数据来自多个提供者时,所有目标图像来自同一底层分布的假设不成立,无论看到的目标样本数量有多少,标准的跨域检测方法都会受到惩罚。 我们将源探测器预先训练在VOC上,并将其部署在Social Bikes上。  

我们在表1中报告了结果。 当\gamma=0时的mAP性能允许我们在适应之前比较训练前的模型,并且已经显示了FULLOSHOT相对于OSHOT以及Tran和Meta变体的优势。 具体来说,数据转换支持Baseline和OSHOT,在Tran和各自的普通版本之间增加了大约1分,但它们在FULL-OSHOT的元学习过程中的使用提供了最大的优势。 当\gamma=5时,所有OSHOT变体仅通过对单个测试样本进行调整,就能获得比基线从1.9 (OSHOT)到2.6 (FULL-OSHOT)的改进。 尽管允许它们访问更大的适应样本集,域自适应算法与FULL-OSHOT相比最多可以达到1.2的优势,即使是在利用整个目标进行适应时也是如此。 当仅使用10个目标样品时,三种方法中有两种显示出与基线相比的负迁移。  

通过检测错误分析,我们可以看到,自适应迭代允许OSHOT减少假阴性的数量。 此外,trans -OSHOT和FULL-OSHOT的Miss error值都比OSHOT高。 FULL-OSHOT的性能表明,采用语义保持数据增强的元学习策略成功地为模型在推理时解决自适应任务做好了准备。  

Large distribution shifts

艺术图像是跨域方法的难点基准。 形状和颜色上不可预测的扰动对于只训练真实图像的检测器来说是一个挑战。 我们通过训练源检测器来研究这种设置,并将其部署在剪贴画、漫画和水彩数据集上。  

表2总结了三种适配划分的结果。 在所有的设置中,通过很少的自适应迭代(\gamma=5)一次利用一个样本,OSHOT及其变体优于适配的检测器,尽管它们可以利用10个目标样本。 更准确地说,所有的自适应检测器无法工作在数据稀缺性条件和获得的结果相当或更低的Tran-Baseline和pretraining阶段我们的方法(\gamma = 0)。我们还强调当\gamma=5 Meta-OSHOT获得结果高于Tran-OSHOT和平均仅略低于FULL-OSHOT, 因此,元学习策略单独(没有额外的数据扩充)为推理时间适应任务准备检测器。 从检测错误分析可以看出,Tran-OSHOT的数据增强使得Miss类型错误的数量更少,而Meta-OSHOT的元学习策略使分类错误的数量更少。 FULL-OSHOT充分利用了这两者,获得了最佳的整体性能。 

                 Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection_第7张图片

从检测误差分析中可以看出,trans - oshot的数据扩充使得Miss类的错误数更低,而meta - oshot的元学习策略使得Classification类的错误数更低。 FULL-OSHOT利用了这两点,获得了最佳的整体性能。  

Adverse weather

一些特殊的环境条件,如雾,在源数据采集中可能被忽视,但适应这些环境对现实世界的应用至关重要。 我们考虑的是\text { Cityscapes } \rightarrow \text { Foggy Cityscapes }设置通过训练我们的基础检测器在第一个域上进行30k次迭代,没有降阶。 我们在Cityscapes验证中选择了性能最好的模型,并将其部署到FoggyCityscapes中。 

表3中的实验评价表明,域自适应检测器在处理这种偏移时使用一个小的自适应集。 尽管SW-ICR-CCR的mAP仍低于Tran-Baseline,但SW-ICR-CCR是唯一能够在基线上获得有意义改进的方法。 对于OSHOT和它的变体,单独的预处理(\gamma = 0)有助于获得更好的泛化能力,所有变体除了MetaOSHOT显示比基线更高的性能。 这种优势也可以从误差分析中看到,通过观察Miss类型,当从Baseline传递到OSHOT \gamma = 0时,Miss类型减少,当\gamma = 5时达到FULL-OSHOT的较低值。 在这个设置中,top mAP结果仍然是通过OSHOT \gamma = 5得到的,这表明无论是转换还是元学习策略都不能准备检测器到经验的域漂移。 

跨相机适配

在实际应用中,对于不同城市、不同相机采集的城市场景,火车测试数据集存在偏差是不可避免的。 我们测试了KITTI和城市景观在两个方向上的适应性,只考虑标签车作为标准做法。  

所得结果见表4。 考虑KITTI到Cityscapes的变化,我们也可以看到,在这种情况下,域适配检测器获得的结果低于跨基线。 事实上,数据转换似乎在提高泛化能力方面发挥了基本作用:OSHOT (γ = 0)的训练前策略比基线有改善,但Tran-OSHOT和FULL-OSHOT的效果最好。 下面的适应步骤(γ = 5)提供的改进可以忽略不计。 通过查看检测错误分析,我们可以看到Tran-OSHOT和FULL-OSHOT中实现的语义保留转换可以极大地减少Miss类型的错误(另见False Negatives)。  

相反的方向转移似乎没有那么严重,基线已经取得了良好的结果。 域自适应探测器遭受一个小的负转移,再次域增强转换允许trans - oshot和FULL-OSHOT获得最高的性能,没有发生γ = 5的适应改进。  

              Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection_第8张图片

             Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection_第9张图片

4.4 Comparison with One-Shot Style Transfer

虽然不是专门为跨域检测设计的,但原则上可以应用一次性风格转移方法作为我们设置的替代解决方案。 我们使用当前最先进的一次性迁移方法BiOST,在执行推断之前将目标样本的风格修改为源域的风格。 由于在每个测试sample1上执行BiOST需要大量的时间,我们在Social Bikes和我们命名为Clipart100的随机Clipart图像子集上测试它。 我们比较了我们的方法和BiOST在这两个目标上的性能和时间要求。 速度已计算在RTX2080Ti的全精度设置。 

表5为得到的mAP结果。 在Clipart100上,基线获取27.9 mAP。 我们可以从一个样本中看到BiOST是如何有效适应的,比基线增加了1.9点。 相反,在社交自行车上,BiOST发生了轻微的负转移,这表明它无法有效地修改我们收集的图片的来源风格。 在Clipart100上,OSHOT改善了基线,但其mAP仍然低于BiOST,而在更具挑战性的Social Bikes上,它优于基线和BiOST。 最后,FULL-OSHOT在这两个数据集上都显示出了最好的结果。 表的最后一行表示了所有考虑的方法的时间复杂度,这对于OSHOT和FULL-OSHOT是相同的,因为自适应迭代的次数是相同的。 相反,BiOST需要超过6个小时来修改单个源实例的样式。 此外,我们强调了BiOST是在一个严格的假设下工作的,即同时访问整个源训练集和目标样本。 针对这些缺点和所得结果,我们认为现有的一次性翻译方法不适用于一次性无监督跨域适配。  

                  Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection_第10张图片

4.5 Increasing the number of Adaptive Iterations

研究结果表明,在单样本场景下,OSHOT是如何改进现有的跨域检测方法的。 此外,与多任务版本的OSHOT相比,元学习预训练模型FULL-OSHOT提供了一致的优势。 尽管如此,元学习基础上的两层优化需要通过内部过程反向传播,这意味着处理高阶导数,以及相关的计算和内存负担。 在训练前和部署中保持相同的条件意味着限制FULL-OSHOT的适应步骤到γ = η = 5的集合。 从这个意义上说,基于多任务的OSHOT模型更适用于适应时间没有严格限制且可以达到γ > 5次迭代的情况。 我们在这个案例中研究了OSHOT的性能,并在图4的plot中收集了结果。 我们可以观察到,在最初的步骤中,微调迭代次数与模型的最终mAP之间存在正相关关系,而性能通常在大约30次迭代后达到一个平台:增加γ超过这个值不会显著影响最终结果。 在图中,我们用橙色星星表示FULL-OSHOT在0和5次自适应迭代时的性能。 我们可以看到,在6个案例中的5个FULL-OSHOT有相当好的性能w.r.t. OSHOT时,他们都测试了5个适应迭代。 更高数量的适应步骤通常允许OSHOT达到并优于FULLOSHOT,但代价是更长的学习周期。

4.6 Image vs Box rotation

正如在第3节中所解释的,无论是在训练前还是适配阶段,我们都可以选择在整个图像或目标边界框上应用旋转。 在上述所有实验中,我们主要关注第二种情况。 更准确地说,对于基于多任务的OSHOT,我们在训练前使用了ground truth bounding box,在适应阶段利用了pseudo- labelled box。 通过只在物体上解决辅助任务,我们限制了背景特征的使用,这可能会误导网络转向不基于相关语义信息的旋转任务的解决方案(例如:在图像中寻找固定的模式作为sky-always-on-top,或利用水印)。 为了验证我们的选择,我们设置了两个专门的实验。 

首先,我们关注于训练前阶段,使用Gr(image)或Gr(boxcrop)对学习对VOC的影响进行定性分析。 然后我们测试旋转分类器在整个图像从Clipart域。 在图5中,我们展示了用Grad-CAM对两种情况获得的结果,热图显示了负责识别正确方向的最相关区域。 Grad-CAM映射是指主干特征提取器的最后一个输出。 我们可以看到,当旋转分类器对整体图像进行训练时,它学会聚焦于背景(例如天空和地面)来解决任务。 相反,当执行box - crop操作来训练旋转分类器只对相关目标进行训练时,即使面对整个图像,它也会学习查看目标的特征。 

在第二个实验中,我们考虑了整个过程,并比较了我们的方法在预处理和适应中使用目标位置或整个图像时的最终性能。 表6显示了VOC到ADM和Cityscape到Foggy Cityscape的结果。使用OSHOT拍摄多雾的城市景观。我们观察到旋转区域的选择对算法的有效性至关重要:mAP的改进范围从0.3到3.9点,这表明Gr(boxcrop)允许学习更适合跨域主要检测任务的特征。  

                       Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection_第11张图片

4.7 Qualitative Results

图6显示了从我们工作中考虑的所有数据集中提取的图像上的一些检测示例。 我们将ground-truth边界框作为参考,不同的类别使用不同的颜色,以及DivMatch, SW和SWICR-CCR产生的预测。 所有这些结果都不如我们的方法精确。 具体来说,通过观察左边前三列的艺术图像,我们可以看到领域自适应检测器经常产生一些误报。 此外,它们还显示了第四至第七列数据集的检测失败。 也可以注意到更多的适应迭代允许OSHOT修正其错误(比较OSHOTγ= 5和γ= 30)通过检测目标之前错过了(见第一列),通过纠正一个错误的分类(见第二列的狗),或通过改善目标定位(见第五列)。 在许多情况下,FULL-OSHOT γ = 5的结果更类似于OSHOT γ = 30,而不是OSHOT γ = 5,证实了其更快的适应能力。 FULL-OSHOT也是唯一能够正确识别第三列T恤上的自行车的检测器。

             Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection_第12张图片Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection_第13张图片

5 EXTENSION TO OBJECT CLASSIFICATION

将自监督学习作为一种辅助目标来适应单一测试样本的想法可以很容易地推广到其他主要监督任务不同于检测的场景。 事实上,它的有效性最近已经在中被证明用于分类任务,但该工作中的实验分析只涉及由于合成数据损坏造成的分布转移。 在这里,我们继续关注因领域风格的重大变化而产生的变化,并分析我们的分类方法在照片、艺术画作、漫画和素描中的表现。 具体来说,我们依赖于恰好涵盖这4个领域和7个目标类别的PACS数据集。 我们采用多目标设置,每个域依次作为源,其余三个域作为目标。 我们重新设计了模型,通过在ImageNet上预先训练的ResNet-18架构上构建,并修改为包含用于检测的相同旋转分支。 这里由于源监控中缺少定位信息,放弃了交叉任务自我训练,对整个图像进行旋转任务。 OSHOT的前训练和参赛者的训练都进行了10k迭代,使用批次大小为32,学习速率为0001。 优化器为标准SGD,动量为0.9,重量衰减为5·10−5。 OSHOT旋转自我监督任务在训练前和适应阶段的权重均为λ = 0:1。 OSHOT变体(Tran、Meta和FULL OSHOT)在训练前阶段利用了额外的5k训练迭代,但是batch size减少到1,学习率减少了1=32。 OSHOT变体之间的差异是相同的检测案例。  

                   Self-Supervision & Meta-Learning for One-ShotUnsupervised Cross-Domain Detection_第14张图片

所得结果如表7所示,其中我们将我们方法的所有变体与非自适应ResNet-18基线和tranbaseline进行了比较。 此外,我们还参考了最小类别混淆(MCC,[59])方法,这是一种最先进的基于简单损失的多目标自适应方法,该方法在目标预测上评估类别相关性。 MCC工作在标准的无监督域适应设置中,因此在训练时需要一个来自目标域的无标记适应集。 因此,我们为它提供了整个目标训练分割或从两个不同实验中提取的10个样本,并对测试分割的性能进行了评价。 OSHOT优于考虑过的竞争者:包括自我监督的预训练(γ = 0)已经提供了比基线更好的结果,并且执行少量的自适应迭代进一步提高了最终的分类精度。 同样,FULL-OSHOT获得了最好的结果,其精度(57:3)高于MCC对整个目标(56:2)。 我们强调,在这种情况下,将数据转换作为元学习过程的一部分的定制使用起着重要的作用。 事实上,转换本身允许基线在平均精度上赚取不到一分,而他们在OSHOT内部的集成推动trans -OSHOT和FULL-OSHOT获得最佳性能。  

6、结论

本文主要研究的是一次性无监督跨域检测,该场景涉及的部署条件与训练时经历的显著不同,目标样本来自于多个预先不知道的视觉域,且在源训练时不可访问。 这些条件模拟了监控社交媒体上的图像源时遇到的情况,在社交媒体上,算法被调用来适应新的视觉领域,在推理时只能依赖于单一图像。 我们展示了现有的跨域检测方法在这种情况下挣扎,因为它们都明确地设计用于适应大量的目标数据。 我们提出了OSHOT,这是第一个能够通过利用一个目标图像来减少源和目标分布之间的域差距的深度架构。 我们的方法是基于利用自我监督和跨任务无私的多任务结构。 此外,我们还引入了一个元学习公式来模拟单样本跨域学习片段,进一步提高了检测器的泛化能力。 大量的定量实验和定性分析证明了所提出的自适应检测方法的有效性,并表明同样的策略可以很容易地用于跨域目标分类。 

你可能感兴趣的:(计算机视觉,深度学习,机器学习,神经网络)