SimROD简述

引言

  当训练的图像与测试集具有相同的分布时,SOTA的目标检测模型已被证明是高度准确的。然而,当部署到新的环境时,它们可能会失败,因为域的变化,如天气变化(如雨或雾),光线条件的变化,或运动模糊,在目标检测中,已经提出了许多克服域偏移的方法,可分为数据增强(《Benchmarking robustness in object detection: Autonomous driving when winter is coming,2019》、《Augmix: A simple data processing method to improve robustness and uncertainty,2019》、《The many faces of robust-ness: A critical analysis of out-of-distribution generalization》,2020)、域对齐(《Domain adaptive faster r-cnn for object detection in the wild,2018》、《Multi-adversarial faster-rcnn for unrestricted object detection,2019》、《Adapting object detectors via selective cross-domain alignment,2019》)、域映射(《Unsupervised pixel-level domain adaptation with generative adversarial networks,2017》、《Cross-domain weakly-supervised object detection through progressive domain adaptation,2018》)和自标记技术(《Self-labeled techniques for semi-supervised learning: Taxonomy, software and empirical study,2015》)。数据增强可以提高某些固定的域偏移的数据集效果,但不能作用于与数据增强样本不相似的数据集,域对齐和域映射与增强方法类似,但它们都是次优的,因为生成的图像不一定与真实目标域图像有很高的感知相似性,自标记是一种很有前途的方法,因为利用了来自目标域的未标记训练样本,然而当伪标签有噪声时,利用目标域样本做自适应是无效的。
  在本文中,提出了一种简单的鲁棒目标检测自适应方法(SiamROD),通过混合数据增强和教师引导的逐步自适应来缓解域偏移,该方法有三个设计优点,首先,它不需要目标域数据的实际标签,并利用未标记的样本,其次,不需要复杂的架构更改,也不需要生成模型来创建合成数据,第三,这个方法与体系结构无关,并且不局限于region-based的检测器。

相关工作

  Data augmentations for robustness to image corruption:针对图像分类(《Benchmarking neural network robustness to common corruptions and perturbations,2019》、《Augmix: A simple data processing method to improve robustness and uncertainty,2019》、《The many faces of robustness: A critical analysis of out-of-distribution generalization,2020》)和目标检测(《Benchmarking robustness in object detection: Autonomous driving when winter is coming,2019》、《Toward robust pedestrian detection with data augmentation,2020》),已经提出了专门的增强方法来对抗图像损坏的影响。虽然这些增强方法提供了对原基线模型的一些改进,但它们可能过于适合少数类型,而不能推广到其他类型。
  Unsupervised domain adaptation for object detection:无监督域自适应(UDA)方法利用来自目标域的未标记图像,明显地减轻域偏移,与增强后得到的图像相比,这些未标记的样本与测试样本更接近,因为它们来自同一个域。利用未标记的样本是实用的,因为它们的收集成本很低,而且不需要费力的注释。《Center-aware featurealignment for domain adaptive object detector,2020》提出了一种无锚FCOS模型的中心感知对准方法。虽然对齐方法有助于减少域偏移,但它们需要架构更改,因为必须在网络中添加额外的模块,如梯度反转层和域分类器。
另外,域映射方法通过首先使用生成对抗网络(GAN)将源图像转换为与目标域样本相似的图像来处理UDA(《Unsupervised pixel-level domain adaptation with generative adversarial networks》,2017)。然后使用域映射图像和已知源标签对模型进行微调。对于目标检测,《Diversify and match: A domain adaptive representation learning paradigm for object detection》将域偏移与对抗训练相结合,在源和目标之间生成一组不同的中间域,以区分和学习域不变特征
  Self-training for object detection adaptation:自训练使模型能够在未标记的目标样本上产生自己的伪标签。最近,《A simple semi-supervised learning framework for object detection》提出了用伪标签进行半监督目标检测的STAC框架。然而,在存在域偏移的情况下,伪标记会导致性能下降,因为目标样本上的伪标记可能会变得不正确,导致监督效果差。

方法

问题描述
SimROD简述_第1张图片
解决方案
  本文提出了一种简单的自适应方法SimROD来实现鲁棒目标检测模型。SimROD集成了教师指导的微调,新的DomainMix增强方法和逐步适应技术。
  标签噪音会因域偏移而加剧,因此本文方法旨在在目标域图像上生成准确的伪标签,并将其与源和目标域的混合图像结合使用,为模型的自适应提供强有力的监督,而由于学生目标模型可能不具备生成准确伪标签的能力和自适应能力,因此提出首先对辅助教师模型进行自适应,图一介绍了SiamROD的流程图:
SimROD简述_第2张图片
SimROD简述_第3张图片
SimROD简述_第4张图片
  DomainMix使用了许多简单的想法来减轻域偏移和标签噪声
  (1)它通过从源数据集和目标集中随机采样并混合图片,产生不同的图像,因此它在每个epoch都使用了不同的图像样本,从而增加了训练样本的有效数量,防止了过拟合;
  (2)它的数据处理效率比较高,因为它使用了来自这两个域的加权平衡采样,这有助于即使目标数据集样本有限或源数据集和目标数据集高度不平衡,也能健壮地应对数据转移的表示;
  (3)它在同一个图像中混合了GT标签和伪标签,这减轻了自适应过程中错误标签的影响,因为图像总是包含来自源域的准确标签。
  具体算法如下:
SimROD简述_第5张图片
  对batch中的每一张图像, 从源数据集以及目标数据集中抽取另外三张图像并混合,以2*2来拼接,并将伪标签与GT标签比较,根据新混合图像每个物体的相对位置计算对象坐标,采用一个加权平衡采样器从两个区域均匀采样。
  提出了一个渐进的自适应算法来优化检测模型的参数,该算法减轻了因域偏移而加重的标签噪声的影响,事实上,源模型生成的伪标签在目标域图像上可能是有噪声的,比如无法检测到目标或者不准确。
  首先,冻结所有的卷积层,在前w个epoch只适应BN层,在第一阶段之后,BN层的可训练参数就被更新了,使用部分调整的模型生成更精确的伪标签,在第二阶段,所有层都被解冻,然后使用精炼的伪标签进行微调,相比于之前的研究,本文将BN自适应整合到一个自训练框架中,有效地克服了域偏移所带来的不可避免的标签噪声,当与DomainMix增强一起使用时,所得到的方法可以有效地使目标检测模型适应不同类型的域偏移。
  具体算法如下:
SimROD简述_第6张图片

实验

合成到真实以及跨摄像机转换的实验
SimROD简述_第7张图片
SimROD简述_第8张图片
SimROD简述_第9张图片
  表1展示了Sim10K到Cityscapes上,本文方法取得了SOTA的结果,图3展示了SimROD将模型从Sim10K调整到Cityscapes的有效性。
SimROD简述_第10张图片
  表2展示了KITTI到Cityscapes上,本文方法优于基线方法。
跨域实验
  数据集:源数据是VOC2007的trainval数据集,目标域数据集是Clipart1k,Watercolor2k 和Comic2k datasets(《Cross-domain weakly-supervised object detection through progressive domain adaptation》,2018),指标依旧用的上一节的。
SimROD简述_第11张图片
  表3展示了从VOC到Watercolor数据集的结果。
图像损坏实验
SimROD简述_第12张图片
SimROD简述_第13张图片
SimROD简述_第14张图片
  表4到表6展示了Pascal-C、COCO-C和Cityscapes-C数据集上的Yolov5m模型的实验结果。
SimROD简述_第15张图片
  表7展示了YOLO5m在Pascal-C、COCO-C和Cityscapes-C上的消融实验结果

总结

  这篇论文的动机确实打动了我,在一个数据集上训练出来的模型可能对原来的数据集效果非常好,但是在一个新数据集上会出现一些问题,本文提出的方法主要是利用无监督的思想,对目标数据集生成一些伪标签并且优化他们,然后再结合伪标签训练,使得训练的模型可以在新数据集上表现依旧良好,说的是很有道理,不过具体实现我还没看明白是怎么生成的伪标签,并且保证生成的伪标签合理,可以贴近GT标签,并且不影响训练,感觉这种技术发展起来,对于自动标注也是贡献,不过后面文章提出的DomainMix方法,里面一张图片加上三张随机裁剪的图片一起训练,我就想到了YOLOv4里cutMix以及马赛克增强,也是YOLOv4的主要涨点部分,然后对于教师网络以及学生网络,之前在知识蒸馏的一些文章看到过,但没有深究,这篇文章后,如果有空余时间是可以打算将这部分知识涉猎一些,并且从本文的实验来看,应该是有一个实际领域解决本文动机问题的,存在一些与本文方法类似的方法,后面可能也会涉及,实验做了很多方面,数据集和指标也描述清楚,但是实验的epoch等参数并未提及。
  总的来说,这篇论文有一定的术语在阅读方面存在理解困难,不过大概的解决思路就是怎么在新数据集中生成更好的伪标签,参与训练,使得模型变得更加适合于新数据集,但是对于代码上的实际解决过程还需要很多时间成本研究。

你可能感兴趣的:(目标检测,人工智能,计算机视觉)