论文笔记:iFAN: Image-Instance Full Alignment Networks for Adaptive Object Detection

 

论文笔记:iFAN: Image-Instance Full Alignment Networks for Adaptive Object Detection_第1张图片

论文地址:https://arxiv.org/abs/2003.04132

源码地址:尚未开源


1 Main Idea

半监督DA的关键点是when、where、how使用对抗学习法,作者提出iFAN通过准确对齐图像级和实例级特征分布:1)image-level:multi-scale feat通过训练对抗的域分类器粗糙地对齐in a hierarchically-nested fashion;2)完整的instance-level对齐:用深度语义信息+elaborate的实例表征建立categories和domains之间的关系。作者设计一个分层的域分类器,同时对齐instance-level feats,用到ROI-level的representation。《Domain adaptive faster r-cnn for object detection in the wild》尝试学习域不变性,而没有完全地探索语义category-level信息,这会导致检测结果的降低,因为同类别的目标没有对齐到。为了解决这个问题,作者提出一个category-aware instance-level adaptation,使用目标分类结果。最后,作者提出一个category-correlation instance alignment:用到预测的bbox来得到精细化后的实例表征,然后准确地用深度度量学习的方法对其它们,建立不同域和不同类别的关联。

2 Image-Instance Full Alignment Networks

论文笔记:iFAN: Image-Instance Full Alignment Networks for Adaptive Object Detection_第2张图片

2.1 Deep Image-Level Alignment

过往的方法:《Domain adaptive faster r-cnn for object detection in the wild》《Pixel and feature level based domain adaption for object detection in autonomous driving》《Multi-similarity loss with general pair weighting for deep metric learning》用到中间层的特征来输入到patch-based的域分类器,因为每个激活值的感受野对应着一张图像的一个patch,所以可以训练一个域分类器来引导网络学习这个patch中具有域不变性的表征,由此降低全局图像的域漂移。这些方法只关注到从一个确定的层中提取到的特征。还有一些paper探索了潜在的多尺度卷积神经网络的金字塔分层结构,这也激发了作者的一些想法。

对于第l层的特征图谱,有一个域分类器D_l以全卷积的方式构建(3个1×1的卷积核)来辨别样本属于源域(域标签=1)/目标域(域标签=0),通过最小化均方差损失函数来优化参数:

论文笔记:iFAN: Image-Instance Full Alignment Networks for Adaptive Object Detection_第3张图片

本文中,作者用了VGG-16的pool2、pool3、pool4、relu5_3或者ResNet50的res2c_relu、res3d_relu、 res4f_relu、res5c_relu作为中间层。且作者提出的分层监督学习要从浅到深,保证对齐过程的平缓,可以解决训练过程不稳定的问题

2.2 Full Instance-Level Alignment

2.2.1 Category-Agnostic Instance Alignment

为ROI-Align的输出,则是图像x_i中第j个region proposals的实例特征,因此naive instance alignment的损失函数时:

论文笔记:iFAN: Image-Instance Full Alignment Networks for Adaptive Object Detection_第4张图片

但是,作者观察到上述方法从一开始就用起来的效果不是太好,因为监督学习一开始的训练结果不很理想,所以作者提出在训练代数的三分之一之后才开始应用Instance-Level Alignment,把这种方法称之为“late lunch”。

2.2.2 Category-Aware Instance Alignment

论文笔记:iFAN: Image-Instance Full Alignment Networks for Adaptive Object Detection_第5张图片

修改为单通道输出,即每个类都有一个域分类器,所以的第c维代表一个类别为c的实例的域标签(=0即源域;=1即目标域)。但是由于目标域是没有类别标签的,所以采用伪标签的方法,直接用检测器的分类输出作为目标域实例的soft pseudo-labels。分类器的输出代表一个有多么属于类C的实例的概率分布。因此Category-Aware Instance Alignment的损失函数为:

论文笔记:iFAN: Image-Instance Full Alignment Networks for Adaptive Object Detection_第6张图片

每个域分类器的损失都用预测出来的类别概率进行加权。要注意到,对于源域实例来说,作者也使用了预测的标签,因为作者发现这种soft assignment的策略比用gt boxes的效果要好。

2.2.3 Category-Correlation Instance Alignment

论文笔记:iFAN: Image-Instance Full Alignment Networks for Adaptive Object Detection_第7张图片

将预测出来的bbox结果送回到主干网络的feat map中去,然后将选择后的特征剪出来用做之后的对齐。的第l层表示法,跟随image-level对齐的原则,将(l=1,2,3,4)分别送到1×1的卷积中,生成256个通道的特征,然后用element-wise的相加,获得精细化后的,这比单独使用一个的效果要好0.5%+的mAP,然后通通过一个全连接层保护起来,对于一堆的实例,有四种情况:

  1. 相同域,相同类别S_sdsc;
  2. 相同域,不同类别S_sddc;
  3. 不同域,相同类别S_ddsc;
  4. 不同域,不同类别S_dddc;

作者发现最小化S_sdsc和最大化S_dddc是两个很简单的任务,所以只关注S_sddc和S_ddsc用度量学习的方法来优化域和类之间的关联。

论文笔记:iFAN: Image-Instance Full Alignment Networks for Adaptive Object Detection_第8张图片

其中是欧拉距离,的作用是拉近S_sddc的实例的距离,拉远S_ddsc的实例的距离,而FasterRCNN的作用与此相反。由于目标域实例没有类别标签,所以会再次使用实例的预测标签来构建pairs,同时也将会用到late lunch。

你可能感兴趣的:(Domain,Adaptation,计算机视觉)