论文笔记:Domain Adaptive Faster R-CNN for Object Detection in the Wild

论文:Domain Adaptive Faster R-CNN for Object Detection in the Wild

地址:http://openaccess.thecvf.com/content_cvpr_2018/papers/Chen_Domain_Adaptive_Faster_CVPR_2018_paper.pdf

一、简介

这篇论文发表在CVPR2018,几乎是第一篇讲无监督域适应方法应用在目标检测领域的研究,作者主要解决两个问题:

  • image-level shift:如光照、图片风格等
  • instance-level shift :如物体外貌、大小等

通过对齐image-level 和 instance-level 特征的方式来实现无监督域适应,基于Faster RCNN实现一个end-to-end 系统。

二、方法

作者使用三个组件来解决这个问题,分别是:Instance-level domain classifier、Image-level domain classifier and consistency regularization。

Image-level Adaption

联合概率分布 P ( C , B , I ) P(C, B, I) P(C,B,I) 可以分解为:

P ( C , B , I ) = P ( C , B ∣ I ) ∗ P ( I ) P(C, B, I) = P(C, B \vert I) * P(I) P(C,B,I)=P(C,BI)P(I)

这里 I 代表RCNN学习到的feature map,B,C分别表示一个物体对应的bounding boxes 和 类别。

根据 Covariate Shift Assumption,条件概率 P ( C , B ∣ I ) P(C, B \vert I) P(C,BI) 在目标域和源域应该是一样的,所以只需要对齐 P(I) 。

Instance-level Adaption

联合概率分布 P ( C , B , I ) P(C, B, I) P(C,B,I) 可以分解为:

P ( C , B , I ) = P ( C , ∣ B , I ) ∗ P ( B , I ) P(C, B, I) = P(C, \vert B, I) * P(B, I) P(C,B,I)=P(C,B,I)P(B,I)

同样根据 Covariate Shift Assumption,条件概率 P ( C , ∣ B , I ) P(C, \vert B, I) P(C,B,I) 在目标域和源域应该是一样的,所以只需要对齐 P(B, I)。又因为 P ( B , I ) = P ( B ∣ I ) ∗ P ( I ) P(B, I) = P(B \vert I) * P(I) P(B,I)=P(BI)P(I),假设 P(I) 不变,则只需要对齐 P ( B ∣ I ) P(B \vert I) P(BI), 其实它对应的就是bounding boxes预测器,即 Faster RCNN中的RPN(region proposal network)。

Joint Adaption (consistency regularization)

由于以下两个方面:

  1. 边缘分布 P(I) 很难完全对齐,这意味着 P ( B ∣ I ) P(B \vert I) P(BI)的估计会有一些偏差。
  2. bounding boxes 只有在源域有,所以使用源域数据学习出来的 P ( B ∣ I ) P(B \vert I) P(BI)会偏向于源域。

所以条件概率 P ( B ∣ I ) P(B \vert I) P(BI)很难完美估计。

想要对齐两个数据域,需要训练一个域分类器h(x), x 可以是image-level的表示 I 或者 instance-level级别的(B, I)。h(x) 就代表一个样本x属于目标域的概率。用 D 来代表域标签,则Image-level分类器可以表示为 P ( D ∣ I ) P(D \vert I) P(DI),Instance-level 可以表示为 P ( D ∣ B , I ) P(D \vert B, I) P(DB,I), 使用贝叶斯定理可以得到:

P ( D ∣ B , I ) P ( B ∣ I ) = P ( B ∣ D , I ) P ( D ∣ I ) P ( D \vert B , I ) P ( B \vert I ) = P ( B \vert D , I ) P ( D \vert I ) P(DB,I)P(BI)=P(BD,I)P(DI)

通过使得两个域分类器一致,即:

P ( D ∣ B , I ) = P ( D ∣ I ) P ( D \vert B , I ) = P ( D \vert I ) P(DB,I)=P(DI)

可以使得 P ( B ∣ D , I ) P(B \vert D, I) P(BD,I) 接近 P ( B ∣ I ) P(B \vert I) P(BI)

Loss function

L = L d e t + λ ( L i m g + L i n s + L c s t ) L = L _ { d e t } + \lambda \left( L _ { i m g } + L _ { i n s } + L _ { c s t } \right) L=Ldet+λ(Limg+Lins+Lcst)

其中:

L d e t = L r p n + L r o i L _ { d e t } = L _ { r p n } + L _ { r o i } Ldet=Lrpn+Lroi

代表Faster RCNN的loss function,分别由RPN部分和ROI pooling部分构成。值得注意的是,这两个部分都包含了两个loss项,一个是分类的预测概率,一个是bounding boxes的回归loss。更多细节可阅读 Faster RCNN

对应 Image-level Adaption 的loss为:

L i m g = − ∑ i , u , v [ D i log ⁡ p i ( u , v ) + ( 1 − D i ) log ⁡ ( 1 − p i ( u , v ) ) ] \mathcal { L } _ { i m g } = - \sum _ { i , u , v } \left[ D _ { i } \log p _ { i } ^ { ( u , v ) } + \left( 1 - D _ { i } \right) \log \left( 1 - p _ { i } ^ { ( u , v ) } \right) \right] Limg=i,u,v[Dilogpi(u,v)+(1Di)log(1pi(u,v))]
其中 p i ( u , v ) p _ { i } ^ { ( u , v )} pi(u,v) 代表第 i 张图片在位置(u, v) 的预测结果,D代表域标签,为0表示源域,为1表示目标域。

对应 Instance-level Adaption 的loss为:

L i n s = − ∑ i , j [ D i log ⁡ p i , j + ( 1 − D i ) log ⁡ ( 1 − p i , j ) ] \mathcal { L } _ { i n s } = - \sum _ { i , j } \left[ D _ { i } \log p _ { i , j } + \left( 1 - D _ { i } \right) \log \left( 1 - p _ { i , j } \right) \right] Lins=i,j[Dilogpi,j+(1Di)log(1pi,j)]

其中 p i , j p _ { i ,j} pi,j 代表第 i 张图片的第j个instance 的预测结果。

对应 consistency regularization 的loss为:

L c s t = ∑ i , j ∥ 1 ∣ I ∣ ∑ u , v p i ( u , v ) − p i , j ∥ 2 L _ { c s t } = \sum _ { i , j } \left\| \frac { 1 } { \vert { I} \vert } \sum _ { u , v } p _ { i } ^ { ( u , v ) } - p _ { i , j } \right \| _ { 2 } Lcst=i,jI1u,vpi(u,v)pi,j2

整个方法的架构图如下图所示:
论文笔记:Domain Adaptive Faster R-CNN for Object Detection in the Wild_第1张图片

注意到在Instance/Image-level domain classifier器与Instance/Image-level representation 之间多了一个梯度反向层(GRL, gradient revere layer), 其目的是在最小化Instance/Image-level domain classifier loss的同时,优化基础网络,即分类器要尽力的分类出特征属于哪一个域,特征抽取的基础网络需要混淆两个域的特征。

三、实验

作者把数据集SIM 10K(10k images from GTAV) 作为源域,Cityscapes(城市场景的数据集)作为目标域,得到如下结果:
论文笔记:Domain Adaptive Faster R-CNN for Object Detection in the Wild_第2张图片

可以看出此方法对对象检测的无监督域适应有显著的提高,作者提出的三个组件Instance-level domain classifier、Image-level domain classifier and consistency regularization 对提高模型性能都有作用。

你可能感兴趣的:(Domain,Adaption,for,Object,Detectio)