Single-Domain Generalized Object Detection in Urban Scene(CVPR 22) 论文笔记

       本文主要研究如何提高目标检测器的泛化能力。作者考虑一个现实的但具有挑战性的场景,即单域广义目标检测(Single-DGOD),其目的是学习一个目标检测器,在许多看不见的目标域上表现良好,只有一个源域进行训练。对于Single-DGOD,提取包含对象本质特征的域不变表示(DIR)非常重要,这有利于提高对不可见域的鲁棒性。因此,我们提出了一种方法,即循环分离自我蒸馏,在没有领域相关注释(例如,领域标签)监督的情况下,将DIR从领域特定的表示中分离出来。具体地说,首先提出了一个循环解缠模块,从输入的视觉特征中循环提取DIR。通过循环操作,可以在不依赖域相关标注的情况下提高解缠能力。

Introduction

Single-Domain Generalized Object Detection in Urban Scene(CVPR 22) 论文笔记_第1张图片

该数据集包含5个具有不同天气条件的域:白天晴天、晚上晴天、黄昏雨天、晚上雨天和白天雾天。Single-DGOD的目标是在一个源域数据集(例如,白天有阳光的场景)上训练检测器,并很好地推广到多个目标域。提取域不变表示有利于将检测器推广到不可见的域

Single-Domain Generalized Object Detection in Urban Scene(CVPR 22) 论文笔记_第2张图片

       对于Single-DGOD,为了在不使用域相关注释的情况下提高解缠能力,作者提出了一个循环解缠模块。向前方向,给定特征图Fb,设计两个提取器EDIR和EDSR提取Fdi和Fds。对于反向,我们分别以Fdi和Fds作为模块的输入,进行重新解缠。值得注意的是,在前进和后退方向中,EDIR和EDSR中的参数是共享的。假设当DIR提取器和DSR提取器具有较好的解缠能力时,向DIR提取器输入Fdi (DIR)应该输出更多的域不变信息。

       我们探索使用自蒸馏[21,50]来提取当前检测器的知识。具体而言,将解纠缠的DIR作为教师表示。通过缩小DIR与骨干网中间层生成的特征映射之间的距离,使特征映射包含更多的域不变信息,有利于提高泛化能力和检测性能。

Cyclic-Disentangled Self-Distillation

Cyclic Disentanglement

最近,许多方法[31,42,44]尝试使用与域相关的注释,如域标签,来解纠缠DIR,这不能用于Single-DGOD,因为只有一个源域用于培训。为了在不依赖域相关注解的情况下解缠DIR,我们提出了一个循环解缠模块。

Single-Domain Generalized Object Detection in Urban Scene(CVPR 22) 论文笔记_第3张图片

 循环解缠自我蒸馏图解。RPN和FC分别表示区域提议网络和全连接层。L2是L2范数运算。该方法主要由循环解缠和自蒸馏两部分组成。通过对比损失,循环解纠缠的目的是在不使用领域相关注释的情况下将DIR (Fdi)从DSR (Fds)中解纠缠。接下来,以Fdi为老师,利用自蒸馏的方法,使生成的表示(F1, F2, F3)包含较多的域不变信息,有利于进一步提高泛化能力。

具体来说,作者采用了广泛使用的Faster R-CNN作为基检测模型。首先,以ResNet101为例的骨干网,根据骨干网的深度和原有结构,分为E1、E2、E3三个部分,其目的是进行自我蒸馏。给定一幅输入图像,我们使用E1、E2和E3得到特征图Fb R wh c,其中w、h和c分别表示宽度、高度和通道数。然后设计两个提取器EDIR和EDSR,分别提取领域不变特征Fdi R w h c和领域特有特征Fds R w h c。流程如下所示。

                                              

其中EDIR和EDSR由多个卷积层组成。在Fdi上执行RPN模块,提取一组对象建议o。经过Roi-Alignment操作后,输出P∈R n×s×s×c,其中n、s分别表示提案数量和提案大小。接下来如图2右图所示,在反方向上,EDIR和EDSR分别以Fdi和Fds作为输入进行重新解缠。

Single-Domain Generalized Object Detection in Urban Scene(CVPR 22) 论文笔记_第4张图片

 同时,当Fds包含足够的特定域信息时,与输出Fs2i相比,fs2应该包含更多与Fds相关的特定域信息。作者定义了全局级和实例级的对比损失[5,15]来获得这个假设。其中,令sim(a, b)表示特征图a和b中所有对应元素的余弦相似度的平均值。

全局水平的对比损失计算如下:

Single-Domain Generalized Object Detection in Urban Scene(CVPR 22) 论文笔记_第5张图片

实例级对比损失计算如下: 

Single-Domain Generalized Object Detection in Urban Scene(CVPR 22) 论文笔记_第6张图片

DIR-based Self-Distillation

通过循环解缠模块,可以使解缠的Fdi包含更多的领域不变信息。接下来,作者以Fdi为教师表示,探索利用自蒸馏机制,使骨干网提取的特征映射具有丰富的域不变信息,进一步提高目标检测器的泛化能力。给定一幅输入图像,分别从E1中提取Fe1,从E2中提取Fe2,从E3中提取Fe3的特征图,其中Fe1和Fe2的大小和通道数与Fdi不同。相反,Fe3的尺寸和通道数为与Fdi一样。然后,我们定义了三个由多个卷积层组成的网络,分别为T1、T2和T3,对Fe1、Fe2和Fe3进行变换。输出为:

最后把通道统一

 

Single-Domain Generalized Object Detection in Urban Scene(CVPR 22) 论文笔记_第7张图片

 dist表示L2 norm。教师表示法Fdi通过拉近距离,引导骨干网络提取的表示法学习域不变信息,增强了目标检测器的泛化能力。

 对于分类级约束,如图3所示,在建议O的基础上,分别对F1、F2和F3进行roi align,得到输出P1、P2和P3。然后,我们定义三个分类器,分别以P1、P2、P3作为输入并输出预测概率y1、y2、y3。接下来,利用Kullback-Leibler (KL)散度使预测概率近似于Fdi中基于P计算的分类概率y。

最小化Lcc的损失可以进一步促进F1、F2和F3从Fdi中提取类别相关知识,有助于提高检测精度。最后,取特征层约束和分类层约束之和作为自精化模块的训练损失,即Lsd = Lf c + Lcc。

最后的总loss为: 

总结一下:提出了一个循环解缠模块来提取DIR。通过循环操作,可以扩大域不变特征(Fi2i和Fs2i)和域特定特征(Fi2s和fs2)之间的差距,从而促进EDIR和EDSR具有解缠能力。同时,在循环过程中,由于EDIR和EDSR的参数是共享的,两个提取器可以使被分离的Fdi和Fds保持可分离状态。接下来,通过最小化两个对比损失(Eq.(3)和(4)),可以加强Fdi与Fi2i、Fds与fs2的相关性,这有助于引导Fdi和Fds分别涉及领域不变信息和领域特定信息。最后,以Fdi为教师表征,采用自我蒸馏进一步提高了泛化能力

Experiments

数据集:BDD100K 作者自己筛选了不同光照,天气的图像

在白天晴天数据集(同域)上和现有方法的对比结果Single-Domain Generalized Object Detection in Urban Scene(CVPR 22) 论文笔记_第8张图片

 在晚上晴天数据集(不同域)上和现有方法的对比结果

Single-Domain Generalized Object Detection in Urban Scene(CVPR 22) 论文笔记_第9张图片

 可视化结果

Single-Domain Generalized Object Detection in Urban Scene(CVPR 22) 论文笔记_第10张图片

                原图                                   Fb                               Fdi                                 Fi2i

 

你可能感兴趣的:(计算机视觉,目标检测,计算机视觉,深度学习)