UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

目录

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

论文简介

论文主要贡献:

实现方法:

Single-Query Patch

Multi-Query Patches

实验结果:

目标检测

Panoptic Segmentation(全景分割任务)

消融实验

​编辑


UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

论文简介

       近年来,通过良好设计的pretext tasks,无监督预训练的方法在NLP(BERT,GPT)和CV(MoCo,SimCLR,SwAV)中都取得了巨大的成功。而对于DETR中的模块而言,backbone已经是预训练的,而作为检测器的transformer模块却还没有经过预训练。更重要的是,在DETR中的transformer是一个充当检测器的模块,它主要关注的是空间位置的定位和输出框之间的抑制,所以现有的对比学习的无监督预训练方法不太适用于DETR中transformer的预训练。

       本文提出了一个新的pretext task:随机的从原图中裁下一个补丁,得到该补丁对应框的坐标,长宽,再将这个补丁作为query,进行一些简单的数据增强变换,输入到 DETR的decoder中,而模型的目标是在原图中找到这个框的位置。通过这种方式,它构成一个无监督预训练的形式,并且,在UP-DETR框架下,可以将各种与检测相关的任务都统一到一个框架中去。

论文主要贡献:

1.提出了一个random query patch detection的pretext task

2.提出了一个与patch检测联合优化的patch特征重建分支,权衡分类和定位偏好

3. 引入了单查询patch的UP-DETR,并将其扩展到具有对象查询洗牌和注意掩码的多查询patch

4. UP-DETR对下游的object detection、one-shot detection、 panoptic segmen-tation都有一定的性能提升。

实现方法:

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers_第1张图片

Single-Query Patch

目标检测是一个目标分类和定位的耦合,这两个任务总是具有不同的特征偏好,为了解决这一个问题,作者提出一个feature reconstruction的方法,目的是保留CNN提取的特征。和将其传递给transform后的特征进行损失计算,希望其能保持良好的一致性。但实际上,对于下游目标检测任务,起决定性作用的还是固定预训练的CNN权重。

同时对于裁剪下来的补丁,作者使用CNN(参数与encoder中的参数一致)进行特征提取,做一个global average pooling和fc降维,使得它和object queries的embedding维度一致,直接将图片特征加到全部的object queries上。

Multi-Query Patches

对于测试的对象而言,每个对象有多个实例,需要对查询patch和对象查询之间进行分配,来支持多框的同时检测。作者显式的将object queries进行分组,如这里有N个object queries,我们将它们均匀的分成M组,使得UP-DETR可以支持同时M个补丁的定位。对于每个裁剪下来的补丁,都输入到N/M个object queries上,然后decoder会输出N/M个位置结果,最终会选择其中一个作为最终结果。

不同的patch是独立的,它们之间应该是不可见。作者显式的构造了一个attention mask,使得不同的框之间彼此不可见。同时下游任务object queries之间并没有显式的分组,为了避免预训练中显式的分组对下游任务带来负面的影响,作者对object queries进行随机的shuffle。

实验结果:

       在UP-DETR在ImageNet的图片上进行无监督的预训练。在下游的COCO、VOC object detection、one-shot detection和全景分割中都进行了实验。

目标检测

PASCAL VOC Object Detection

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers_第2张图片

DETR在PASCAL VOC中表现很差,比更快的R-CNN差得多,UP-DETR显著提高了DETR的性能:分别为150(300)轮迭代的AP:+6.2(+3.1);AP50:+5.2(+2.1)和AP75:+7.5(+3.7)

COCO Object Detection

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers_第3张图片

UP-DETR在小、中、大物体的检测方面全面优于DETR。但仍然略落后于R-CNN。

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers_第4张图片

One-Shot Detection

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers_第5张图片

在VOC上的一次性检测的结果

Panoptic Segmentation(全景分割任务)

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers_第6张图片

可以看到UP-DETR可以在things上提高+0.4 PQ(全景分割质量),在分割上,带来+1.1AP的提升

全景分割=语义分割(图像中的每个像素点都赋予一个类别标签)+实例分割(将图像中的每个目标检测并且分割出来)

消融实验

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers_第7张图片

你可能感兴趣的:(目标检测前沿论文,深度学习,计算机视觉,目标检测)