Deformable DETR学习笔记

Deformable DETR学习笔记

1.DETR的缺点

在这里插入图片描述
(1)训练时间极长:相比于已有的检测器,DETR需要更久的训练才能达到收敛(500 epochs),比Faster R-CNN慢了10-20倍。
(2)DETR在小物体检测上性能较差,现存的检测器通常带有多尺度的特征,小物体目标通常在高分辨率特征图上检测,而DETR没有采用多尺度特征来检测,主要是高分辨率的特征图会对DETR增加不可接受的计算复杂度。
为了解决这两个问题,所以提出了Deformable DETR。

2.TransformerCV的缺陷

(1)Transformer在初始化时,分配给所有特征像素的注意力权重几乎是均等的,这就造成了模型需要长时间去学习关注真正有意义的位置,这些位置应该是稀疏的;
(2)Transformer在计算注意力权重时,伴随着高计算量与空间复杂度。特别是在编码器部分,与特征像素点的数量成平方级关系,因此难以处理高分辨率的特征(DETR检测小目标效果差的原因)

3.论文方法概述

(1)提出了Deformable DETR,它可以缓解DETR收敛速度慢和复杂度高的问题。它融合了可变形卷积良好的稀疏空间采样能力和transformer的强大关系建模能力;
(2)提出了可变形注意模块,它考虑到一个小的采样位置集合作为一个预先过滤器突出关键元素的所有特征图像素。该模块可以自然地扩展到聚合多尺度特征,而无需FPN的帮助;
(3)探索了一种简单有效的迭代边界框细化机制来提高检测性能;
(4)尝试了two-stage的Deformable DETR;
(5)在COCO数据集上的广泛实验证明了方法的有效性;

4.Deformable Attention

4.1 Deformable Attention Module

将Transformer注意力应用到图像特征图上的核心问题是,它将查看所有可能的空间位置。为了解决这个问题,我们提出一个可形变注意力模块。受可形变卷记得启发,可变形注意模块只关心参考点周围的一小组关键采样点,而不考虑特征图的空间大小。通过为每个查询分配少量固定数量的键,可以缓解收敛性和特征空间分辨率问题。
给定一个输入特征图 x ∈ R C × H × W x\in R^{C×H×W} xRC×H×W,使q为上下文特征 Z q Z_q Zq的查询元素, P q P_q Pq为一个二维参考点,可变形注意力特征可以通过以下方式计算:
Deformable DETR学习笔记_第1张图片
Deformable DETR学习笔记_第2张图片
a.其中位置偏移delta_pmqk是可学习的,由query经过全连接层得到。
b.注意力权重直接由query经过全连接层得到。
c.每个query在每个头部中采样K个位置,只需和这些位置的特征交互(x(pq+delta_pmqk)代表基于采样点位置插值出来的value)

deformAttn和self-attention的不同点:
a.self-attention是全局特征作为key值,deformAttn是在每个query附近自主学习K个key值。
b.self-attention中的权重是key和queries对的关系刻画,比如内积等,deformAttn则是直接由线性层获得。

deformAttn位置选择和deformable cnn的不同点:
deformable cnn是在正常的cnn kernel点上分别预测偏移量,deformAttn则是在当前一个点上直接预测多个偏移量。

4.2 Multi-scale Deformable Attention Module

大多数现存的目标检测框架受益于多尺度特征图。我们设计的可形变注意力模块可以很自然的扩展到多尺度特征图。
使 x l l = 1 L {x^l}_{l=1}^{L} xll=1L为多尺度特征图的输入,其中 x l ∈ R C × H l × W l x^l \in R^{C×H_l×W_l} xlRC×Hl×Wl。使 p ^ q ∈ [ 0 , 1 ] 2 \hat p_q\in [0,1]^2 p^q[0,1]2为每个查询元素q中参考点的归一化坐标,然后多尺度可形变注意力模块为:
Deformable DETR学习笔记_第3张图片

5.Deformable DETR模型结构

6.一些额外的改进

6.1 迭代边界框细化机制

这是受光流估计中开发的迭代精华的启发。为了提高检测性能,作者建立了一种简单有效的迭代边界盒细化机制。每个解码器层基于来自前一层的预测来细化边界框。

6.2 两阶段Deformable DETR

在原始DETR中,解码器中的对象查询与当前图像无关。受两阶段目标检测器的启发,作者探索了一种变形DETR的变体,作为第一阶段生成区域(proposal)建议。生成的区域建议将作为对象查询输入解码器进行进一步细化,形成两阶段可变性DETR。

7.实验结果

Deformable DETR学习笔记_第4张图片
如表1所示:
a.与更快的R-CNN+FPN相比,DETR需要更多的训练时间来收敛,并且在检测小对象时提供更低的性能。
b.与DETR相比,变形DETR的训练周期减少了10倍,具有更好的性能(特别是在小物体上)。
Deformable DETR学习笔记_第5张图片
详细的收敛曲线如上所示。借助于迭代边界盒细化和两阶段范式,检测精度进一步提高。
Deformable DETR学习笔记_第6张图片
如表2所示,
a.用多尺度输入代替单尺度输入可以有效地提高检测精度,尤其在小对象上。
b.增加采样点数量K能进一步提高0.9%AP。利用多尺度变形注意力不同等级之间的交流,可以带来额外的1.5%的AP改善。
c.当不应用多尺度注意,且k=1时,多尺度可变形注意模块退化为可变性卷积,精度明显降低。
Deformable DETR学习笔记_第7张图片
如表3所示,基于不同的backbone,Deformable DETR均超过了已有的先进方法。

你可能感兴趣的:(目标检测,计算机视觉)