Deformable DETR 论文学习

Abstract

DETR 提出在目标检测方法中去除人为组件,也可保持优异性能。但由于 Transformer 注意力模块只能有限地处理图像特征图,它的收敛速度就比较慢,特征空间分辨率有限。为了缓解这些问题,作者提出了 Deformable DETR,其注意力模块只会关注目标框周围少量的关键采样点。Deformable DETR 能够取得比 DETR 更优异的性能(尤其在小物体上),训练 epochs 要少 10 × 10\times 10×倍。在 COCO 基准上大量的实验证明了该方法的有效性。代码位于: https://github.com/fundamentalvision/Deformable-DETR。

1. Introduction

目前的目标检测器都使用了许多人为组件,比如 anchor 生成、基于规则的训练目标分配机制、NMS 后处理等。它们都不是完全端到端的。最近 Carion 等人提出了 DETR 来去除人为组件,第一次构建了一个完全端到端的目标检测器,取得了优异的表现。DETR 利用一个简单的结构,将 CNN 和 Transformer 编码器-解码器结合起来使用。他们利用 Transformer 强大而通用的关系建模能力,在正确设计的训练信号指导下,代替人为规则。

尽管 DETR 的设计很有意思,而且表现不错,但是也有几个问题:(1) 需要更长的训练时间来收敛。例如,在 COCO 基准上,DETR 需要500个 epochs 才能收敛,要比 Faster R-CNN 慢了10-20倍。(2) DETR 对小目标检测表现相对较差。当前的目标检测器通常使用多尺度特征,从高分辨率特征图上可以检测小目标。而对 DETR 来说,高分辨率特征图意味着高复杂度。这些问题主要可以归结为 Transformer 缺乏处理图像特征图的组件。在初始化时,注意力模块对特征图上的所有像素点分配几乎相同的注意力权重。长训练时间对于注意力权重的学习是非常必要的,从而能关注到稀疏而有价值的位置。另一方面,Transformer 编码器的注意力权重的计算,相对于像素个数来说是平方计算的。因此,要处理高分辨率特征图,其计算量是非常高的,内存复杂度也是非常高的。

在图像领域,deformable 卷积是一个强大而高效的机制,来处理稀疏空间位置。它天然地避免了上述了问题。而它缺乏元素间关系建模的机制,这是 DETR 成功的关键。

本文中作者提出了 Deformable DETR,加快 DETR 的收敛速度,并降低高复杂度问题。它将 deformable 卷积的最佳稀疏空间采样方法和 Transformer 的关系建模能力结合起来。作者提出了 deformable 注意力模块,对所有的特征图像素点进行预筛,关注到很少的采样位置。该模块能够天然地扩展到聚合多尺度特征,无需 FPN 的帮助。在 Deformable DETR 中,作者使用了(多尺度)deformable 注意力模块替换 Transformer 注意力模块,来处理特征图,如图1所示。

Deformable DETR 论文学习_第1张图片

Deformable DETR 开启了探索端到端目标检测器的机会,因为它收敛很快,内存消耗和计算量都较低。作者研究了一个简单而有效的迭代的边框优化机制,提升检测表现。作者也尝试了一个双阶段Deformable DETR,通过一个Deformable DETR的变体来生成候选边框,输入解码器来进行迭代的边框优化。

在 COCO 基准的大量实验证明了该方法的有效性。与 DETR 相比,Deformable DETR 能够取得更优的性能(尤其在小目标上),训练时间少了 10 × 10\times 10×。双阶段 Deformable DETR 的变体模型能够进一步提升性能。代码位于https://github.com/fundamentalvision/Deformable-DETR

2. Related Work

高效率注意力机制。Transformer 包括了自注意力机制和跨注意力机制。Transformer 最为人所诟病的就是其时间和内存复杂度过高,key 元素个数太多了,这阻碍了模型的应用范围。最近,人们致力于解决这个问题,方向大致可以分为三类。

第一类就是对keys使用预先定义的稀疏注意力模式。最直接的范式就是将注意力模式限定为固定的局部窗口。很多工作都延续了这个范式。尽管限定注意力模式为一个局部窗口能够降低复杂度,但是会失去全局信息。为了弥补,Child 等人、Huang 等人、Ho 等人以固定的间隔来关注 key 元素,极大地增加了 keys 的感受野。Beltagy 等人、Ainslie 等人和 Zaheer 等人允许很少的、特殊的 tokens 获取到所有的 key 元素。Zaheer 等人、Qiu 等人也增加了一些预先定义的稀疏注意力模式,直接关注距离较远的 key 元素。

第二类就是学习依赖于数据的稀疏注意力。Kitaev 等人提出了一个基于注意力的局部敏感哈希(Locality sensitive hash),将 query 和 key 元素用哈希表示,放入不同的 bins 中。Roy 等人提出了一个相似的想法,k-means 找到最相关的 keys。Tay 等人为 block-wise 稀疏注意力,学习 block 排列。

第三个类别就是探索自注意力的低秩特性。Wang 等人通过对尺寸维度而非通道维度做线性映射,降低 key 元素的个数。Katharopoulos 等人、Choromanski 等人通过内核近似重述了自注意力的计算过程。

在图像领域,高效率注意力机制的设计仍然受限于第一类方法。尽管理论上降低了复杂度,Parmar 等人、Hu 等人承认,因为内存读取的限制,这些方法在实际操作中要远远慢于传统的卷积操作(至少慢了 3 × 3\times 3×),即便 FLOPs 是一样的。

另一方面,卷积有许多的变体,如 deformable 卷积和动态卷积,它们也可看作为自注意力机制。Deformable 卷积在图像识别任务上,要比 Transformer 自注意力更加有效和高效。但是它缺乏元素关系建模的机制。

本文提出的 deformable 注意力模块受到 deformable 卷积的启发,属于第二个类别。它只关注在很少的、固定数量的采样点上,这些采样点由 query 元素的特征预测而来。与 Parmar 等人、Hu 等人的方法不同,在相同 FLOPs 的情况下,deformable 注意力只比传统卷积慢一点点。

目标检测的多尺度特征表示。目标检测中的一个主要难点就是在不同的尺度上有效地表示目标。目前的检测器通常使用了多尺度特征来解决这个问题。FPN 提出了一个自上而下的路径来结合多尺度特征。PANet 则在 FPN 基础上又增加了一个自下而上的路径。Kong 等人通过一个全局注意力操作,将所有尺度的特征结合起来。Zhao 等人提出了一个 U-形状的模块来融合多尺度特征。最近,NAS-FPN 和 Auto-FPN 提出可通过神经结构搜索方法,自动地设计跨尺度连接。Tan 等人提出了 BiFPN,将 PANet 简化版重复多次使用。本文多尺度 deformable 注意力模块能够通过注意力机制天然地聚合多尺度特征图,无需 FPN 的帮助。

3. 回顾 Transformers 和 DETR

Transformer 的 Multi-head 注意力。Transformer 是一种基于注意力机制的网络结构,用于机器翻译。给定一个 query 元素(比如输出句子中的一个目标单词),以及一个 key 元素组成的集合(比如,输入句子中的源单词),multi-head注意力模块自适应地根据注意力权重,将 key 内容聚合起来,该权重能衡量 query-key 对的兼容性。为了让模型关注在不同表示子空间和不同位置上的内容,我们用可学习的权重来线性地聚合不同注意力 heads 的输出。以 q ∈ Ω q q\in \Omega_q qΩq 表示一个 query 元素的索引,表示特征 z q ∈ R C z_q\in \mathbb{R}^C zqRC k ∈ Ω k k\in \Omega_k kΩk 是key元素的索引,表示特征是 x k ∈ R C x_k \in \mathbb{R}^C xkRC,其中 C C C是特征维度, Ω q , Ω k \Omega_q,\Omega_k Ωq,Ωk分别表示 query 和 key 元素的集合。然后,计算 multi-head 注意力特征:

MultiHeadAttn ( z q , x ) = ∑ m = 1 M W m [ ∑ k ∈ Ω k A m q k ⋅ W m ′ x k ] \text{MultiHeadAttn}(z_q, x) = \sum_{m=1}^M W_m[\sum_{k\in \Omega_k} A_{mqk} \cdot W_m' x_k] MultiHeadAttn(zq,x)=m=1MWm[kΩkAmqkWmxk]

其中 m m m是注意力 head 的索引, W m ′ ∈ R C v × C W_m'\in\mathbb{R}^{C_v \times C} WmRCv×C W m ∈ R C × C v W_m\in \mathbb{R}^{C\times C_v} WmRC×Cv是可学习的权重(默认 C v = C / M C_v=C/M Cv=C/M)。注意力权重 A m q k ∝ exp ⁡ { z q T U m T V m x k C v } A_{mqk} \propto \exp\{\frac{z_q^T U_m^T V_m x_k}{\sqrt C_v}\} Amqkexp{ C vzqTUmTVmxk}通过 ∑ k ∈ Ω k A m q k = 1 \sum_{k\in \Omega_k} A_{mqk}=1 kΩkAmqk=1做归一化,其中 U m , V m ∈ R C v × C U_m, V_m\in \mathbb{R}^{C_v\times C} Um,VmRCv×C也是可学习的权重。为了消除不同空间位置的歧义,表示特征 z q z_q zq x k x_k xk通常会和位置 embeddings 进行 concat 或求和操作。

Transformer 主要有2个问题。一个是 Transformer 需要很长的训练时间,才能收敛。假设 query 和 key 元素的个数是 N q , N k N_q, N_k Nq,Nk。通常,参数初始化合理的话, U m z q , V m x k U_mz_q, V_mx_k Umzq,Vmxk的分布会是均值为0,方差为1的分布,这样注意力权重 A m q k ≈ 1 N k A_{mqk}\approx \frac{1}{N_k} AmqkNk1,其中 N k N_k Nk很大。它会给输入特征带来模糊的梯度。所以,我们就需要较长的训练时间,这样注意力权重才能关注到特定的 keys 上。在图像领域中,key 元素通常是图像像素点, N k N_k Nk就非常大,收敛就很慢。

另一方面,multi-head 注意力的计算复杂度和时间复杂度会非常高。等式1的计算复杂度是 O ( N q C 2 + N k C 2 + N q N k C ) O(N_q C^2 + N_k C^2 + N_q N_k C) O(NqC2+NkC2+NqNkC)。在图像领域,query 和 key 元素都是像素点, N q = N k ≫ C N_q = N_k \gg C Nq=NkC,复杂度主要由第三项控制, O ( N q N k C ) O(N_q N_k C) O(NqNkC)。因此,multi-head 注意力模块的复杂度就相对特征图大小呈平方增长。

DETR。DETR 构建于 Transformer 编码器-解码器之上,结合使用了匈牙利损失,该损失通过二分匹配为每个 ground-truth 边框分配唯一的预测框。作者下面简要地回顾了该网络结构。

给定由 CNN 主干网络提取的输入特征图 x ∈ R C × H × W x\in \mathbb{R}^{C\times H\times W} xRC×H×W,DETR 利用一个标准的 Transformer 编码器-解码器架构对输入特征图做变换,得到目标 queries 集合的特征。然后在解码器输出的目标 query 特征上面,有一个三层前馈神经网络(FFN)和一个线性映射操作作为检测 head。FFN 扮演着回归分支,预测边框的坐标 b ∈ [ 0 , 1 ] 4 b\in [0,1]^4 b[0,1]4,其中 b = { b x , b y , b w , b h } b=\{b_x,b_y,b_w,b_h\} b={ bx,by,bw,bh}编码归一化后的边框中心坐标、边框宽度和高度(相对于图像大小)。线性映射则扮演着分类分支的功能,输出分类结果。

对于 DETR 中的 Transformer 编码器,query 和 key 元素都是特征图上的像素点。输入是 ResNet 特征图(加上编码了的位置 embedding)。 H , W H,W H,W分别表示特征图的高度和宽度。自注意力的计算复杂度就是 O ( H 2 W 2 C ) O(H^2W^2C) O(H2W2C),与空间大小呈平方增长。

对于 DETR 中的 Transformer 解码器,输入包括编码器的特征图、位置 embeddings 表示的 N N N 个目标 queries(比如 N = 100 N=100 N=100)。解码器中一共有两类注意力模块,跨注意力和自注意力模块。在跨注意力模块中,目标 queries 从解码器特征图上提取特征。Query 元素属于目标 queries,key元素则属于编码器输出的特征图。 N q = N , N k = H × W N_q=N,N_k=H\times W Nq=N,Nk=H×W,跨注意力的复杂度是 O ( H W C 2 + N H W C ) O(HWC^2 +NHWC) O(HWC2+NHWC)。复杂度与特征图大小呈线性增长关系。在自注意力模块中,目标queries彼此之间相互交流,从而获取彼此的关系。Query 和 key 元素都属于目标 queries。 N q = N k = N N_q=N_k=N Nq=Nk=N,自注意力模块的复杂度是 O ( 2 N C 2 + N 2 C ) O(2NC^2 +N^2C) O(2NC2+N2C)。当目标queries数量不多时,复杂读是可以接受的。

DETR 对于目标检测任务来说很有吸引力,去除了人为组件。但是它也有自己的问题。这些问题主要可以归结为 Transformer 注意力无法将图像特征图作为 key 元素处理:(1) DETR 在处理小目标时表现不好。当前的检测器都使用了高分辨率特征图来更好地检测小目标。但是,高分辨率特征图意味着高复杂度,这是 DETR 中 Transformer 编码器的自注意力模块难以接受的,它与输入特征图的大小呈平方复杂度关系。(2) 与目前的检测器相比,DETR 需要更多的训练时间才能收敛。这主要是因为处理图像特征的注意力模块很难训练。例如在开始时,跨注意力模块几乎是整个特征图注意力的平均值。而在训练结束时,注意力图非常稀疏,只关注在目标极值上。似乎 DETR 需要一个很长的训练时间来学会注意力图的这种转变。

4. 方法

4.1 用于端到端目标检测的 Deformable Transformers

Deformable 注意力模块。在图像特征图上应用 Transformer 注意力的关键问题就是,它会关注所有可能的空间位置。为了解决这个问题,作者提出了deformable注意力模块。受到 deformable 卷积的启发,deformable 注意力模块只会关注参考点附近少量的关键采样点,不管特征图的空间大小是多少。通过为每个 query 分配较少数量的 keys,收敛和特征空间分辨率的问题就得到了缓解。

给定输入特征图 x ∈ R C × H × W x\in \mathbb{R}^{C\times H\times W} xRC×H×W,用 q q q作为一个 query 元素的索引,其特征表示是 z q z_q zq,二维参考点 p q p_q pq,deformable 注意力特征的计算如下:

DeformAttn ( z q , p q , x ) = ∑ m = 1 M W m [ ∑ k = 1 K A m q k ⋅ W m ′ x ( p q + Δ p m q k ) ] \text{DeformAttn}(z_q, p_q, x) = \sum_{m=1}^M W_m [\sum_{k=1}^K A_{mqk} \cdot W_m' x(p_q + \Delta p_{mqk})] DeformAttn(zq,pq,x)=m=1MWm[k=1KAmqkWmx(pq+Δpmqk)]

其中 m m m 是注意力head的索引, k k k是采样 keys 的索引, K K K是所有采样 key 的个数( K ≪ H W K \ll HW KHW)。 Δ p m q k \Delta p_{mqk} Δpmqk A m q k A_{mqk} Amqk分别表示第 m m m个注意力head中第 k k k个采样点的采样偏移量和注意力权重。标量注意力权重 A m q k A_{mqk} Amqk位于 [ 0 , 1 ] [0,1] [0,1]之间,用 ∑ k = 1 K A m q k = 1 \sum_{k=1}^K A_{mqk}=1 k=1KAmqk=1做归一化。 Δ p m q k ∈ R 2 \Delta p_{mqk} \in \mathbb{R}^2 ΔpmqkR2 是二维实数,取值范围没有限制。因为 p q + Δ p m q k p_q + \Delta p_{mqk} pq+Δpmqk 是小数,故采用了双线性插值,与计算 x ( p q + Δ p m q k ) x(p_q + \Delta p_{mqk}) x(pq+Δpmqk)一样。 Δ p m q k \Delta p_{mqk} Δpmqk A m q k A_{mqk} Amqk是对 query 特征 z q z_q zq做线性映射得到的。在实现时,query 特征 z q z_q zq输入进一个有 3 M K 3MK 3MK个通道的线性映射操作符,前 2 M K 2MK 2MK个通道编码采样偏移量 Δ p m q k \Delta p_{mqk} Δpmqk,剩下的 M K MK MK个通道则输入进一个 softmax 操作符,得到注意力权重 A m q k A_{mqk} Amqk

Deformable 注意力模块是为处理卷积特征图设计的,将之作为 key 元素使用。 N q N_q Nq是 query 元素的个数,当 M K MK MK较小时,deformable 注意力模块的复杂度就是 O ( 2 N q C 2 + min ⁡ ( H W C 2 , N q K C 2 ) ) O(2N_qC^2 + \min (HWC^2, N_qKC^2)) O(2NqC2+min(HWC2,NqKC2))。当用在 DETR 编码器时( N q = H W N_q = HW Nq=HW),复杂度就变成了 O ( H W C 2 ) O(HWC^2) O(HWC2),这和特征图空间大小就呈线性增长了。当它用在 DETR 解码器时( N q = N N_q=N Nq=N,N是目标query的个数),复杂度就是 O ( N K C 2 ) O(NKC^2) O(NKC2),这和特征图大小 H W HW HW就没关系了。

多尺度Deformable注意力模块。大多数目标检测框架都从多尺度特征图上受益。本文的 deformable 注意力模块也可天然地扩展使用多尺度特征图。

{ x l } l = 1 L \{x^l\}_{l=1}^L { xl}l=1L 表示输入多尺度特征图,七中 x l ∈ R C × H l × W l x^l \in \mathbb{R}^{C\times H_l \times W_l} xlRC×Hl×Wl p ^ q ∈ [ 0 , 1 ] 2 \hat p_q \in [0,1]^2 p^q[0,1]2 表示每个 query 元素 q q q的参考点归一化后的坐标。多尺度 deformable 注意力模块就可表示为:

MSDeformAttn ( z q , p ^ q , { x l } l = 1 L ) = ∑ m = 1 M W m [ ∑ l = 1 L ∑ k = 1 K A m l q k ⋅ W m ′ x l ( ϕ l ( p ^ q ) + Δ p m l q k ) ] \text{MSDeformAttn}(z_q, \hat p_q, \{x^l\}_{l=1}^L) = \sum_{m=1}^M W_m [\sum_{l=1}^L \sum_{k=1}^K A_{mlqk} \cdot W_m' x^l(\phi_l(\hat p_q) + \Delta p_{mlqk})] MSDeformAttn(zq,p^q,{ xl}l=1L)=m=1MWm[l=1Lk=1KAmlqkWmxl(ϕl(p^q)+Δpmlqk)]

其中 m m m是注意力head的索引, l l l是特征图层级的索引, k k k是采样点的索引。 Δ p m l q k \Delta p_{mlqk} Δpmlqk A m l q k A_{mlqk} Amlqk分别表示第 m m m个注意力head在第 l l l个特征层级上第 k k k个采样点的采样偏移量和注意力权重。标量注意力权重 A m l q k A_{mlqk} Amlqk ∑ l = 1 L ∑ k = 1 K A m l q k = 1 \sum_{l=1}^L \sum_{k=1}^K A_{mlqk}=1 l=1Lk=1KAmlqk=1做了归一化。这里,作者使用归一化坐标 p ^ q ∈ [ 0 , 1 ] 2 \hat p_q\in [0,1]^2 p^q[0,1]2为了尺度表述更清晰,归一化的坐标 ( 0 , 0 ) (0,0) (0,0) ( 1 , 1 ) (1,1) (1,1)分别表示图像的左上角点和右下角点。函数 ϕ l ( p ^ q ) \phi_l(\hat p_q) ϕl(p^q)对归一化的坐标 p ^ q \hat p_q p^q重新做了缩放,符合第 l l l个特征图层级。多尺度 deformable 注意力和之前的单尺度版本很像,除了它会从多尺度特征图上采样 L K LK LK个点,而不是单词度特征图的 K K K个点。

L = 1 , K = 1 L=1,K=1 L=1,K=1时,该注意力模块会退化为 deformable 卷积, W m ′ ∈ R C v × C W_m'\in \mathbb{R}^{C_v\times C} WmRCv×C是一个单位矩阵。Deformable 卷积是为单尺度输入设计的,对每个注意力head只关注一个采样点。但是,本文的多尺度deformable注意力会关注多尺度输入上的多个采样点。该多尺度 deformable 注意力模块可以看作为 Transformer 注意力的一个高效变体,通过deformable采样来引入预过滤机制。如果采样点覆盖了所有可能的位置,则该注意力模块和 Transformer 注意力等价。

Deformable Transformer 编码器。作者将 DETR 中处理特征图的 Transformer 注意力模块替换为了多尺度 deformable 注意力模块。编码器的输入和输出是多尺度特征图,它们的分辨率是相同的。在编码器中,我们从 ResNet 的 C 3 C_3 C3 C 5 C_5 C5 stage 输出的特征图中,提取多尺度特征图 { x l } l = 1 L − 1 ( L = 4 ) \{x^l\}_{l=1}^{L-1}(L=4) { xl}l=1L1(L=4)(通过 1 × 1 1\times1 1×1卷积变换),其中 C l C_l Cl的分辨率要比原始输入图像低 2 l 2^l 2l倍。对最后的 C 5 C_5 C5 stage 使用步长为2的 3 × 3 3\times 3 3×3卷积,得到分辨率最低的特征图 x L x^L xL,记作 C 6 C_6 C6。所有的多尺度特征图都是 C = 256 C=256 C=256通道的。注意,作者没有用FPN自上而下的结构,因为本文的多尺度 deformable 注意力本身就可以交换多尺度特征图的信息。多尺度特征图的构建在附录A.2中有介绍。5.2章节的实验表明,加入 FPN 不会提升性能。

在编码器中使用多尺度 deformable 注意力模块,输出的多尺度特征图的分辨率和输入是相同的。Key 和 query 元素都是多尺度特征图上的像素点。对于每个 query 像素点,参考点就是它自己。为了识别 query 像素点来自于哪个特征层级,除了位置 embedding,作者在特征表示中增加了一个尺度层级 embedding,记作为 e l e_l el。与编码是固定的位置 embedding 不同,尺度层级 embedding { e l } l = 1 L \{e_l\}_{l=1}^L { el}l=1L 是随机初始化的,与网络协同训练。

Deformable Transformer 解码器。在解码器中包含了跨注意力模块和自注意力模块。对于这俩注意力模块来说,query 元素就是目标 queries。在跨注意力中,目标 queries 从特征图中提取特征,key 元素是从编码器的输出特征图上获取的。在自注意力中,目标 queries 彼此作用,key 元素来自于目标 queries。因为本文的 deformable 注意力模块目的是将卷积特征图作为 key 元素处理,作者只将跨注意力模块替换为了多尺度 deformable 注意力模块,而自注意力模块没变。对于每个目标 query,我们通过一个可学习的线性映射和一个sigmoid函数,从它的目标query embedding中预测参考点 p ^ q \hat p_q p^q的二维归一化坐标。

因为多尺度 deformable 注意力模块是在参考点附近提取图像特征,所以我们用检测 head 来预测关于参考点的相对偏移量,得到边框,从而降低优化的难度。开始时,模型盲猜边框的中心位置就是这些参考点。检测 head 预测关于这些参考点的相对偏移量。附录A.3有更多的细节信息。这样,解码器注意力就和预测边框有着更紧密的联系,加速训练收敛。

通过替换Transformer 注意力模块为 deformable 注意力模块,我们就可以构建一个高效率、快速收敛的检测方法,叫作 Deformable DETR。

4.2 Deformable DETR 的额外改进和变体形式

Deformable DETR 为端到端目标检测器开启了新的机遇,因为它收敛速度快、计算和内存效率高。因为篇幅有限,作者只介绍了几个改进的核心思想和变体形式。附录A.4提供了实现细节。

迭代的边框优化。这是受光流估计(Teed和Deng,2020)中迭代优化方法的启发而来。作者构建了一个简单而有效的迭代边框优化机制,提升检测表现。这里,每个解码器层都基于前一层的预测结果来优化边框。

双阶段 Deformable DETR。在原来的 DETR 中,解码器中的目标 queries 与当前图像无关。受到双阶段目标检测器的启发,作者探索了 Deformable DETR 的变体形式,将生成候选框作为第一阶段。生成的候选框会输入解码器,作为目标 queries 进一步优化,形成双阶段的 Deformable DETR。

在第一个阶段中,多尺度特征图上的每个像素点都会作为目标 query 使用,产生高召回率的候选框。但是,直接将目标queries设定为像素点,会造成解码器自注意力模块的计算量和内存消耗难以接受,因为它们的复杂度是伴随着 queries 个数呈平方增长。为了解决这个问题,作者去除了解码器,得到了一个只有编码器的 Deformable DETR,用于候选框生成。每个像素点都作为一个目标query,直接预测边框。得分最高的边框作为候选框。在将候选框输入进第二个阶段之前,没有使用 NMS。

你可能感兴趣的:(图像识别,目标检测,深度学习)