论文阅读:DEFORMABLE DETR:DEFORMABLE DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION

题目:DEFORMABLE DETR:DEFORMABLE DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION

来源:ICLA 是针对Detr 的改进

原文:https://arxiv.org/pdf/2010.04159.pdf

个人觉得有用的和自己理解加粗和()内表示,尽量翻译的比较全,有一些官方话就没有翻译了,一些疑惑的地方欢迎大家探讨。

需要对Transformer和Detr有一点点了解,更加容易看懂DEFORMABLE DETR。

0、摘要 ABSTRACT

最近提出了DETR,以消除在物体检测中对许多手工设计的组件的需求,同时表现出良好的性能。但是,由于Transformer注意模块在处理图像特征图时的局限性,它存在收敛速度慢和特征空间分辨率有限的问题。为了缓解这些问题,我们提出了可变形的DETR,其注意力模块仅关注参考周围的一小部分关键采样点。可变形的DETR可以比DETR (尤其是在小物体上) 获得更好的性能,并且训练时间少10倍。在COCO基准上进行的大量实验证明了我们方法的有效性。

(原先两个问题,收敛慢、小物体检测不准 DEFORMABLE DETR都解决了)

1、引言INTRODUCTION

        现代对象检测器采用许多手工制作的组件 (Liu等人,2020),例如锚生成、基于规则的训练目标分配、非最大抑制 (NMS) 后处理。它们不是完全端到端的。最近,Carion等人 (2020) 提出了DETR以消除对这种手工制作的组件的需要,并构建了第一个完全端到端的对象检测器,实现了非常有竞争力的性能。DETR通过组合卷积神经网络 (cnn) 和变压器 (Vaswani等人,2017) 编码器-解码器,利用简单的架构。在适当设计的训练信号下,他们利用Transformers的多功能和强大的关系建模功能来代替手工制作的规则。

        尽管DETR具有有趣的设计和良好的性能,但它有自己的问题 :( 1) 与现有的物体检测器相比,它需要更长的训练时间来收敛。例如,在COCO (Lin等人,2014) 基准上,DETR需要500个时期来收敛,这比更快的r-cnn (Ren等人,2015) 慢约10到20倍。(2) DETR在检测小物体时提供相对较低的性能。现代物体检测器通常利用多尺度特征,其中从高分辨率特征图中检测到小物体。同时,高分辨率特征图导致DETR无法接受的复杂性。上述问题主要可以归因于在处理图像特征图时变压器组件的缺陷。在初始化时,注意力模块将几乎均匀的注意力权重投射到特征图中的所有像素。长时间的训练阶段对于学习注意力权重以专注于稀疏有意义的位置是必要的。另一方面,变压器编码器中的注意力权重计算是二次计算。像素数字。因此,处理高分辨率特征图具有很高的计算和存储复杂性。

        在图像域中,可变形卷积 (Dai等人,2017) 具有处理稀疏空间位置的强大且有效的机制。它自然避免了上述问题。而缺乏元素关系建模机制,这是DETR成功的关键。

        ( 简单理解 Deformable DETR = 变形卷积思想 + DETR )

        在本文中,我们提出了可变形 DETR,它缓解了 DETR 收敛速度慢和复杂度高的问题。它结合了可变形卷积的稀疏空间采样和 Transformer 的关系建模能力的优点。我们提出了可变形注意模块,它关注一小组采样位置,作为所有特征图像素中突出关键元素的预过滤器。该模块可以自然地扩展到聚合多尺度特征,而无需 FPN 的帮助(Lin 等人,2017a)。在 Deformable DETR 中,我们利用(多尺度)可变形注意模块来代替处理特征图的 Transformer 注意模块,如图 1 所示。

论文阅读:DEFORMABLE DETR:DEFORMABLE DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION_第1张图片

        由于其快速收敛以及计算和内存效率,可变形 DETR 为我们利用端到端物体检测器的变体开辟了可能性。我们探索了一种简单有效的迭代边界框细化机制来提高检测性能。我们还尝试了一个两阶段的可变形 DETR,其中区域建议也由可变形 DETR 的变体生成,它们被进一步馈送到解码器以进行迭代边界框细化。

        对 COCO (Lin et al., 2014) 基准的大量实验证明了我们方法的有效性。与 DETR 相比,Deformable DETR 可以获得更好的性能(尤其是在小物体上),训练时间减少 10 倍。所提出的两级可变形 DETR 变体可以进一步提高性能。代码发布在 https://github.com/fundamentalvision/Deformable-DETR

2 相关工作 RELATED WORK

高效的注意力机制。Transformers (Vaswani等人,2017) 涉及自我注意和交叉注意机制。Transformers 最著名的问题之一是巨大的关键元素数量下的高时间和内存复杂性,这在许多情况下阻碍了模型的可伸缩性。最近,为了解决这个问题已经做出了许多努力 (Tay等人,2020b),在实践中可以大致分为三类。

第一类是在键上使用预先定义的稀疏注意模式。最直接的范例是将注意力模式限制为固定本地窗口。大多数作品 (Liu等人,2018a; Parmar等人,2018; Child等人,2019; Huang等人,2019; Ho等人,2019; Wang等人,2020a; Hu等人,2019; Ramachandran等人,2019; Qiu等人,2019;beltagy等人,2020; Ainslie等人,2020; Zaheer等人,2020) 遵循这种范例。尽管将注意力模式限制在本地社区可以降低复杂性,但它会丢失全局信息。为了补偿,Child等人 (2019); Huang等人 (2019); Ho等人 (2019); Wang等人 (2020a) 以固定的间隔参加关键元件,以显著增加键上的感受野。Beltagy等人 (2020); Ainslie等人 (2020); Zaheer等人 (2020) 允许少量特殊令牌访问所有关键元素。Zaheer等人 (2020); Qiu等人 (2019) 还添加了一些预先固定的稀疏注意模式来直接参加遥远的关键元素。

第二类是学习依赖于数据的稀疏注意力。Kitaev等人 (2020) 提出了一种基于位置敏感哈希 (LSH) 的注意,该注意将查询和关键元素都哈希到不同的bin。Roy等人 (2020) 提出了类似的想法,其中k-means找出最相关的键。Tay等。(2020a) 学习块排列以进行块稀疏注意。

第三类是探索自我关注中的低级属性。Wang等人 (2020b) 通过在尺寸尺寸上而不是通道尺寸上的线性投影来减少关键元素的数量。Katharopoulos等人 (2020); Choromanski等人 (2020) 通过内核化近似重写了自我注意的计算。

在图像领域,有效注意机制的设计 (例如,Parmar等人 (2018); Child等人 (2019); Huang等人 (2019); Ho等人 (2019); Wang等人 (2020a); Hu等人 (2019);ramachandran等人 (2019)) 仍然限于第一类。尽管理论上降低了复杂性,Ramachandran等人 (2019); Hu等人 (2019) 承认,由于存储器访问模式的内在限制,这种方法在实现上比具有相同触发器的传统卷积慢得多 (至少慢3倍)。

另一方面,正如 Zhu 等人所讨论的那样。 (2019a),还有卷积的变体,例如可变形卷积 (Dai et al., 2017; Zhu et al., 2019b) 和动态卷积 (Wu et al., 2019),也可以看作是自注意力机制。特别是,可变形卷积在图像识别方面比 Transformer self-attention 更有效和高效。同时,缺乏元素关系建模机制。

我们提出的可变形注意模块受到可变形卷积的启发,属于第二类。它只关注从查询元素的特征预测的一小部分固定采样点。不同于 Ramachandran 等人。 (2019);胡等。 (2019),在相同的 FLOPs 下,可变形注意力仅比传统卷积稍慢。

用于对象检测的多尺度特征表示。对象检测的主要困难之一是有效地表示不同尺度的对象。现代物体检测器通常利用多尺度特征来适应这一点。作为开创性工作之一,FPN (Lin et al., 2017a) 提出了一种自上而下的路径来组合多尺度特征。 PANet (Liu et al., 2018b) 在 FPN 的顶部进一步添加了一条自下而上的路径。孔等。 (2018) 通过全局注意力操作结合了所有尺度的特征。赵等。 (2019) 提出了一个 U 形模块来融合多尺度特征。最近,提出了 NAS-FPN (Ghiasi et al., 2019) 和 Auto-FPN (Xu et al., 2019) 通过神经架构搜索自动设计跨尺度连接。谭等。 (2020) 提出了 BiFPN,它是 PANet 的重复简化版本。我们提出的多尺度可变形注意模块可以通过注意机制自然地聚合多尺度特征图,而无需这些特征金字塔网络的帮助。

3、重温一下REVISITING TRANSFORMERS AND DETR

Transformers 中的多头注意力。 Transformers (Vaswani et al., 2017) 是一种基于机器翻译注意力机制的网络架构。给定一个查询元素(例如,输出句子中的目标词)和一组关键元素(例如,输入句子中的源词),多头注意力模块根据衡量的注意力权重自适应地聚合关键内容查询键对的兼容性。为了让模型关注来自不同表示子空间和不同位置的内容,不同注意力头的输出与可学习的权重线性聚合。设q \in \Omega_{q}索引具有表示特征 z_{q} \in \mathbb{R}^{C}的查询元素,k \in \Omega_{k}索引具有表示特征 xk ∈ RCx_{k} \in \mathbb{R}^{C} 的关键元素,其中 C 是特征维度,\Omega_{q}\Omega_{k}分别指定查询和关键元素的集合.然后计算多头注意力特征。

 其中m索引注意力头,\boldsymbol{W}_{m}^{\prime} \in \mathbb{R}^{C_{v} \times C}\boldsymbol{W}_{m} \in \mathbb{R}^{C \times C_{v}}(默认为Cv = C/M)。可学习权重的注意力权重A_{m q k} \propto \exp \left\{\frac{\boldsymbol{z}_{q}^{T} \boldsymbol{U}_{m}^{T} \boldsymbol{V}_{m} \boldsymbol{x}_{k}}{\sqrt{C_{v}}}\right\}被归一化为\sum_{k \in \Omega_{k}} A_{m q k}=1,其中\boldsymbol{U}_{m}, \boldsymbol{V}_{m} \in \mathbb{R}^{C_{v} \times C}​​​​也是可学习权重。为了消除不同的空间位置,表示特征z_{q}x_{k}通常是元素内容和位置嵌入的串联/总和。

        Transformers 有两个问题。一是Transformers 在收敛之前需要很长的训练时间。假设查询和关键元素的数量分别为Nq 和Nk。通常,通过适当的参数初始化,\boldsymbol{U}_{m} \boldsymbol{z}_{q}\boldsymbol{V}_{m} \boldsymbol{x}_{k}服从均值为 0 方差为 1 的分布,这使得当 Nk 较大时注意力权重 A_{m q k} \approx \frac{1}{N_{k}}这将导致输入特征的梯度不明确。因此,需要长时间的训练计划,以便注意力权重可以集中在特定的键上。在图像域中,关键元素通常是图像像素,Nk 可能非常大并且收敛很繁琐。(大概意思是Transformers 初始化的时候众生平等)

        另一方面,多头注意力的计算和内存复杂度可能非常高,查询和关键元素众多。方程式1的计算复杂度是O\left(N_{q} C^{2}+N_{k} C^{2}+N_{q} N_{k} C\right)。在图像域中,查询元素和关键元素都是像素,N_{q}=N_{k} \gg C,复杂度由第三项决定,即 O\left(N_{q} N_{k} C\right)。因此,多头注意力模块的复杂度随特征图大小呈二次方增长。(因为Transformers每个都和其他的所有做交互,而且是矩阵所以是二次方增长)

DETR. DETR (Carion等人,2020) 建立在变压器编码器-解码器体系结构上,结合了基于集合的匈牙利损失,该损失通过二分匹配来强制每个地面-真相边界框的唯一预测。我们简要回顾一下网络体系结构,如下所示。

给定由 CNN 主干提取的输入特征图 x ∈ RC×H×W(例如,ResNet (He et al., 2016)),DETR 利用标准的 Transformer 编码器-解码器架构将输入特征图转换为特征一组对象查询。在对象查询特征(由解码器产生)之上添加一个 3 层前馈神经网络 (FFN) 和一个线性投影作为检测头。 FFN 作为回归分支预测边界框坐标 b ∈ [0, 1]4,其中 b = {bx, by, bw, bh} 编码归一化的框中心坐标,框高和宽(相对于图像尺寸)。线性投影作为分类分支产生分类结果。

对于 DETR 中的 Transformer 编码器,query 和 key 元素都是特征图中的像素。输入是 ResNet 特征映射(带有编码的位置嵌入)。令 H 和 W 分别表示特征图的高度和宽度。自注意力的计算复杂度为 O(H2W2C),随着空间大小呈二次方增长。

对于DETR中的变换器解码器,输入包括来自编码器的特征图和由可学习的位置嵌入表示的N个对象查询 (例如,N = 100)。解码器中有两种类型的注意模块,即交叉注意模块和自我注意模块。在交叉注意模块中,对象查询从特征图中提取特征。查询元素是对象查询的,关键元素是来自编码器的输出特征图的。其中,Nq = N,Nk = H × w,交叉注意力的复杂性为O(HWC2 NHWC)。复杂度随特征图的空间大小呈线性增长。在自我注意模块中,对象查询相互交互,以捕获它们的关系。查询和关键元素都是对象查询。其中,Nq = Nk = N,自我注意模块的复杂度为O(2NC2 N2C)。对于适度数量的对象查询,复杂性是可以接受的。

DETR 是一种极具吸引力的物体检测设计,它消除了对许多手工设计组件的需求。但是,它也有自己的问题。这些问题主要归因于 Transformer attention 在将图像特征图作为关键要素处理时的缺陷:(1)DETR 在检测小物体方面的性能相对较低。现代物体检测器使用高分辨率特征图来更好地检测小物体。然而,高分辨率的特征图会导致 DETR 的 Transformer 编码器中的自我注意模块的复杂度达到无法接受的水平,其复杂度与输入特征图的空间大小呈二次方关系。 (2) 与现代目标检测器相比,DETR 需要更多的训练时间才能收敛。这主要是因为处理图像特征的注意力模块很难训练。例如,在初始化时,交叉注意力模块几乎是整个特征图的平均注意力。而在训练结束时,注意力图被学习到非常稀疏,只关注对象的四肢。似乎 DETR 需要很长的训练时间才能学习注意力图中如此显着的变化。

4、方法 METHOD

4.1 可变形Transformer 用于端到端物体检测的方法DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

可变形注意模块。在图像特征图上应用Transformer 注意力的核心问题是,它将查看所有可能的空间位置。为了解决这个问题,我们提出了一个可变形的注意模块。受可变形卷积的启发 (Dai等,2017; Zhu等,2019b),可变形注意模块只关注参考点周围的一小部分关键采样点,而与特征图的空间大小无关,如图2所示,通过为每个查询仅分配少量固定数量的键,可以减轻收敛和特征空间分辨率的问题。

论文阅读:DEFORMABLE DETR:DEFORMABLE DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION_第2张图片

给定一个输入特征图x \in \mathbb{R}^{C \times H \times W}(左下角灰色),让q索引一个具有内容特征z_{q}和二维参考点p_{q}的查询元素,可变形注意力特征由

其中m表示注意力头(图中画的是3个)

k索引采样键,K是总采样数

\Delta p_{mqk}表示采样偏移量。

A_{mqk}表示第m个注意力头中第k个采样点注意力权重。

标量注意力权重 Amqk 位于 [0, 1] 范围内,由\sum_{k=1}^{K} A_{m q k}=1归一化。

\Delta p_{mqk} \in \mathbb{R}^2是具有无约束范围的二维实数。由于p_{q} + \Delta p_{mqk} 是小数,因此应用双线性插值。 \Delta p_{mqk}A_{mqk}都是通过对查询特征z_{q}的线性投影获得的。(这里比较重要,图2的上边那一条线下来的两条路,所谓线性投影,可以理解为就是多层感知机,不过好神奇为什么z_{q}能知道\Delta p_{mqk}和对应点的A_{mqk}\Delta p_{mqk}就是参考点的偏移,而A_{mqk}表示这些偏移后的点的权重)

在实现中,查询特征z_{q}被馈送到 3MK 个通道的线性投影算子,其中前 2MK 个通道编码采样偏移量 \Delta p_{mqk},其余 MK 个通道被馈送到 softmax(归一化 因为最后是求和) 算子以获得注意力权重 A_{mqk}

 (reference point p_{q}本来就是z_{q}的附近的位置,但是如果是固定的话其实和卷积也差别不大了。因此引入\Delta p_{mqk}\Delta p_{mqk}是在p_{q}位置上的偏移,这样z_{q}对应的采样点是不一样的。两个W都是多层感知机。所以整个流程是,首先z_{q}进来,有着固定的周围参考点p_{q},根据z_{q}算出来3个\Delta p_{mqk},每个头上都得到3个特征向量,这三个特征向量经过一个线形层后以A_{mqk}为权重加权,生成3个头下的特征向量,最后将三个头通过线性层合并)

 可变形注意模块旨在将卷积特征图作为关键元素进行处理。设N_{q}为查询元素个数,当MK较小时,可变形注意力模块的复杂度为O\left(2 N_{q} C^{2}+\min \left(H W C^{2}, N_{q} K C^{2}\right)\right)(详见附录A.1)。当它应用于DETR编码器时,其中N_{q}=H W,复杂度变为O\left(H W C^{2}\right),与空间大小成线性复杂度。当它被用作交叉注意力模块时,其中N_{q}=N(N是对象查询的数量),复杂度变为O\left(NK C^{2}\right),这与空间大小HW无关。

多尺度可变形注意模块。大多数现代对象检测框架都受益于多尺度特征图(Liu 等人,2020 年)。我们提出的可变形注意模块可以自然地扩展到多尺度特征图。

\left\{\boldsymbol{x}^{l}\right\}_{l=1}^{L}为输入的多尺度特征图,其中 \boldsymbol{x}^{l} \in \mathbb{R}^{C \times H_{l} \times W_{l}}。让\hat{\boldsymbol{p}}_{q} \in[0,1]^{2}为每个查询元素 q 的参考点的归一化坐标,然后应用多尺度可变形注意模块作为

其中 m 表示注意力头

l 表示输入特征级别

k 表示采样点。

\Delta \boldsymbol{p}_{m l q k}A_{m l q k}分别表示第l个特征层和第m个注意力头中第k个采样点的采样偏移量和注意力权重。

标量注意力权重A_{m l q k}通过\sum_{l=1}^{L} \sum_{k=1}^{K} A_{m l q k}=1进行归一化。

我们使用归一化坐标\hat{\boldsymbol{p}}_{q} \in[0,1]^{2}以明确尺度公式,其中归一化坐标 (0 , 0) 和 (1, 1) 分别表示图像的左上角和右下角。

公式 3 中的函数\phi_{l}\left(\hat{\boldsymbol{p}}_{q}\right)将归一化坐标 \hat{\boldsymbol{p}}_{q}重新缩放到第 l 级的输入特征图。

多尺度变形注意力与之前的单尺度版本非常相似,只是它从多尺度特征图中采样 LK 个点,而不是从单尺度特征图中采样 K 个点。(其实就是多加了几层,因此这个坐标为了对其都变成了归一化的)

所提出的注意力模块将退化为可变形卷积(Dai 等人,2017),当 L = 1,K = 1 且 \boldsymbol{W}_{m}^{\prime} \in \mathbb{R}^{C_{v} \times C}固定为单位矩阵时。可变形卷积专为单尺度输入而设计,每个注意力头仅关注一个采样点。然而,我们的多尺度可变形注意力会从多尺度输入中查看多个采样点。所提出的(多尺度)可变形注意力模块也可以被视为 Transformer 注意力的有效变体,其中可变形采样位置引入了预过滤机制。当采样点遍历所有可能的位置时,提出的注意力模块相当于 Transformer 注意力。

可变形Transformer 编码器。我们用提出的多尺度可变形注意模块替换了 DETR 中处理特征图的 Transformer 注意模块。编码器的输入和输出都是具有相同分辨率的多尺度特征图。在编码器中,我们从 ResNet 中 C3 到 C5 阶段的输出特征图中提取多尺度特征图 \left\{\boldsymbol{x}^{l}\right\}_{l=1}^{L-1}(L=4)(由 1 × 1 卷积),其中C_{l}的分辨率比输入图像低 2^{l}。最低分辨率的特征图x^{L}是在最后的 C5 阶段通过 3×3 stride 2 卷积获得的,表示为 C6。所有的多尺度特征图都是 C = 256 通道。请注意,未使用 FPN 中的自上而下结构(Lin 等人,2017a),因为我们提出的多尺度变形注意本身可以在多尺度特征图之间交换信息。多尺度特征图的构建也在附录A.2中进行了说明。 5.2 节中的实验表明,添加 FPN 不会提高性能。

在编码器中多尺度可变形注意模块的应用中,输出是与输入具有相同分辨率的多尺度特征图。关键元素和查询元素都是来自多尺度特征图的像素。对于每个查询像素,参考点就是它自己。为了识别每个查询像素位于哪个特征级别,除了位置嵌入之外,我们还向特征表示添加了一个标度级别的嵌入,表示为e_{l}。与固定编码的位置嵌入不同,尺度级嵌入\left\{\boldsymbol{e}_{l}\right\}_{l=1}^{L}随机初始化并与网络联合训练。

可变形Transformer 解码器。 decoder中有cross-attention和self-attention模块。两种注意力模块的查询元素都是对象查询。在交叉注意模块中,对象查询从特征图中提取特征,其中关键元素是来自编码器的输出特征图。在自注意力模块中,对象查询相互交互,其中关键元素是对象查询。由于我们提出的可变形注意模块是为处理卷积特征图作为关键元素而设计的,我们只将每个交叉注意模块替换为多尺度可变形注意模块,同时保持自注意模块不变。对于每个对象查询,参考点 \hat{\boldsymbol{p}}_{q} 的二维归一化坐标是通过可学习的线性投影后跟一个 sigmoid 函数从其对象查询嵌入中预测出来的。

因为多尺度可变形注意力模块提取参考点周围的图像特征,我们让检测头将边界框预测为相对偏移 w.r.t.进一步降低优化难度的参考点。参考点用作框中心的初始猜测。检测头预测相对偏移 w.r.t.参考点。详情请查看附录 A.3。这样,学习到的decoder attention将与预测的bounding boxes有很强的相关性,也加速了训练收敛。

通过在 DETR 中用可变形注意模块替换 Transformer 注意模块,我们建立了一个高效快速的收敛检测系统,称为可变形 DETR(见图 1)。

4.2可变形 DETR 的其他改进和变体 ADDITIONAL IMPROVEMENTS AND VARIANTS FOR DEFORMABLE DETR

由于其快速收敛以及计算和内存效率,可变形 DETR 为我们开发各种端到端目标检测器变体提供了可能性。限于篇幅,我们这里只介绍这些改进和变体的核心思想。实施细节在附录 A.4 中给出。

迭代边界框细化。这是受到光流估计中开发的迭代优化的启发 (Teed & Deng, 2020)。我们建立了一种简单有效的迭代边界框细化机制来提高检测性能。在这里,每个解码器层根据前一层的预测改进边界框。

两阶段可变形 DETR。在原始的 DETR 中,解码器中的对象查询与当前图像无关。受两阶段目标检测器的启发,我们探索了一种可变形 DETR 的变体,用于在第一阶段生成区域建议。生成的区域建议将作为对象查询输入解码器以进一步细化,形成两阶段可变形 DETR。

在第一阶段,为了实现高召回建议,多尺度特征图中的每个像素都将作为一个对象查询。然而,直接将对象查询设置为像素将给解码器中的自注意力模块带来不可接受的计算和内存成本,其复杂度随查询数量呈二次方增长。为了避免这个问题,我们移除了解码器并形成了一个仅用于区域建议生成的编码器可变形 DETR。其中,每个像素都被分配为一个对象查询,直接预测一个边界框。得分最高的边界框被选为区域建议。在将区域提案提供给第二阶段之前,不应用 NMS。

 5 实验EXPERIMENT

这篇偷个懒这里不写了,各种消融实验。

6、结论CONCLUSION

可变形 DETR 是一种端到端的目标检测器,高效且收敛速度快。它使我们能够探索更多有趣和实用的端到端目标检测器变体。 Deformable DETR 的核心是(多尺度)可变形注意模块,这是处理图像特征图的有效注意机制。我们希望我们的工作能为探索端到端目标检测开辟新的可能性。

(个人理解 Deformable DETR = Deformable卷积 + DETR,解决运算过于复杂,而DETR本质transformer其实就是增加每个点与其他点的关联。cnn就是只关注周围,这个看起来像是一个折中方案,即关注周围一部分,但是这个又是灵活的,偏移可以选择。至于transformer,为什么感觉又有条件随机场的味道CRF。因为关注了太多其他地方,所以收敛慢,网络大难以训练)

你可能感兴趣的:(语义,目标检测,论文阅读,目标检测,人工智能)