BMVC-2021-DETR: End-to-End Object Detection with Transformers 阅读笔记

目录

  • DETR整体架构
  • Backbone
  • Transformer encoder
  • Transformer decoder
  • Prediction feed-forward networks (FFNs)
  • Auxiliary decoding losses
  • QUOTE

论文地址:
https://arxiv.org/abs/2005.12872
代码地址:
https://github.com/facebookresearch/det
https://github.com/facebookresearch/detr

DETR整体架构

BMVC-2021-DETR: End-to-End Object Detection with Transformers 阅读笔记_第1张图片
DETR包含三个主要组件:一个用于提取紧凑特征表示的CNN主干,一个编码器-解码器转换器,以及一个用于进行最终检测预测的简单前馈网络(FFN)。

Backbone

在这里插入图片描述BMVC-2021-DETR: End-to-End Object Detection with Transformers 阅读笔记_第2张图片

Transformer encoder

BMVC-2021-DETR: End-to-End Object Detection with Transformers 阅读笔记_第3张图片
经过主干也就是卷积神经网络的特征提取后,提取到的高级特征首先会经过一个1x1的卷积,该卷积的作用就是降低通道数,将由C变为d(由2048变为d)。经过该卷积后的新特征我们表示为z0∈ Rd×H×W
由于编码器需要的输入是一个序列,所以需要改变其空间维度,也就是从d×H×W变为d×HW,于此同时,额外的固定位置编码也需要被输入。

Transformer decoder

多头注意机制由N个head组成,所以有N个通道数为d的嵌入。与原始transforming不同的是,在DETR模型中,每个解码器并行的处理N个输入,也就是说在解码器的地方会有N个不同的object queries被输入(与目标跟踪不同之处,目标跟踪中此处的输入为搜索图片)。解码器将N个对象查询转换成输出嵌入。然后通过前馈网络将它们独立解码成盒坐标和类别标签,从而产生最终预测。

Prediction feed-forward networks (FFNs)

最终预测由一个具有ReLU激活函数和隐藏维数d的三层感知器和一个线性投影层计算。FFN根据input image预测盒子的归一化中心坐标、高度和宽度,线性图层使用softmax函数预测分类标注。因为我们预测一组固定大小的N个边界框,其中N通常远大于图像中感兴趣对象的实际数量,所以使用额外的特殊类别label∅来表示在一个槽内没有检测到对象。这个类在标准对象检测方法中扮演类似于“背景”类的角色。

Auxiliary decoding losses

DETR在每个解码器层后添加预测FFNs和Hungarian loss。所有预测FFNs共享它们的参数。我们还使用了额外的共享归一化层来归一化来自不同解码器层的预测FFNs的输入。

QUOTE

[DETR]
We present a new method that views object detection as a direct set prediction problem. Our approach streamlines the detection pipeline, effectively removing the need for many hand-designed components like a non-maximum suppression procedure or anchor generation that explicitly encode our prior knowledge about the task.
[SwinTrack]
Starting from 2020, Transformer has been vastly introduced to the vision community. DETR attracted a lot of attention. By modeling the object detection as a direct set prediction problem, DETR removes most hand-crafted processes and reaches a state-of-the-art comparable performance without domain knowledge. Later, the advancing model of DETR and many other transformer-based models were proposed to the image and video tasks.

你可能感兴趣的:(计算机视觉,深度学习,transformer,目标检测)