papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》

papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第1张图片
论文链接:https://arxiv.org/pdf/2011.12450.pdf.
arxiv 2020

文章目录

  • 1 Background
  • 2 Motivation
  • 3 Related Work
  • 4 Advantages/Contributions
  • 5 Method
    • 5.1.Pipeline
    • 5.2.Module
  • 6 Experiments
    • 6.1.Dataset
    • 6.2.Main Result
    • 6.3.Module Analysis
    • 6.4.The Proposal Boxes Behavior
  • 7 Conclusions

1 Background

目标检测的目的是对一组目标定位,并在图像中识别它们的类别。密集检测一直是检测上的基础。在经典的计算机视觉中,滑动窗口的方法已经引导检测数十年。现代主流的one-stage检测器都是在一个密集特征图上预定义marks,比如anchor box(如下图a)或者参考点。虽然two-stages工作在一个稀疏的proposal boxes上,但是他们的proposal的生成算法仍然是建立在密集候选上(如图b)。
papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第2张图片
papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第3张图片
这些成熟的方法是在概念上清晰的并且有一个鲁棒性的性能和快的训练和推断时间。除了这些成功的方面之外,它们也会受到一些限制:(1)这些方法通常会产生冗余与近似重复的结果。(2)训练中的多对一的label分配问题使得网络对分配规则很敏感。(3)最终的性能很大程度上会受大小、长宽比率、anchor的数量、参考点的密度和proposal生成算法等的影响。

近来,DETR提出将目标检测重新定义为直接稀疏集合预测问题,它的输入仅仅100个学习的目标队列,最后的输出没有任何人工设计的后处理过程。虽然它是一个简单而且有效的工作,但是DETR仍然要求每个目标队列和全局图像上下文环境进行交互。这个密集的性能不仅降低了训练收敛速度,而且还阻塞了它建立一个彻底稀疏的管道用于对象检测

本文认为稀疏性应该包含两方面:
(1)sparse boxes:. Sparse boxes mean that a small number of starting boxes (e.g. 100) is enough to predict all objects in an image
(2) sparse features: sparse features indicate the feature of each box does not need to interactively interact with all other features over the full image
DETR没有绝对稀疏,因为它的每个目标队列必须和整张图像上的密集特征进行交互。

本文作者提出的 Sparse R-CNN,没有枚举所有图像网格网格上的目标位置候选框,也没有与全局图像特征进行目标 queries进行交互。
papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第4张图片
可学习的 proposal boxes是对图像上潜在的目标位置的统计,然而4维的坐标仅仅是对目标的一个粗略的表示,它缺少很多有用的细节比如pose和shape。本文剔除一个proposal feature的概念,它是一个高维的隐式向量。与粗略的bound ing box比较,proposal feature会编码出丰富的实例特征。而且proposal feature会维它独特的目标检测中头生成特定的参数。

2 Motivation

  • 目标检测领域中主流的两大类方法:(1)第一大类是从非Deep时代就被广泛应用的dense detector,例如DPM,YOLO,RetinaNet,FCOS。在dense detector中,大量的object candidates例如sliding-windows,anchor-boxes, reference-points等被提前预设在图像网格或者特征图网格上,然后直接预测这些candidates到gt的scaling/offest和物体类别。(2)第二大类是dense-to-sparse detector,例如R-CNN家族。这类方法的特点是对一组sparse的candidates预测回归和分类,而这组sparse的candidates来自于dense detector
    这两类框架推动了整个领域的学术研究和工业应用。目标检测领域看似已经饱和,然而dense属性的一些固有局限总让人难以满意:

    • NMS 后处理
    • many-to-one 正负样本分配
    • prior candidates的设计
      所以,一个很自然的思考方向就是:能不能设计一种彻底的sparse框架?最近,DETR给出了一种sparse的设计方案。(原文中:Despite the dense convention is widely recognized among object detectors, a natural question to ask is: Is it possible to design a sparse detector?)
      DETR:andidates是一组sparse的learnable object queries,正负样本分配是one-to-one的optimal bipartite matching,无需nms直接输出最终的检测结果,然而,DETR中每个object query都和全局的特征图做attention交互,这本质上也是dense
      而作者认为,sparse的检测框架应该体现在两个方面:sparse candidates和sparse feature interaction。基于此,本文提出了Sparse R-CNN。

Sparse R-CNN抛弃了anchor boxes或者reference point等dense概念,直接从a sparse set of learnable proposals出发,没有NMS后处理,整个网络异常干净和简洁,可以看做是一个全新的检测范式
papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第5张图片

3 Related Work

  • Dense method:滑动窗口在目标检测方面已经流行了很多年。受经典特征提取的技术的限制,数十年来性能已经趋于平衡,应用场景也受到限制。深度卷积神经网络的发展发展出了通用的目标检测方法在性能上实现了明显的提升。one-stage:直接预测anchor box的类别和位置,eg,OverFeat、YOLO、SSD、RetinaNet
  • Dense-to-sparse method:即two-stage detector:在第一阶段, region proposal algorithm起着很重要的作用,eg:Selective Search in R-CNN、Region Proposal Networks (RPN)in Faster R-CNN. 但是也需要NMS等后处理操作
    DETR也可以看做是一个dense-to-sparse的方法
  • Sparse method:可以不用去费力设计 dense candidates,但是性能落后上述方法。eg,G-CNN,性能不是很好。Sparse R-CNN 使用可学习的proposals实现了很好的性能。

4 Advantages/Contributions

沿着目标检测领域中Dense和Dense-to-Sparse的框架,Sparse R-CNN建立了一种彻底的Sparse框架, 脱离anchor box,reference point,Region Proposal Network(RPN)等概念,无需Non-Maximum Suppression(NMS)后处理, 在标准的COCO benchmark上使用ResNet-50 FPN单模型在标准3x training schedule达到了44.5 AP和 22 FPS。

5 Method

5.1.Pipeline

papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第6张图片
Sparse R-CNN是一个简单的、统一的网络,它由一个主干网络、一个动态实例交互头和两个特定任务的预测层组成。总共有三个输入:图像、一组proposal和proposal features。后边两个参数是可学习的,可以和网络中其它的参数共同优化。

5.2.Module

  • Backbone:基于ResNet结构的FPN结构是被用来作为主干网络来从输入图像产生多尺度特征图。
  • Learnable proposal box:固定数量的可学习的proposal boxes(N*4)代替RPN中的预测被当作region proposals。proposal boxes是用一个4维参数来分别表示中心点的坐标、宽度和高度,范围是0-1。 proposals boxes的参数将在训练期间使用反向传播速度来进行更新
  • Learnable proposal feature:虽然4-dbbox用简短和明确的表达来描述对象,但是它仅仅提供了一个目标粗糙的定位,许多细节的信息都已经丢失了,比如目标姿态和形状。本文提出一个 proposal feature,它是一个高维度的隐式向量,期望她被编码成丰富的实例特征。proposal features的数量和boxes是一样的。
  • Sparse R-CNN:Sparse R-CNN的object candidates是一组可学习的参数,N*4,N代表object candidates的个数,一般为100~300,4代表物体框的四个边界。

这组参数和整个网络中的其他参数一起被训练优化。That’s it,完全没有dense detector中成千上万的枚举。

这组sparse的object candidates作为proposal boxes用以提取Region of Interest(RoI),预测回归和分类。
papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第7张图片
Sparse R-CNN的两个显著特点就是sparse object candidates和sparse feature interaction,既没有dense的成千上万的candidates,也没有dense的global feature interaction。

Sparse R-CNN可以看作是目标检测框架从dense到dense-to-sparse到sparse的一个方向拓展。

  • Architecture Design:Sparse R-CNN的网络设计原型是R-CNN家族。

  • Backbone是基于ResNet的FPN。

  • Head是一组iterative的Dynamic Instance Interactive Head,上一个head的output features和output boxes作为下一个head的proposal features和proposal boxes。Proposal features在与RoI features交互之前做self-attention。

  • 训练的损失函数是基于optimal bipartite matching的set prediction loss。

  • Set prediction loss:bipartite matching loss在这里插入图片描述

    • ς c l s \varsigma _{cls} ςcls是预测的类别和GTlabel的focal loss
    • ς L 1 \varsigma _{L1} ςL1 ς g i o u \varsigma _{giou} ςgiou分别是L1 Loss和IOU Loss
    • λ c l s \lambda_{cls} λcls λ L 1 \lambda_{L1} λL1 λ g i o u \lambda_{giou} λgiou分别为2,5,2

6 Experiments

默认情况下, proposal boxes=100, proposal features=100, iteration=6

6.1.Dataset

  • COCO
    • train: train2017 split (∼118k images)
    • evaluate: val2017 (5k images)

6.2.Main Result

papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第8张图片
Sparse R-CNN比Faster R-CNN性能要好很多。DETR和Deformable DETR 一般会采用强大的特征提取方法。 Sparse R-CNN仅仅使用最简单的FPN提取方法也能展现出更好的性能。与DETR相比,Sparse R-CNN在小物体上的效果更好。
papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第9张图片

SparseR-CNN的训练收敛速度比DETR快10倍。与 Deformable DETR相比, Sparse R-CNN展示出更好的精度 (44.5 AP vs. 43.8 AP),更短的运行时间(22 FPS vs. 19 FPS),更短的 training schedule (36 epochs vs. 50 epochs)。

6.3.Module Analysis

  • Learnable proposal box
    papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第10张图片papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第11张图片
    用learnable proposal boxes来替换Faster R-CNN中的RPN,性能从40.2AP下降到18.5AP。
  • Iterative architecture
    papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第12张图片
    papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第13张图片
    papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第14张图片
  • Dynamic head
    papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第15张图片
    papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第16张图片
    papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第17张图片
  • Initialization of proposal boxes: the initialization of proposal boxes plays a key role in Sparse R-CNN
    - Center:表示所有的 proposal boxes开始的时候都处于图像的中心,H和W都设置为图像大小的0.1
    - Image:表示所有的proposal boxes都被初始化为图像的大小
    - Grid:表示 proposal boxes被初始化为图像中常用的网格(G-CNN中的initial boxes)
    - Random:表示boxes的中心、H、W都使用高斯分布来进行随机初始化
    papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第18张图片
    Sparse R-CNN的性能相对于 proposal boxes来说是比较鲁棒的。
  • Number of proposals:proposals的数量对于sparse detectors和 dense detectors来说都是有很大的影响
    papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第19张图片
    100到500性能会逐渐提升,但是500 proposals会需要更长的训练时间,因此本实验中使用的都是100和300。
  • Number of stages in iterative architecture
    papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第20张图片
    随着stage的增加,性能逐渐变好,当stage=6的时候性能达到饱和。实验中stage设置为6。
  • Dynamic head vs. Multi-head Attention
    papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第21张图片
  • Proposal feature vs. Object query
    papperreading:《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》_第22张图片

6.4.The Proposal Boxes Behavior

7 Conclusions

  • R-CNN和Fast R-CNN出现后的一段时期内,目标检测领域的一个重要研究方向是提出更高效的region proposal generator。

  • Faster R-CNN和RPN作为其中的佼佼者展现出广泛而持续的影响力。

  • Sparse R-CNN首次展示了简单的一组可学习的参数作为proposal boxes即可达到comparable的性能。

  • 作者希望这项工作能够带给大家一些关于end-to-end object detection的启发。

你可能感兴趣的:(图像分割论文阅读笔记,python,计算机视觉,大数据)