论文解读笔记--CenterNet :Objects as Points

论文解读笔记--CenterNet :Objects as Points

  • Abstract
  • Introduction
  • The work details
  • Performance

论文地址:https://arxiv.org/pdf/1904.07850.pdf
代码:https://github.com/xingyizhou/CenterNet


Abstract

大多数成功的目标检测器穷举出几乎详尽的潜在目标位置,并对每个位置进行分类。这种做法费时、低效,并且由于需要额外的后处理而不能实现完全end-to-end。现在目标检测领域刮起了一股anchor-free的风潮。CenterNet 就是其中一个代表,只用目标的中心点建模。首先使用关键点估计来找到中心点,然后回归到所有其他对象属性,如大小、3D位置、方向,甚至姿态。CenterNet是端到端可微的,比基于边界框的检测器更简单、更快、更准确。


Introduction

本文中,目标检测问题变成了一个标准的关键点估计问题。只需将图像馈入一个全卷积网络,就可以生成热图。热图中的峰值即物体的中心点。边界框大小和其它的目标属性从峰值点的特征推断出来。模型训练使用标准的密集监督学习。推理用单个网络前向传递,不需要非极大值抑制NMS进行后处理。

CenterNe还可以扩展到其他任务。
对于三维物体检测直接回归得到目标的深度信息,3D框的尺寸,目标朝向
对于多人姿态估计将二维关节点(2D joint)位置看作是从中心向外的偏移量,并直接在中心点位置回归出这些偏移量的值。

与同为关键点估计网络的CornerNet和ExtremeNet 的不同之处:

  • CornerNet将bbox的两个角作为关键点;ExtremeNet 检测所有目标的最上,最下,最左,最右,中心点;它们都需要经过一个关键点组队阶段,这会降低算法整体速度;
  • 而我们的算法仅仅提取每个目标的中心点,无需对关键点进行grouping或者是后处理;

The work details

论文解读笔记--CenterNet :Objects as Points_第1张图片
模型图 :方框中的数字代表了图像的步长。(a):沙漏型网络,和CornerNet中作用一样。(b):带有转置卷积的ResNet,类似于先下采样再上采样。在每个上采样层之前增加了一个3x3可变形卷积层。具体来说,就是首先使用可变形卷积来改变通道,然后使用转置卷积对feature map进行上采样(这两个步骤分别在32 - 16,16- 8和8-4中展示). ©:用于语义分割的原始DLA-34。(d):作者修改的DLA-34,在底层增加了更多的skip连接,并在上采样阶段将每个convolutional layer升级为deformable convolutional layer。

目标就是创建一个特征图 Yˆ ∈[0, 1] (W/R)× (H/R)×C , 其中 R 是输出的步长(尺度) and C is the number of keypoint types. 1就是代表是关键点,0代表是背景。

  1. 类损失函数用的focal loss
    论文解读笔记--CenterNet :Objects as Points_第2张图片
  2. 框的损失
    关键点是目标框的中心点
    论文解读笔记--CenterNet :Objects as Points_第3张图片
    所以框的大小是
    -在这里插入图片描述
    那么框的损失大小定义为:
    在这里插入图片描述
  3. offset损失
    由于输出尺度的精度四舍五入问题,为每个中心点作offset
    在这里插入图片描述
  4. 总损失
    在这里插入图片描述

Performance

在MS COCO数据集上实现了最佳的速度精度权衡。在142 FPS时的精度为28.1%,采用的是Resnet18+反卷积,没有特殊设计;在52 FPS时的精度为37.4%,采用的是DLA-34;在1.4 FPS时多尺度测试的精度为45.1%,采用的是Hourglass-104。作者还使用CenterNet 来估计KITTI基准和COCO keypoint数据集上的人体姿态的三维边界框。该方法具有与复杂多阶段方法相竞争的性能和实时性。
论文解读笔记--CenterNet :Objects as Points_第4张图片

你可能感兴趣的:(目标检测,CenterNet)