【2D/3D目标检测】Objects as Points阅读笔记(2019)

1、为什么要做这个研究(理论走向和目前缺陷) ?
有anchor的方法往往需要nms后处理,无法端到端的训练。无anchor的方法,往往也无法避免nms,且往往需要做非常复杂的关键点匹配(如cornernet、extremnet)。
2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ?
提出用关键点预测的方法(即预测热图)重新建模目标检测。将检测目标视为其边界框的中心点,根据热图确定中心点的问题,由于中心点只有一个正例热峰,避免了nms去重,其他如中心点位置偏移、尺寸、角度等都是在此中心点的基础上预测偏移。
3、发现了什么(总结结果,补充和理论的关系)?
提出了CenterNet,无anchor且无nms,模型简单,非常容易拓展到其他任务如3D目标检测、关键点检测。

摘要
2D检测中产生大量候选框且每个都进行处理的做法太低效。本文提出把目标视为一个其边界框的中心点,在此点基础上回归出框的尺寸、3D位置、朝向、甚至姿态。提出centerNet,实现速度与准确率的平衡。

1、引言
无论单阶段目标检测还是两阶段目标检测其后处理(nms)都是不可微的,无法端到端训练。本文将目标检测视为关键点检测的问题。
本文方法就是先把输入图像丢到CNN中生成热力图,然后找出热力图中的热峰,每个热峰对应一个目标物体。此方法很容易拓展到3D任务中。
【2D/3D目标检测】Objects as Points阅读笔记(2019)_第1张图片

2、相关研究
根据区域分类做检测:RCNN、Fast-RCNN
有Anchor的目标检测:Faster RCNN、YOLO等,centernet有点像单阶段的anchor-based检测器,可以将每个热峰视为一个anchor,但是1)分配anchor仅仅是基于位置而非重叠度(overlap),无需设置阈值区分正负例anchor,且2)每个目标只有一个“anchor”,无需NMS,3)输出用于预测的feature map相对传统的比较大。
基于关键点的检测方法:CornerNe、ExtremeNet。
单目3D目标检测:Deep3Dbox,3D RCNN,DeepManta。

3、先验知识
每个GT热图:
其中:R代表热图尺寸相对原始图片缩放比例(4),C代表通道数,标识热峰(目标)的类别(COCO数据时C=80),1代表是热峰,0代表不是热峰。主干网络尝试了多种:hourglass,ResNet,DLA(deep layer aggregation)。
预测时如果有多个热峰(不同通道)重合在一块,取大的那个作为预测的热峰。
热峰预测损失函数用focal loss:
【2D/3D目标检测】Objects as Points阅读笔记(2019)_第2张图片

考虑到预测的热峰只能位于某个固定的像素点上,可能不太准,这个问题在点云中尤其明显,因为点云生成的伪图像的每个像素点代表一个pillar/voxel的中心,范围较大,无法更细的划分,故还需要预测一侧热峰的偏移值。各个类别共用同一个预测的偏移,此偏于训练时采用L1 loss。
在这里插入图片描述
【2D/3D目标检测】Objects as Points阅读笔记(2019)_第3张图片

4、以点为目标
长宽(高)尺寸预测也是L1 loss:
在这里插入图片描述

2D检测总的训练损失:
在这里插入图片描述

从点到边界框
在推断阶段需要先找出所有的热峰,热图上的不小于周围八个临近的点(xi,yi)的值视为热峰,加上预测的位置偏移视为其最终的位置,下式中的sigma*x_hat_i为预测的偏移,w,h为预测的尺寸:
【2D/3D目标检测】Objects as Points阅读笔记(2019)_第4张图片

找热峰是用了3X3最大池化,避免了NMS操作。

4.1 3D检测
单独一个head预测评估目标深度(归一化)。朝向预测做bin内回归,即将朝向范围分为两个bin,在每个bin内都回归一个方向。实际用了8个参数编码朝向,每个bin用了四个参数,其中两个参数用softmax回归目标实际朝向属于这个bin的概率,另外两个参数为(cos(theta),sin(theta))用于编码相对此bin中心线方向的角度偏移。

4.2 人体姿态预测
编码每个人体关键点的位置为相对中心点的偏移。

5、实现细节
实验测试了4种架构:ResNet-18,ResNet-101,DLA-34,Hourglass-104,并对resnet和DLA使用了可变形卷积。

训练:略
推断:略

6、实验
COCO上的实验结果:
【2D/3D目标检测】Objects as Points阅读笔记(2019)_第5张图片

coco验证集:
【2D/3D目标检测】Objects as Points阅读笔记(2019)_第6张图片

COCO测试集:
【2D/3D目标检测】Objects as Points阅读笔记(2019)_第7张图片

有关损失函数、尺寸回归损失权重、训练schedule的消融实验:
在这里插入图片描述

单目3D目标检测:
【2D/3D目标检测】Objects as Points阅读笔记(2019)_第8张图片

6.3 姿态识别
【2D/3D目标检测】Objects as Points阅读笔记(2019)_第9张图片
【2D/3D目标检测】Objects as Points阅读笔记(2019)_第10张图片

你可能感兴趣的:(3D目标检测,自动驾驶,人工智能,深度学习)