CenterPoint|Center-based 3D Object Detection and Tracking阅读笔记

题目:Center-based 3D Object Detection and Tracking
2021CVPR

1.摘要+intro
作者认为3D世界中的目标不遵循任何特定的方向,anchor-based来表示目标的检测器难以枚举所有方向或将轴对齐的边界框匹配到旋转的目标。所以提出了用二阶段的3d检测器CenterPoint,第一阶段CenterPoint提供了两种主干网实现方式,分别为VoxelNet 和PointPillar,网络的输出为基于类的Heatmap、目标的大小、转角和速度。第二阶段它提取3D边界框的每个面的3D中心点特征,为了恢复了由于步长和感受野有限而丢失的局部几何信息,并以较小的代价带来了可观的性能提升。CenterPoint的贡献集中在输出表示上,并与任何3D编码器兼容,可以对它们进行全面改进。

2.method
2.1 Center heatmap head
中心热力图head的目的是为了对任何检测到的目标在它的中心位置产生一个热力图峰值。这个head会产生一个K通道的热图,代表K个类别。在训练中,它的标签是通过将标注的bounding box的3D中心投影到map视图(世界坐标系)中来产生的2D高斯。因为在map视图中,距离是绝对的,但在图像视图中,几个大对象可能会占据屏幕的大部分。所以作者在这如果继续沿用centerpoint的热力图方法,则会使得标签非常稀疏,因为大多数位置被认为是背景。所以作者通过放大每个ground truth目标中心的高斯半径来解决这个问题(对中心点预测的损失函数有好处),使得模型从附近的像素获得了更密集的监督。

2.2 Regression heads
作者在目标的中心特征处存储了以下几个目标属性:a sub-voxel location refinement(为了减少主干网络体素化和stride带来的量化误差);离地高度(为了帮助在3D中定位目标,并添加了地图视图投影删除的丢失的高程信息);3d的size;yaw旋转角度(方向预测是将yaw角的正弦和余弦作为连续回归目标,)

2.3 Velocity head and tracking
为了通过时间跟踪目标,模型学习预测每个检测到的目标的二维速度估计,作为额外的回归输出。跟踪的匹配是通过应用估计的速度的负值将当前帧中的目标中心投影回前一帧,然后通过近距离匹配将它们与跟踪的目标匹配。但由于所以目标的属性都是通过目标中心特征推断出来的,但是存在一个问题,例如,在自动驾驶中,传感器通常只看到物体的侧面,而看不到它的中心。所以作者提出了通过使用第二个refine阶段和一个轻量级的点特征提取器(就是指的第二阶段提取的4个外立面中心点和框中心点的操作)来改进中心点。

2.4 Two-Stage CenterPoint
作者使用未更改的CenterPoint作为第一阶段。第二阶段从backbone的输出中提取了额外的点特征(从预测的3d框的每个面的三维中心提取一个点特征。需要注意的是边界框的中心、顶面和底面的中心投影到地图视图中都是对应的同一个点,所以作者只考虑四个面向外的盒面和预测的3d目标框中心)。具体来说就是,对于每个点使用双线性插值法从backbone的map视图输出中提取一个特征(这的特征可以理解为RGB图像中(x,y)坐标对应的rgb值),然后将提取的点特征concat起来,并将它们传递给MLP,第二阶段就是在第一阶段中心点预测结果的基础上,预测class-agnostic的置信度分数(即只能进行前景与背景的检测)和box的refinement。在推理阶段,最终的预测置信度是第一阶段的类别热力图和第二阶段的class-agnostic置信度分数的几何平均数。对于box的回归,按作者的意思应该是以第一阶段proposals和gd的差距作为label,网络预测refinement,用L1 loss。

3.Waymo测试集结果
CenterPoint|Center-based 3D Object Detection and Tracking阅读笔记_第1张图片

你可能感兴趣的:(论文,目标检测,计算机视觉,3d,深度学习,自动驾驶)