单目3D目标检测论文汇总

基于语义和几何约束的方法

1. Deep3DBox

3D Bounding Box Estimation Using Deep Learning and Geometry [CVPR2017]

  • https://arxiv.org/pdf/1612.00496.pdf
  • https://zhuanlan.zhihu.com/p/414275118

单目3D目标检测论文汇总_第1张图片

核心思想:通过利用2D bounding box与3D bounding box之间的几何约束,结合相机内参以及目标的物理尺寸和朝向信息,构造方程组求解出目标的位置信息

基于2D Box预测3D Box时的假设:3D Box在图像平面上的投影应该与其对应的目标的2D Box紧密贴合。如Figure 2所示,目标的2D Box的四条边都分别包含至少1个3D Box的角点投影

2. CenterNet3D

CenterNet3D: An Anchor Free Object Detector for Point Cloud

  • https://arxiv.org/pdf/2007.07214.pdf

单目3D目标检测论文汇总_第2张图片

CenterNet3D:回归2D框的中心点

Centernet检测头在点云3D检测和BEV检测上也适用,如Centerpoint,BEVDet、BEVDepth

  • 2D框的中心点和3D投影点的位置偏差,距离越近越大,特别是截断物体偏差很大,所以不用2D框中心索引3D信息(不准确)
  • Center3D:
    • backbone:dla3d
    • 分类头:heatmap分类信息,focal loss,分类标签是高斯形状
    • 回归头:8个通道,(1,2,3,2)=(depth,keypoint_量化误差,长宽高,航向角)

3. KM3D

Monocular 3D Detection with Geometric Constraints Embedding and Semi-supervised Training

  • https://arxiv.org/pdf/2009.00764.pdf
  • RTM3D:https://arxiv.org/pdf/2001.03343.pdf

单目3D目标检测论文汇总_第3张图片

KM3D:回归3D投影点+3D数据增强
KM3D的几何推理模块(GRM)代替了RTM3D的后处理

  • 网络结构继承CenterNet,backbone是dla34,回归头类别一样
  • 分类头回归的是3D投影点信息
  • 数据增强:
    • 外观增强(内外参不用变换):颜色抖动,随机mask
    • 几何信息增强(内外参要变换):图像仿射变换,缩放等
    • 3D数据增强
      • 提点最明显:带iou碰撞的Mixup,涨点4.5
      • CutPaste涨点4.2
      • Pix-aug + mosaic掉点,其余的均有涨点
      • Pedestrian和Cyclist因为样本数量较少,不具备参考意义

你可能感兴趣的:(目标检测&实例分割,3d,目标检测,人工智能,自动驾驶)