RTM3D论文精读

一、前期准备

3D目标检测集合:https://blog.csdn.net/unbekannten/article/details/127989929

RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving
论文地址:https://arxiv.org/pdf/2001.03343.pdf
代码地址:https://github.com/Banconxuan/RTM3D

二、核心思想

建立网络预测8个顶点和3DBBox中心投影的9个2D关键点,同时将重投影误差最小化以找到最佳结果 。

三、相关工作

3.1 基于激光雷达方法

3.2 基于图像的三维对象检测的额外数据或网络

一般使用线框模板来表示常规形状的车辆,该模板是从大量CAD模型获得的。为了训练关键点检测网络,需要重新标记数据集,甚至使用深度图来增强检测能力。将线框模型视为先验信息,通过四个不同的网络共同优化2D box,2D关键点,3D方向,尺度假设,形状假设和深度。不能实时处理。

3.3 仅图像的单目3D检测

3.4 基于关键点的单目3D检测

四、本文方法

4.1 关键点检测网络

输入:RGB图像
输出:主要中心heatmap、顶点heatmap和顶点坐标

包含三个主要部分:主干网络、关键点特征金字塔网络和检测头。主要结构采用单步策略,与anchor-free 2D目标检测器[38, 16, 47, 19]采用相似分布,从而进行快速检测。
RTM3D论文精读_第1张图片
1)主干网络
采用ResNet18和DLA34两种。利用U-Net结构的跨连接层将backbone下采样4倍。
2)关键点特征金字塔
关键点特征金字塔网络(KFPN)来检测点向空间中的尺度不变关键点。假设我们有F尺度的特征图,我们先将每个尺度f,1 在这里插入图片描述
RTM3D论文精读_第2张图片
3)检测头
由三个基本组件和六个可选组件组成。选择一个关键点(2D框中心点)作为连接所有特征的主要中心。
Heatmap定义为M ∈ [0, 1] H/S × W/S ×C。C为目标种类的数量
三维顶点和三维中心点投影出的9个透视点V,对于一个目标的关键点整合,从maincenter的局部偏移Vc进行回归作为标志,将距离Vc坐标最近的关键点作为一个对象的集合。
中心偏移Mos和顶点偏移Vos是heatmap中对每个关键点的离散误差
基于MultiBin方法对局部方向进行回归,将局部角度的余弦偏移和正弦偏移概率在1个bin中进行分类,使用2个bin生成方向特征图。对3DBBox中心深度Z回归。

4.2 3DBBox估计

由特征点检测网络给出9个特征点kpij、物体尺寸Di、方向 θi和中心点深度Zi。旋转量R、平移量T、尺寸D,其公式如下:
RTM3D论文精读_第3张图片

五、损失函数

暂略

六、实验实施

暂略

七、相关链接参考

https://blog.csdn.net/unbekannten/article/details/125548870
https://blog.csdn.net/qq_42518956/article/details/104883665
https://blog.csdn.net/beneficial/article/details/125012623
https://py1995.blog.csdn.net/article/details/119408692
https://zhuanlan.zhihu.com/p/105554165
https://zhuanlan.zhihu.com/p/580488962
https://blog.csdn.net/qq_26623879/article/details/104230215

你可能感兴趣的:(3D目标检测,3d,深度学习)