SMOKE论文精读

一、前期准备

3D目标检测集合:https://blog.csdn.net/unbekannten/article/details/127989929

SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation
论文地址:https://arxiv.org/pdf/2002.10111.pdf
代码地址:https://github.com/lzccccc/SMOKE

二、核心思想

不考虑二维检测,消除了2D检测的影响,估计在图像平面投影的3DBox中心点+多步骤的3DBox求解
而论文Delving into localization error 中证明了2D检测的必要性(帮助3D检测学习到共享特征),所以smoke中去掉2D检测模块的做法有待商榷。

三、相关工作

3.1 基于激光雷达和激光雷达图像融合方法

暂略

3.2 基于立体图像方法

暂略

3.3 基于单目图像方法

1)引入额外的3D网络分支
2)依赖2D检测特征
3)将图像感兴趣区域转化为其他表现形式作为特征
4)其他

四、本文方法

SMOKE网络模型
输入:RGB图像
输出:C、B=(h, w, l, x, y, z, θ)。
其中,C表示对象类别,(h, w, l)为尺寸,(x, y, z)为目标中心的相机坐标,θ为航向角(全局)

SMOKE论文精读_第1张图片
backbone接两个head,分别为分类head(heatmap)和回归head

4.1 骨干网络

使用DLA-34作为骨干网络提取特征,用组规范GN替换了所有的批处理规范BN操作

4.2 3D检测网络

1)关键点检测分支
关键点被定义为目标3D框的中心点在图像平面上的投影点,而不是目标的2D框中心点
关键点坐标(xc, yc),则其与目标在相机坐标系下的位置(x, y, z)之间的关系为
SMOKE论文精读_第2张图片
2)回归分支
3D框回归分支用于预测与构建3D边界框相关的信息,该信息可以表示为一个8元组:(δz, δxc, δyc, δh, δw, δl, sin α, cos α ),其中 δz 表示目标的深度偏移量,由于网络中进行了特征图下采样,下采样后的特征图上的关键点坐标基于预定义的关键点坐标执行离散化下采样得到,但是这样计算出来的关键点坐标会存在误差,因此论文中设置了两个预测量 δxc和 δyc,分别表示在下采样后的特征图上的关键点坐标在x和y方向的偏移量,δh, δw, δl表示目标体积值的残差,sin α, cos α 是目标旋转角的向量化表示。

目标朝向角在Deep3DBox中KITTI数据集中所定义的σx,而此文为σz。以车辆为中心构造世界坐标系,世界坐标系的原点是车辆的中心点,以车头方向作为世界坐标系的x轴方向,以车辆的正上方作为世界坐标系的y轴方向,以车头左侧垂直方向为世界坐标系的z轴方向,那么 σx表示的是世界坐标系的x轴与相机和车辆中心连线所构成的射线的夹角,同理, σz表示的是世界坐标系的z轴与相机和车辆中心连线所构成的射线的夹角。

五、损失函数

暂略

六、实验实施

暂略

七、相关链接参考

https://zhuanlan.zhihu.com/p/562459506
https://zhuanlan.zhihu.com/p/438144031
https://zhuanlan.zhihu.com/p/519383342
https://cloud.tencent.com/developer/article/1798733
https://zhuanlan.zhihu.com/p/452676265
https://blog.csdn.net/weixin_56836871/article/details/122527251
https://blog.csdn.net/weixin_39326879/article/details/112298193

你可能感兴趣的:(3D目标检测,计算机视觉,深度学习,人工智能)