DD3D论文精读

一、前期准备

3D目标检测合集:https://blog.csdn.net/unbekannten/article/details/127989929

Is Pseudo-Lidar needed for Monocular 3D Object detection?
论文地址:https://arxiv.org/abs/2108.06417
代码地址:https://github.com/TRI-ML/dd3d

二、核心思想

深度预训练缩放+检测框微调训练

三、相关方法

暂略

四、本文方法

网络架构

DD3D论文精读_第1张图片
它扩展了FCOS,以执行3D检测和密集深度预测。由一个主干网和三个子网组成,这些子网在所有多尺度特征中共享。主干以RGB图像为输入,计算不同尺度下的卷积特征,采用特征金字塔网络(FPN)作为主干

4.1 3D检测头

以FPN输出的特征图作为输入,经过4层3x3卷积,对每一个位置预测出12个实数值,分别被解码成3D bounding box(10个值),逐像素深度值(1个),3D预测置信度(1个)。
3D检测头:q=(qw, qx, qy, qz),z{c, q},o=(Δu ,Δv), δ = (δW, δH, δL),β3D
q=(qw, qx, qy, qz)用四元数表示3D边界框朝向,考虑三个角度自由度
zc与 zq表示与深度相关的预测信息,zc表示目标3D边界框中心的Z分量,更像是instance depth,而 zq则是一个逐像素的depth map。其转换公式:
在这里插入图片描述
p可以通过内参计算得到:在这里插入图片描述
学习到的深度不仅仅与图像有关,还与所用到的相机的像素尺寸相关,论文中提到这样设置对于训练的稳定性有帮助。另外,在该设定下,训练时如果对图像执行缩放操作,3D框的GT不需要改变,只需要调整对应的相机内参即可(实际上就是调整每一个像素的尺寸)。
DD3D论文精读_第2张图片
其中,rx和ry为缩放因子,K为新的相机内参矩阵。
o=(Δu ,Δv)表示的是当前特征位置到3D边界框中心点在相机平面上的投影点的距离,可以理解为当前像素点所对应的目标的3D框中心点投影相对于当前像素点的偏移量。根据该偏移量,可以推断出3D框中心点在图像上的投影坐标 (ub+a1Δu, ub+a1Δv),再根据该坐标和预测出来的3D框中心点深度值dc以及相机内参K,可以反投影出3D框中心点的3D坐标。此处,a1是可学习的尺度因子。

δ = (δW, δH, δH) 表示 3D 边界框的大小与特定类别物体的规范大小的偏差。在实际中,每一类具体的物体的物理尺寸通常变化不大,因此可以通过对每一类的物体预设一个尺度(可以在训练集中计算出每一类物体的平均尺寸),然后在此基础上预测尺寸的偏差即可。

β3D表示 3D 边界框预测的置信度,作用是对评估的结果进行过滤。其转换成概率为:在这里插入图片描述
将该概率与classification head中的类别概率相乘,作为最终的得分对检测结果进行过滤。

五、损失函数

暂略

六、实验实施

暂略

七、相关链接参考

https://zhuanlan.zhihu.com/p/406918022
https://blog.csdn.net/weixin_43543177/article/details/123431334
https://blog.csdn.net/Yong_Qi2015/article/details/121506545

你可能感兴趣的:(3D目标检测,3d,计算机视觉,深度学习)