GUP Net论文精读

一、前期准备

3D目标检测集合:https://editor.csdn.net/md/?articleId=127989929

Geometry Uncertainty Projection Network for Monocular 3D Object Detection
论文地址:https://arxiv.org/abs/2107.13774
代码地址:https://github.com/SuperMHP/GUPNet

二、核心思想

面临问题:1.推理的可靠性。几何投影引入误差放大问题;2.模型训练的不稳定性。每个任务的训练的多少取决于其前置任务的训练情况,只有说有前任务训练良好时,每个任务才得到训练。
几何不确定性投影(GUP)模块层次任务学习(HTL)策略的几何不确定性投影网络

三、相关工作

暂略

四、本文方法

解决问题

投影模型引入几何信息,在估计深度时采用dp = f * h3d/h2d。其中f是相机焦距,h3d是物体的3D高度,h2d是物体的2D高度。在该关系下,depth估计可以转化为先估计h3d与h2d,再通过投影的方式得到。
GUP Net论文精读_第1张图片
本文解决的问题其实是投影模型中的误差放大现象。我们对投影模型的输入加入一个微小的偏置,其输出则会变成原始的投影结果与偏置项引发的depth误差的和:
GUP Net论文精读_第2张图片
depth的估计不确定性高,其输出可靠性差。输出可靠性差会使得其得分/不确定性难以预测,对物体检测的训练与测试两个过程产生不同影响。
针对上述问题,GUP用于处理推断可靠性问题,HTL用于处理模型训练稳定性问题

网络架构

GUP Net论文精读_第3张图片
输入图像首先经过backbone提取出2d的bounding box,然后该bounding box经过ROI Align后提取出ROI特征,该特征会与3D坐标系进行concatenate从而获得最终的ROI特征,所有的3D信息推断均会在此ROI特征上进行。我们首先估计出3D box除了depth以外的所有参数。然后2D与3D bounding box的高度将被输入到GUP模块中提取出最终的depth,训练阶段HTL将会对每个部分进行控制从而实现multi-task learning。

4.1 2D检测+ROI特征提取+基础3D检测头

前端的2D检测器是基于CenterNet,其输入一个2D heatmap以及2D box的长宽和位置修正量。之后对每个2D的ROI,使用ROI Align获得特征,再与坐标图结合即获得了全部的2D Roi。之后偏航角,3D box尺寸以及3D投影中心点的offset会被3D头计算。

4.2 GUP模块

之前的方法只会输出单一的深度值,本文的GUP模块输出深度值+不确定度,这里的不确定度是用来表征当前深度值的可靠性。具体做法是预测物体3D高度 → 做映射得到深度值 → 预测偏移量 → 深度值+偏移量得到最终的不确定度
GUP Net论文精读_第4张图片

4.3 HTL模块

在训练开始时,对h2d和h3d的预测都很不准确,会误导整体训练,损害训练表现。因此提出了一个多级task学习(HTL)策略来进行multi-task learning(MTL)。一个task的训练要有它的先制任务(pre-task)的训练状态决定,如果先制任务训练完成,则当前任务展开训练。多采用项式时间调度函数作为加权函数。

五、损失函数

暂略

六、实验实施

暂略

七、相关参考链接

https://zhuanlan.zhihu.com/p/406425323
https://zhuanlan.zhihu.com/p/397105796
https://zhuanlan.zhihu.com/p/452444655
https://blog.csdn.net/amusi1994/article/details/120093410
https://blog.csdn.net/Yong_Qi2015/article/details/119769762
https://www.ngui.cc/article/show-699092.html?action=onClick

你可能感兴趣的:(3D目标检测,计算机视觉,深度学习,人工智能)