【3D目标检测】Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for AD

目录

  • 概述
  • 细节
    • 一些分析
    • 网络结构

概述

本文是基于图像的3D目标检测算法。
提出动机与贡献:以往基于图像的方法在精度上始终远远低于基于点云的方法,其中的原因一般被认为是基于图像的深度估计效果不好,而作者认为是数据表示的问题,作者将预测到的深度图转换成了伪点云,然后应用基于点云的算法进行检测,得到了远超普通基于图像方法的效果。(当时30m范围内,基于图像方法的SOTA是22%的准确率,本文达到了74%)

ps:以往基于图像的方法,最主要的工作就是模态融合,辅助基于点云的方法得到更好的效果 害!

细节

一些分析

效果上:
左下角是SOTA的基于双目相机的深度估计算法得到的深度图,其实已经能够很好的展现深度信息了。左上角是基于伪点云的方法与基于点云的方法的效果对比,发现检测效果已经很接近了。右边是伪点云与点云的鸟瞰图效果,发现他们对齐的很好(生成的伪点云和原始点云是很接近的)。
【3D目标检测】Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for AD_第1张图片
点云和图像深度相关的分析
激光雷达信号,无论是使用原始点云还是采用鸟瞰图形式,对象的形状和大小对于深度而言是不变的,所以在原始点云中采用3D卷积,以及在鸟瞰图中采用2D卷积是很合理的事情(虽然鸟瞰图中会将不同高度的点聚合到一起,但是一般情况下,这些点都是来自同一个物体的)。
而图像中的深度预测是对每个像素都进行的密集预测,对于远处的物体、微小的物体,是很难进行估计的。
而且卷积的基本假设在深度图中显得不那么契合,一方面相邻像素之间的深度可能会差距很大(相邻像素在3D空间中距离可能非常远),另一方面,深度图中也有多尺度问题(相同深度的目标,占据的像素数可能大不相同),图像中使用FPN之类的方法缓解。

网络结构

网络结构的核心是深度估计、深度图转换为伪点云、基于点云的检测算法,其中第一部分和第三部分可以是任意算法,当然深度估计最好还是用双目图像效果会好一点。
在这里插入图片描述
深度图转换为伪点云:采用下面的公式,将原图上的像素坐标和深度图中的深度值,转换成了点云的空间坐标。(所以伪点云中的每个点对应x、y、z和三个通道的像素值,总共6个特征?)
【3D目标检测】Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for AD_第2张图片

后处理:按照点云的一般高度剔除部分伪点云,另外雷达信号的反射强度在伪点云中全部设置为1了

你可能感兴趣的:(论文学习,其他)