Pseudo-LiDAR from Visual Depth Estimation 论文笔记

Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving

论文链接: https://arxiv.org/abs/1812.07179

一、Problem Statement

基于雷达的3D目标检测可以较为精准但是依赖昂贵的雷达设备,而基于单目或者双目摄像头的3D目标检测精度低。作者认为是深度估计表示的问题,而不是深度估计的数据和雷达数据有很大差异的问题。

二、Direction

作者提出把image-based的深度图转换为伪雷达的表示方法,然后使用Lidar-based的检测算法。

三、Method

三个步骤:

  1. 利用单目或者双目图像进行深度估计(PSMNET),得到深度图。
  2. 把深度图转换为3D 点云, 也就是pseudo-lidar。
    这一步包括通过双目图像预测深度图,然后基于深度图生成点云,所生成的点云需要进行一些后处理。
  3. 利用Lidar-based 3D目标检测算法进行目标检测。
    用当前的目标检测算法,AVOD 或者frustum PointNet。

Pseudo-LiDAR from Visual Depth Estimation 论文笔记_第1张图片

有意思的一点是:作者认为尽管pseudo-lidar和深度图传递了同样的信息,但是pseudo-lidar更适合于3D目标检测。

在图像或深度图上操作的卷积网络在图像/深度图上执行2D卷积序列。尽管卷积的滤波器是可以学习的,但中心假设有两个方面:(a)图像中的局部邻域有意义,网络应该看local patches,(b)所有邻域都可以以相同的方式操作。

这些只是不完美的假设。首先,二维图像上的local patches 只有完全包含在单个对象中时才具有物理上的一致性。如果它们跨越对象边界,那么两个像素可以在深度图中相邻地位于同一位置,但在三维空间中可能非常遥远。 其次, 存在多个深度值的目标在深度图中投影到不同的比例。 例如,同样大小的patch可能只捕捉到附近汽车的侧视镜或远处汽车的整个车身。

作者做了一个实验,下图中左边一列是原始的深度图和其对应的pseudo-lidar。对原始深度图采用卷积操作后得到了右上角的深度图,然后将其生成pseudo-lidar(右下角)。可以看见,经过卷积后的深度图产生很大的深度变形。
Pseudo-LiDAR from Visual Depth Estimation 论文笔记_第2张图片

四、Conclusion

个人认为这是一篇很工程化的论文,没有过多的理论的东西,只是把多个存在的算法如深度估计算法,3D目标检测算法融合在了一起,并尝试多次实验,但在实际项目中可以很好的利用其中的思想和算法。

References

你可能感兴趣的:(3D目标检测论文笔记,人工智能,计算机视觉,深度学习)