CVPR 2018|Frustum PointNets for 3D Object Detection from RGB-D Data论文笔记

Frustum PointNets for 3D Object Detection from RGB-D Data
作者单位:Stanford University
CVPR 2018

1.摘要+intro
以往的3d目标检测的方法,主要是基于图像或三维体素上,往往模糊了自然的三维模式和三维数据的不变性。所以作者表示要基于原始点云进行操作,如何有效地生成3D对象在3D空间中的可能位置是一个难点还没人解决。所以作者提出了一种新的基于RGB-D数据的三维目标检测框架Frustum PointNets。

2.Method
本文的三维物体检测系统由三个模块组成:Frustum Proposal、三维实例分割和3D amodal bounding box estimation。
2.1 Frustum Proposal
利用已知的相机投影矩阵,2D边界框可以被lift到3D搜索空间的视锥体。视锥体具有由深度传感器范围指定的近平面和远平面。然后,收集视锥体内的所有点,形成一个视锥体点云。因为可能朝向许多不同的方向,这样就使得点云位置发生很大变化。所以作者进行了所谓的标准化,作者认为有助于提高算法的旋转不变性,将视锥体旋转至中心视图(即使得视锥体的中心轴与图像平面垂直)
2.2 3D Instance Segmentation
有些方法是通过图像区域获得目标的3d视锥点云区域,直接在3d视锥点云中回归目标3d位置,然而这个问题并不容易,因为遮挡物体和背景杂乱在自然场景中是很常见的,严重分散3D定位任务的注意力。所以作者先进行了实例分割,把前景分割出来,至于为什么不在图像中分割,这是因为在图像中来自远距离物体的像素可以彼此靠近。而物体在物理空间中是自然分离的,所以在三维点云中分割比在图像中分割要自然得多。作者使用基于PointNet的网络对视锥体中的点云实现了3D实例分割。有了分割结果,回归的范围就大大减小,只在mask范围进行回归。
3D Instance Segmentation PointNet
该网络将点云建立在圆锥体中,并预测每个点的概率分数,该概率分数指示该点属于感兴趣对象的可能性有多大。因为每张图像都是2d检测后提取出的结果,所以每个锥体正好包含一个感兴趣的对象。在多类检测的情况下,作者还利用来自2D检测器的结果来进行更好的实例分割。例如,如果我们知道感兴趣的对象是行人,那么分割网络可以事先使用这一点来找到看起来像人的几何图形。在3D实例分割之后,提取被分类为感兴趣对象的点,并对它们的坐标进行标准化,以增加算法的平移不稳定性(通过用点云的质心减去XYZ值来将点云转换为局部坐标)

2.3 Amodal 3D Box Estimation
Learning-based 3D Alignment by T-Net
即使我们已经根据分段的对象点的质心位置对齐了它们,我们发现掩模坐标系的原点可能仍然离波形盒中心相当远,所以使用一个轻量级的回归点网(T-Net)来变换质心,使预测的中心成为新的原点。
CVPR 2018|Frustum PointNets for 3D Object Detection from RGB-D Data论文笔记_第1张图片

Amodal 3D Box Estimation PointNet
3D边界框参数是中心(Cx,Cy,Cz)、大小(h,w,l)和方向角θ。bbox中心的绝对坐标的计算比较特殊!由下面公式得到。
在这里插入图片描述
box大小和角度和faster-rcnn的一样,使用分类和回归公式的混合。网络最终全连接层输出的个数3+4×NS+2×NH。NH和NS表示的是预设的尺寸个数和角度个数。作者这在求bbox的size和heading angle的loss的时候一个对应分类,一个对应回归。所以这4NS应该看作NS+3NS,NS对应size的第几个分类,3NS对应回归每个类别的尺寸的残差。2NH同理。

2.4 loss部分
作者考虑到bbox的中心和大小被准确地预测,但是航向角度是不正确的,但可能angle loss(航向角)已经优化不下去了。这时loss被angle loss主宰。但如果这三个条件(中心、大小、航向角)同时能联合优化就可以解决这个问题。就可以获得最佳的3D bbox估计(在IOU度量下)。作者提出了新的正则化损失(Corner Loss),角点损失是预测框的八个角与gd框之间距离的总和。由于角点位置是由中心、大小和航向共同决定的,因此能起到正则化作用。

你可能感兴趣的:(论文,3d,目标检测,计算机视觉)