三维目标检测论文阅读:PIXOR: Real-time 3D Object Detection from Point Clouds

PIXOR: Real-time 3D Object Detection from Point Clouds

论文链接:http://www.cs.toronto.edu/~wenjie/papers/cvpr18/pixor.pdf

代码链接:https://github.com/Yachao-Zhang/PIXOR

摘要:本文是18年CVPR,时间比较久了网上解读版本很多,本文只是记录一下在阅读论文时感觉比较重要的部分细节。该文的主要思想是想利用已有的2D卷积技术实现快速的点云三维目标检测,即通过将雷达数据转化为img形的矩阵,利用修改后的网络模型(backbone和head)实现类别预测和位置回归;主要流程看下图:

三维目标检测论文阅读:PIXOR: Real-time 3D Object Detection from Point Clouds_第1张图片

1、点云转化为img形的矩阵(Input representation):

可以从上图看出,这个representation包含有很多的二维的矩阵,具体是36个,类别RGB图像的3个矩阵的叠加,其中35个是 强度特征,1个是反射率特征,这两个特征在muti-view 3D目标检测一文中有详细说明。强度特征矩阵的大小是如何定义的,选取一个感兴趣的区域(矩形的)长宽高分别为L W H,那么为了能够使其像素化,需要将这个大的区域分为若干个小区域的拼接,统计每个小区域中的点的个数为最后的像素值;划分的分辨率分别为:举例来说,对于[0,70],[-40-40], [-2.5-1]米这个感兴趣区域,划分分别率为0.1米,那么这个Input representation就变为了700*800*35了,另外一个是反射率特征是针对整个高度上的一个特征,所以其Z轴上为一个单位,长宽不变,所以有700*800*1,这也就是网络的输入为700*800*36的原因;这一设计比较好,可以直接使用2D卷积,但也并非先创。

一个重要假设:所有目标均在地面上,上面的点才能表述目标的高度信息;没有这个假设,本文模型的特征表示不成立;当然这个假设也符合客观事实:人、车等不会飞;

2,网络模型

三维目标检测论文阅读:PIXOR: Real-time 3D Object Detection from Point Clouds_第2张图片

网络模型使用的是全卷积的设计,至于为什么不用pooling layer,它主要用来减低特征维度和改变感受野的大小,RGB图像通常采用16倍的下采样,是因为图像特征密集,16倍之后依然能够具备很好的特征表达能力,但是点云不一样,目标区域较小,点云稀疏,对于一个行人来说,16倍的下采样之后就剩下3个“像素”了,如何过完备表示!本文也使用了16倍的下采样,具体如下:

三维目标检测论文阅读:PIXOR: Real-time 3D Object Detection from Point Clouds_第3张图片

第一点增加更多小通道数的卷积层:发觉细致的特征;第二点使用特征金字塔:将低分辨率和高分辨率的特征图融合,对不通尺寸的目标具有鲁棒性;这两点也是图像目标检测的敢用做法。

特征图的变化(长):800-->400-->200-->100-->50-->100-->200(后面检测头部分保持不变,200之后的部分有特征图融合)

检测头:参数共享比较好(实验结论)。

三维目标检测论文阅读:PIXOR: Real-time 3D Object Detection from Point Clouds_第4张图片

3 航向角

因为航向角要回传,就要保证航向角的连续性,这里用sin(theta)和cos(theta)表示,因为theta=

所以上面检测头的部分一共有6+1个输出(,和一个类别);

三维目标检测论文阅读:PIXOR: Real-time 3D Object Detection from Point Clouds_第5张图片

训练损失:

三维目标检测论文阅读:PIXOR: Real-time 3D Object Detection from Point Clouds_第6张图片

分类任务中正、负样本都参与,回归只用正样本;

你可能感兴趣的:(点云论文阅读,三维目标检测,Point,cloud,3D,Object,detection,LIDAR)