LiDAR R-CNN: An Efficient and Universal 3D Object Detector

2021-04-03

图森未来提出Lidar R-CNN 高效且通用的3D目标检测器。性能优于PV-RCNN和PointPillars

好久没有看新的文章了，提醒自己每周都要有所进步，常常关注文章。

要点：

1. lidar RCNN主要创新点在second stage,文章中称为 point based RCNN , 任何其他的模型都可以将其second stage替换为lidar RCNN提出的head。文章中将此head夹在任何一个detector的后面都能提升效果。

2. 实时性，准确率高，属于point based，不是voxel based. 效率高到，可以在2080Ti上，每帧128个proposal的前提下，运行到200fps.

3. 提出point based算法的一个通病：point based算法基于pointNet或者PointNet++得出的cloud的局部或整体的feature，忽略掉了proposal 尺寸的信息，所以两个不同尺度的proposal，即使点云密度及形状不同，理论上依然可以通过point based的算法得到相同的feature。这个通病在原文里用size ambiguity problem来指代。提出了解决的思路, 提出了很多方法，这些方法的出发点和目的主要是让point Net能够aware of the size of proposal box。

4. 文章中如何使用的RCNN的思路？使用的feature是dNN之后的还是原始的点？直接用PointNet效果号吗？答：将每个预测好的框作为proposal；原始的点，而不是dnn之后的特征；直接用PointNet对每个proposal的原始点提取特征，效果并不好。

5. point based RCNN 的作用是什么？答：之前的detector给出proposals，而point based RCNN只需要计算bbox（7个数，中心，size，朝向）和classification score。

6。 proposal的使用，需要扩大到proposal周围多大的范围？proposal还有什么其他的操作？答：扩大了一些范围，这个范围一般会将地面的点也囊括进来扩大多大，看后文；Normalization操作，即proposal里面的点的坐标都需要进行转换，转换到bbox中心的坐标系；为每个点增加metadata操作

7. point based RCNN被分为几个部分？其中里面的PointNet用了什么网络？Input,backbone和两个head三部分；两个head分别预测bbox和classification;其中PointNet,也就是backbone部分；里面的PointNet用了三层全连接网络，网络的层数算是一个超参数，在其他的代码实现里如OpenPCDet里面的pfe层里面的pointnet，默认的配置下就是1层全连接而已。

8. softmax cross entropy loss

softmax cross entropy loss

B-代表batch size；i 是

回顾领域要点：

1. 点云irregular,

2. voxel based 将点云变得有序，但是构建voxel或者BEV过程中的error会限制此类方法的效果。代表性的算法SECOND，VoxelNet，PointPillars，还提到一个2020年的3D-NAS

3. point based算法，虽然可以直接利用raw points来预测，但是pointNet++这种方式来提取不同scale的特征限制了此类方法的速度，运算量大，效率低。所以很多文章都是将point based的方法与voxel based算法一起使用的。

单词:

resort to 依赖于，凭借于

overlooked 忽略的，不理会的

remedy 补救，解决

intriguing 迷人的，有趣的

off-the-shelf 现成的

albeit 尽管虽然

LiDAR R-CNN: An Efficient and Universal 3D Object Detector

你可能感兴趣的:(LiDAR R-CNN: An Efficient and Universal 3D Object Detector)