LiDAR R-CNN: An Efficient and Universal 3D Object Detector

2021-04-03

图森未来提出Lidar R-CNN 高效且通用的3D目标检测器。性能优于PV-RCNN和PointPillars

好久没有看新的文章了,提醒自己每周都要有所进步,常常关注文章。

要点:

1. lidar RCNN主要创新点在second stage,文章中称为 point based RCNN , 任何其他的模型都可以将其second stage替换为lidar RCNN提出的head。文章中将此head夹在任何一个detector的后面都能提升效果。

2. 实时性,准确率高,属于point based,不是voxel based. 效率高到,可以在2080Ti上,每帧128个proposal的前提下,运行到200fps. 

3. 提出point based算法的一个通病:point based算法基于pointNet或者PointNet++得出的cloud的局部或整体的feature,忽略掉了proposal 尺寸的信息,所以两个不同尺度的proposal,即使点云密度及形状不同,理论上依然可以通过point based的算法得到相同的feature。这个通病在原文里用size ambiguity problem来指代。提出了解决的思路, 提出了很多方法,这些方法的出发点和目的主要是让point Net能够aware of the size of proposal box。

4. 文章中如何使用的RCNN的思路? 使用的feature是dNN之后的还是原始的点?直接用PointNet效果号吗?答:将每个预测好的框作为proposal;原始的点,而不是dnn之后的特征;直接用PointNet对每个proposal的原始点提取特征,效果并不好。

5. point based RCNN 的作用是什么? 答:之前的detector给出proposals,而point based RCNN只需要计算bbox(7个数,中心,size,朝向)和classification score。

6。 proposal的使用,需要扩大到proposal周围多大的范围?proposal还有什么其他的操作?答:扩大了一些范围,这个范围一般会将地面的点也囊括进来扩大多大,看后文;Normalization操作,即proposal里面的点的坐标都需要进行转换,转换到bbox中心的坐标系;为每个点增加metadata操作

7. point based RCNN被分为几个部分?其中里面的PointNet用了什么网络?Input,backbone和两个head三部分;两个head分别预测bbox和classification;其中PointNet,也就是backbone部分;里面的PointNet用了三层全连接网络,网络的层数算是一个超参数,在其他的代码实现里如OpenPCDet里面的pfe层里面的pointnet,默认的配置下就是1层全连接而已。

8. softmax cross entropy loss

softmax cross entropy loss

    B-代表batch size;i 是

回顾领域要点:

1. 点云irregular,

2. voxel based 将点云变得有序,但是构建voxel或者BEV过程中的error会限制此类方法的效果。代表性的算法SECOND,VoxelNet,PointPillars,还提到一个2020年的3D-NAS

3. point based算法,虽然可以直接利用raw points来预测,但是pointNet++这种方式来提取不同scale的特征限制了此类方法的速度,运算量大,效率低。所以很多文章都是将point based的方法与voxel based算法一起使用的。


单词: 

resort to 依赖于,凭借于

overlooked 忽略的,不理会的

remedy 补救,解决

intriguing 迷人的,有趣的

off-the-shelf 现成的

albeit 尽管虽然

你可能感兴趣的:(LiDAR R-CNN: An Efficient and Universal 3D Object Detector)