【论文】RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction

CVPR2021

Semantic Instance Reconstruction任务包括恢复场景几何,目标定位和重建。
It focuses on recovering the object labels, poses and geometries of objects in a 3D scene from partial observations (e.g. images or 3D scans).

RfD模型是端到端的模型,直接从raw point clouds进行detect和reconstruct。
将语义实例重建问题解耦成全局目标定位局部形状预测

1、Introduce

【论文】RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction_第1张图片
对此图的理解:
输入(左):raw point cloud。
目标语义分割(中):由原始点云数据,对物体进行定位、聚合和对齐。
重建(右):每个检测框看作一个局部,对每个局部进行重建。

2、Related Work

  1. Shape Completion:形状补全旨在恢复目标物体缺失的集合部分(这个物体往往只经过局部扫描)。
  2. Scene Completion:场景补全旨在从不完全扫描中预测所有 可见或不可见的 物体。
  3. Instance Reconstruction:实例重建不仅要求恢复场景几何,还要求对场景中目标的定位和重建。

3、Method

【论文】RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction_第2张图片

Module 1 3D Detector

input:点云数据 N*3
3D proposal Network Backbone:VoteNet
proposal features:VoteNet生成的提议特征,这Np个Dp维的特征总结了语义信息和box的几何信息,比原始点云数据有更高的抽象程度。跳转传播到后面的Shape Generator模块有三个好处:①有助于检测到生成的反向梯度回传②使生成器可以融合全局和局部的特征。
Box proposals:由propoal features经过Box regression(两层全连接层)得到Box proposals(Np个Nb维),也就是Np个目标检测框,Nb维信息包括 检测框中心 c ∈ R 3 c{\in}R^3 cR3,尺度 s ∈ R 3 s{\in}R^3 sR3 ,头朝向 θ ∈ R {\theta}{\in}R θR,语义标签 l l l和 对象度评分 S o b j S_{obj} Sobj。检测框的 对象度评分 S o b j S_{obj} Sobj<0.3m时就看作是正样本框, S o b j S_{obj} Sobj >0.6m时就是负样本框。

Module 2 Spatial Transformer:

input:前面的生成的Np个Box
objectness dropout:使用Top-N的dropout策略,将 S o b j S_{obj} Sobj比较高的框保留Nd个(Nd大概设为10)。这么做的原因是点云具有稀疏性,所以很多检测框里面都是只有很少的点,即负样本框。所以最后只剩下Nd个框,每个框和之前一样还是Nb维。
Group&Align:①Group:positive proposals是只是Nd个检测框,从前面将所有点接过来,就形成了原点云数据+检测框的情况。以检测框的中心为球心,包Mp个点进去,类似于pointnet++那种提取局部结构的方法。Nd个检测框就形成Nd个簇。
Align: 由两个公式进行对齐操作,将不同簇内的点都对齐到归一化到的局部标准坐标体系中,去除了空间平移和旋转的误差,如下:
在这里插入图片描述

P i c ~ \tilde{P_i^c} Pic~是对齐后的点簇
P i c {P_i^c} Pic是对齐前的点簇
c i c_i ci θ i {\theta}_i θi是对应点簇的中心和朝向角度
R ( ⋅ ) R(·) R()是3*3的旋转矩阵
为了修正预测值和ground-truth的偏差,再训练两个调整参数。
在这里插入图片描述

对齐之后,将Nd个框,每个框中Mp个点,每个Mp点有(x,y,z)三个坐标,输入到形状生成模块。

module 3 Shape Generator:

【论文】RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction_第3张图片
这边有两个模块一个是特征编码,一个是形状解码
①将前面的每个框的每个点输入到PointNet网络中,分割出前景点和背景点,得出每个点的分数,然后用ReLu函数将背景点置0,最后提取出了前景点Foreground points,也就是属于物体的点,而不是场景的点。然后将目标检测模块的全局特征concat到前景点上。经过一个带残差的PointNet完成编码,得到Proposal features(Nd个簇*Ds维特征)。ps:每个簇其实貌似就是一个object。
【论文】RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction_第4张图片

②我们采用条件Batch Normalization层回归出采样点的占用值 (occupancy values),但是因为点云有稀疏性,不同角度的扫描有同的解释性,我们将编码器设计成概率生成模型。将其与空间点和前面传过来的proposal特征一起送入隐式编码器中,回归出一个高斯分布的均值与标准差,再从这个分布上采样,得到一个隐式编码Z。最后,我们将隐式编码与空间点一起送入条件层块(conditional block),回归出最终的点占有值(occupancy value) 。得到了最终的占用值后,我们采用marching cubes算法从空间占用网格中提取网格表面。

4、loss

检测盒损失:
在这里插入图片描述
形状生成损失:
【论文】RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction_第5张图片

5、Experiment

Dateset:ScanNet v2、Scan2CAD
定性实验结果:
【论文】RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction_第6张图片

定量实验结果:在场景补全,物体检测 ,物体重建 方面进行了详细对比

【论文】RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction_第7张图片【论文】RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction_第8张图片
【论文】RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction_第9张图片

Conclusion

【论文】RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction_第10张图片

你可能感兴趣的:(深度学习,计算机视觉,深度学习,人工智能)