PF-Net: Point Fractal Network for 3D Point Cloud Completion论文笔记

一.四个问题

  1. 要解决什么问题?
    从激光雷达等设备中获取的点云往往有所缺失(反光、遮挡等),这给点云的后续处理带来了一定的困难,也凸显出点云补全作为点云预处理方法的重要性。点云补全(Point Cloud Completion)用于修补有所缺失的点云(Point Cloud),从缺失点云出发估计完整点云,从而获得更高质量的点云。点云有助于用较小的数据量描述三维物体,在三维物体的检测识别领域应用广泛。
  2. 用什么方法解决?
    文章提出一种基于深度学习的点云分形网络PF-Net。PF-Net采用了一些自己的思路和方法来改善现有的问题:
  1. 以不完整点云作为输入,仅输出缺失部分点云,可保留物体点云的空间结构,对物体的局部特性感知更好;
  2. 提出了更优的点云特征提取器:多分辨率编码器(Multi-Resolution Encoder),多尺度的方法提升了高低层次点云语义信息提取的效率;
  3. 提出了点云金字塔解码器(Point Pyramid Decoder)用于生成点云,利用多阶段补全损失加粗样式 (Multi-stage completion loss) 监督其中关键点云的生成,从而减少了几何结构瑕疵。
  4. 利用 GAN结构的鉴别器(Descriminator)优化网络,改善了同一类别不同物体间的特征会相互影响的现象(Genus-wise Distortions Problem)。
  1. 效果如何?
    在ShapeNet数据集上,实验结果显示PF-Net大部分对比中都是占优的。

 

  • 论文概述
  1. 网络结构

 

PF-Net: Point Fractal Network for 3D Point Cloud Completion论文笔记_第1张图片

1.1 MRE(多分辨率编码器)
对输入点云做迭代最远点采样(FPS),获得更小尺度且更具有轮廓特征的降采样点云。PF-Net: Point Fractal Network for 3D Point Cloud Completion论文笔记_第2张图片

MLP(CMLP)主要采用MPL(多层感知机)的处理方式。不同的是,分别对最后四层网络(output_dim=128,256,512,1024)的输出做maxpooling,再将这四层pooling后的输出拼接(concat)形成Latent Vector F (dim=1920x1),如图2。该方式能更充分的利用高层和底层特征
PF-Net: Point Fractal Network for 3D Point Cloud Completion论文笔记_第3张图片
• 拼接三个不同尺度点云的CMLP输出,获得Final Latent Map M(dim=1920x3)
• 将M通过多层感知机MLP从(1920x3)变换成(1920x1),获得Final Feature Vector V

1.2 PPD(点云金字塔解码器)

  • PPD 的主要思想监督每一阶段的点云,提升关键点的生成质量,在关键点的基础上不断生成新的点云。
  • 借鉴图像处理中经典的SIFT算法,采用特征金字塔加粗样式的方式,对编码出的特征,进行多尺度的解码生成不同尺度的点云。现有方法大都利用最后一个输出层的结果来做预测,导致只保留了全局特征而丢失了局部特征。为了更好地保留细节,网络中设计多层的特征解码,使不同粒度的特征更好地保留
  • PF-Net: Point Fractal Network for 3D Point Cloud Completion论文笔记_第4张图片
    • 将上一步获得的Final Feature Vector V通过三个FC(全连接)层,产生三个不同尺度的点云特征
    • 经过一系列操作(linear, reshape, convolution) 生成与采样后的Ground Truth点云数相同的生成点云,用于后续Loss部分的构建

 

2.损失函数(包含GAN鉴别器)

损失函数由两部分组成:Multi-stage Completion Loss 和 Adversarial Loss

2.1 Multi-stage Completion Loss(Lcom):
该损失衡量输出点云与真值之间的差别。

PF-Net: Point Fractal Network for 3D Point Cloud Completion论文笔记_第5张图片

引入计算两个点云间的距离公式(公式1)其中,S1可以表示生成的点云,S2可以表示Ground Truth,对于S1中的每个点,找到其与S2中距离最近的点,计算欧氏距离后求和取平均,作为距离公式的第一部分;第二部分相似,对于S2中的每个点,找到其与S1中距离 最近的点,计算欧氏距离后求和取平均。

在PDD解码器中,生成了三个不同尺度的点云,将三个对应的值取不同权重相加,作为总体损失的一部分(公式2)

2.2 Adversarial Loss(Ladv):

该损失优化MRE和PPD,使输出看起来更加真实。

GAN鉴别器:GAN鉴别器是一个分类器,其结构与CMLP类似:对一个多层MLP[64−64−128−256]的最后三层的输出进行maxpool得到feature vector f_i, i= 1, 2, 3.将f_i连接得到F,F通过全连接层 [256,128,16,1]以及Sigmoid函数得带最终的预测值。

此部分采用了对抗生成网络的经典思想,利用生成器和判别器进行整体的优化。文中将作为整体,看作生成器,构建多层感知机作为判别器,如图4。利用生成器,判别器构建对抗损失

2.3Joint Loss
将以上两部分的Loss以不同权重相加,获得完整的Loss Function。

你可能感兴趣的:(论文笔记,计算机视觉)