论文题目:PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation (CVPR 2017)
源码下载:https://github.com/charlesq34/pointnet
b站原作者汇报:【中英】PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation_哔哩哔哩_bilibili
以前大多数处理点云的深度神经网络都是将点云转化为其他形式,再使用现有的神经网络,如3D CNN,大多数对点云的特征提取也只是针对特定任务手工完成,因此如何在点云上直接进行有效的特征学习?
直接对点云进行操作,如点云分类、点云分割(部件分割、场景语义分割,类似图像的逐像素分析进行逐点分析)
无序性(置换不变性):一个点集中的各个点之间是没有顺序的
点之间的相关作用:相邻点可以构成局部结构
旋转不变性:同一个点云物体,无论输入是什么方向和位置,输出的结果应保持相同,对分割分类任务都适用,但对点云配准或者点云补全等任务来说,不能忽略点云的姿态
非结构化:直接CNN很难,不能像图像一样直接按照区域提取特征
如何为无序集输入设计神经网络?针对点的置换不变性可知,设计的网络必须是一个对称函数,需要对N!种排列保持不变,将每个点都映射到一个高维空间后,再利用对称函数提取特征,可以弥补损失的特征。
以下结构的网络可以保证输出对输入顺序保持不变性
pointnet怎么实现上述结构?
可以证明任何连续的对称函数都可以由pointnet任意近似,
本文使用MLP作为h函数独立且相同地对每个点升维,使用最大池化层作为g对称函数来聚合所有点的信息,使用MLP作为γ函数转化聚合信息。
(1)输入:n×3(n为点的个数,3为点的特征维度,包含xyz三轴的坐标,如果加上法向信息,则为6)
(2)transform:矫正输入的点云,保证能够识别同一个但方向不同的物体输入,由T-net来实现,学习一个3×3(大小由输入点的特征维度决定)的旋转矩阵,与前面的n×3矩阵相乘。
经过mlp的特征升维后,再次进行矫正,为了避免陷入局部最小值,此旋转矩阵还要加一个正则化惩罚项(如下式子),使其接近于一个正交矩阵,否则特征会退化。但在点云配准或补全任务中,T-net要去除
(3)mlp(多层感知器):进行逐点的线性变换,满足了当输入和输出相同时的置换不变性。可看作全链接层,对输入的每一个点都做全链接(升维),是通过共享权重的卷积实现的,第一层卷积核大小是1x3(因为每个点的维度是xyz),之后的每一层卷积核大小都是1x1,每个点都扩充到1024维的特征,此时特征是冗余的,还需要进行max pooling操作
(4)max pooling:还可以用average pooling、weighted average pooling代替(但效果不如max pooling),对得到的n×1024特征的每一列都提取一个最大值,形成1×1024的全局特征向量,再通过mlp映射为k分类(k是输出的类别数)
(5)将每个点的特征与求得的全局特征加起来,通过mlp映射为m个part
对于任何输入数据集,都存在一个关键集和一个最大集,在此之间的任何集合,其网络输出都一样,即模型对输入数据在有噪声和有数据损坏的情况都是鲁棒的。
b站原作者汇报:将门创投 | 斯坦福大学在读博士生祁芮中台:点云上的深度学习及其在三维场景理解中的应用_哔哩哔哩_bilibili
PointNet的不足:MLP对每个点升维,max pooling表示全局特征,本质上对点的操作要么是单点要么是所有点,没有局部的概念。很难对精细的特征进行学习(分割有难度),同时存在平移不变性的局限(经过平移,点的坐标发生变化,全局特征随之变化,导致最终分类等结果不同)。
(1)通过最远点采样选取中心坐标,划分有重叠的局部区域(簇),从而保证每个分区有相同的结构,要保证每个簇内点的个数都相同,若点数不够,则复制离中心点最近的点直至满足数量,若点数过多,则通过计算所有点离中心点的距离,通过排序去除距离大的那些点。可以把不同半径不同样本个数得到的特征拼接起来
(2)对点集的每个小区域(放在局部坐标系下,实现平移不变性)使用pointnet提取特征,类似于在CNN中利用卷积块进行特征提取
(3)提取特征之后得到一个新的点,具有在全局中的位置信息以及小区域内的几何形状特征,不断对每个区域进行相同操作,会得到一组新的点
经过多次采样、分组、pointnet提取特征,得到最终整体特征,再进行分类和分割