【计算机视觉】简述对SCF-Net的理解

自2017年PointNet发布以来,它解决了直接以点云为输入的问题,因为点云是一种非常重要的三维数据,但是点云具有稀疏性和不规则性,所以很多研究者是研究的体素或图集为输入,PointNet的缺点就是他没有提取邻域的特征,也就是没有学习点与点的相对位置信息。所以它分割的效果不好,近两年的订刊文章(CVPR)发布了很多大场景点云分割的文章,像点卷积的文章他们采样的方法基本都是FPS+Ball quray的搜索方式,时间比较慢,大场景点云分割还得用RS采样的方法,像RandLA-Net(LocSE+Attentive Pool)、DLA-Net(Position encoding block+Self-Attention+Attentive Pool)都是使用的这种方法。总结来说现在很多算法都是去学习邻域的特征结合PointNet去提取特征。下面给大家介绍一下SCF-Net这篇文章,它分为三部分,局部极坐标表示(LPR)、双距离注意池(DDAP)和全局上下文特征块(GCF)。
对于局部极坐标表示模块,因为某一个场景某一类的不同东西的方向可能是不一样的,输入点对于学习特征的方向是非常敏感的,LPR学习的是极坐标系,特点就是对于Z坐标下旋转是有利的。首先将笛卡尔坐标转换为局部极坐标表示,先计算邻域内的质心,然后通过质心得偏移角,来更新点中心点和邻域点的变化,从而学习到局部极地表示和几何距离特征。
【计算机视觉】简述对SCF-Net的理解_第1张图片【计算机视觉】简述对SCF-Net的理解_第2张图片【计算机视觉】简述对SCF-Net的理解_第3张图片
【计算机视觉】简述对SCF-Net的理解_第4张图片
对于双距离池部分,它的输入是点云的特征、几何图案和几何距离(LPR学习得到的特征)。利用几何距离和和点特征进行拼接,然后与几何图案和点特征拼接起来的特征进行拼接,组成权重,进行softmax回归,应用于其空间特征中,进行加权求和聚合特征。后面有消融实验证明消除特征距离影响不大,但是消除双重距离影响很大。针对空间距离和几何距离拼接时的比例问题,消融实验证明直接拼接效果最好,对于特征距离学习的参数拉姆他选择不同,效果也会不同。
【计算机视觉】简述对SCF-Net的理解_第5张图片 【计算机视觉】简述对SCF-Net的理解_第6张图片 【计算机视觉】简述对SCF-Net的理解_第7张图片 【计算机视觉】简述对SCF-Net的理解_第8张图片
对于空间上下文模块,它利用位置和体积比ri来计算,通过点云坐标和这个比例作连接,该模块的具体作用我没有get到,不过据我和别人沟通,好像该模块起的作用并不是很大,它的消融实验也证明了。
【计算机视觉】简述对SCF-Net的理解_第9张图片
对于SCF的结构而言,他们也是添加了扩展残差模块,目的是为了防止参数过拟合,优化。而且它的LPR+DDAP也扩展了一倍,与RandLA-Net类似,为了增加网络的感受野。对于SCF-Net的网路结构而言,它和RandLA-Net和DLA-Net很类似,都是RS+相应构造的结构,先聚合点的特征,提升网络的维度,降低点云的尺度,然后提取完特征之后,利用近邻插值进行上采样还原到初始点,完成分割任务。 【计算机视觉】简述对SCF-Net的理解_第10张图片
其实这篇论文,我自己的见解是没有RandLA-Net好,因为感觉它的复杂性比RandLA-Net要高,但是他在Semantic3D数据集上的Miou比其只高了0.02,所以可能就是复杂性多了点,如果想详细了解,可以去论文里面体会一下,上述是自己的一个理解,如有不对,请多多指正!!!

你可能感兴趣的:(计算机视觉,深度学习)