论文阅读笔记1【写作+模型】

今天来学习这篇文章的架构,以及行文的逻辑。
文章名称:Multi-Path Region Mining For Weakly Supervised 3D Semantic Segmentation on Point Clouds
要解决的关键问题:标注不足或者标注质量差时3D语义分割或者3D特征表示的学习
关键词:3D语义分割 弱监督 注意力机制

Abstract

介绍点云能提供的信息和作用。
现有方法处理点云分割的弊端,也就是标记比较耗时耗力。
提出本文的主要内容
【弱监督方法利用3D点云的弱标签预测point-level的结果】。
详细介绍主要内容【即引入多路径挖掘模块,从利用弱标签训练的分类网络中生成伪点级标签;这个多路径模块,利用不同的注意力模块,从网络特征的不同的方面挖掘每一个类的位置信息;然后利用点级伪标签来训练一个点云的分割网络】。
说明本模型的优点【这是第一个在3D空间利用点云级别的标签来训练一个点云语义分割网络】。
说明实验中的一些设定和结果【3D弱标签只表示了出现在输入样本里的种类,本文讨论了场景级别和子点云级别的弱标签;在ScanNet中,我们的结果我们利用子点云级别标签训练的结果和一些全监督的方法是一样的】。

1. Introduction

本段介绍3D数据的逐渐获得更多的青睐,也就是深度学习应用在点云上。但是,深度学习是data-hungry的。

本段介绍虽然3D数据的获取逐渐变的容易,但是标注仍旧是昂贵的。尤其是3D数据,逐渐开始直接标记重构的3Dmeshe或者聚成一起的点。

举例说明上述标注的时间和人力消耗。

*问题说明白了,开始介绍自己的动机和具体做法。

本段指出本文的主要研究内容。
先一句话介绍一个什么样的模型。然后介绍解决的问题,包括上面提到的标注问题,逐渐引出本文所有的创新模块,以及基本的模型流程。【为了减少标注的损耗,使用弱标签(只表示输入点云样本的类)。为了找到分类网络的对象区域,介绍一个类激活网络(CAM)到3D点云中,一个有效的在2D图像中的种类区域定位方法。但是CAM只在一些具有分辨力的区域中使用,但是我们要生成所有点的精确的伪标签,我们提出了一个多路径区域挖掘模块(Multi-Path Region Mining, MPRM)来从一个弱标签训练的分类网络中获得不同的区域信息。再具体介绍MPRM的模块组成以及作用。通过应用PCAM到每一个path以及原始的特征图,我们收集从网络特征的不同方面的物体区域,并且生成我们的点级别的伪掩码。为了应用低层次的表示以及点云的相互关系,我们利用一个稠密CRF来细化我们的伪标签。最终利用我们的点级别的伪标签训练一个点云分割网络。】

由于弱标签和更好的表示能力有着一定的冲突,因此本段讨论了不同的弱标签策略,即场景级别的标签【只给出场景中的种类,是最便宜的标签),点级别的标签(比较常用,也是比较昂贵的)以及子点云级别的标签(我们在这里采用的方式是从场景中采样球体,并利用子点云中出现的类来标记所有的点】。

本段叙述了试验的一些细节。包括利用场景级别的标签和子点云级别的标签来实现MPRM,并评价了我们的方法提供了一个有效的利用弱标签训练一个点云分割网络。在一些全监督点云识别模型中,比如PointNet++,我们的模型表现更好。同时,我们也证明了利用子点云级别的标签会比场景级别的标注训练的效果好得多。

本文的主要贡献

  1. 我们提出了一个弱监督方法来实现3D点云语义分割任务,其中只利用了场景级别和子点云级别的标签。这是第一个从点云层次的弱标签学习一个点云场景分割网络的工作。

  2. 我们提出了一个多路径区域挖掘模块来生成伪点级别的标签。利用空间注意力模块,通道注意力模块以及点级别空间注意力模块,通过探索网络特征中的长距离空间信息,通道相互作用信息,以及全局背景信息,来挖掘了多个定位区域信息。

2. Related Work

2D图像中的弱监督语义分割
弱标注包括bounding box,scribble,点都被应用到分割任务中。但是这些监督信息仍旧需要一些人力消耗,图像级别的标注还是比较便宜。生成CAM是一个图像级别的监督任务。他的核心思想是对于每一个类从一个分类网络中提取局部信息。
点云上深度学习

少量监督的点云识别

3. 本文的弱监督设定

介绍场景级别弱标签和子点云弱标签的设定。
场景级别的标注:
子点云级别的标注:

4. 本文的框架

4.1 基本的方法:PCAM
本段从CAM引入到PCAM。【CAM在2D图像的弱监督语义分割任务中是很重要的方法。本文我们提出一个点云种类激活映射,其中是吧CAM应用到点的卷积网络中来生成点云数据的局部信息】。

本段介绍PCAM
【我们应用KPConv分类网络作为我们的主框架,其中ResNet是作为block。 KPconv是一个直接把点云作为输入的点云卷积网络。他是提出了一个核卷积操作,作用在点和它的3D空间的直径内的邻居上,这个邻居是利用指标坐标字典获得。
像图2中一样,把点云/子点云以及对应的弱标签送到分网络中,然后,获得卷积层的输出特征图。再利用一个1*1的卷积操作,作为一个分类器来降低特征维度到种类的个数,来获得PCAM特征图。在训练的过程中,我们利用全局平均池化层来获得预测的向量,再利用弱标签计算一个sigmoid交叉熵损失。

记f_cam§是点p的送到GAP层之前的PACM特征图。对于种类c,点p的PCAM M_c§能够被表示成:
M_c§ = w_c^T * f_cam§ * y_c
其中 w_c^T是种类c的分类权重,并且y_c表示种类c的one-hot子点云真值。获得点p的伪标签就是argmax(M§)。因为分类网络里有很多的下采样操作,所以我们需要上采样PCAM到原始的尺度。】

4.2 多路径区域挖掘
本段介绍引入注意力机制的原因,就是获得具有分辨力的特征。
【在弱监督的学习框架中,我们利用分类标签训练一个分类网络,并且尝试从网络中找到一个种类区域的局部信息。但是一个分类网络知识从输入点云来预测种类的标签。从最具有分辨力的特征中学习对于分类任务来说就足够了。因此,在一个没有分辨力的区域利用PCAMs很难确定分类信息。因此,我们想利用的注意力机制来挖掘更多的具有分辨力的信息。因为每一个注意力机制都关注网络特征的不同方面,我们能够产生不同的具有分辨力的区域,并整合他们来产生我们的点级别伪标签。
如图3. 我们的多路径区域挖掘模块在KPConv ResNet之后,由4个不同的路径组成。第一个路径是如4.1中介绍的一般PCAM。同事,我们有空间注意力模块,通道注意力模块以及点级别注意力模块。每个路径都是跟着一个1*1的卷积层作为一个分类器来产生一个独立的PCAM。然后我们利用GAP来产生预测向量,并利用每一个路径的弱标签计算sigmoid交叉熵损失。所有的损失将会被后向传播到backbone网络。为了产生伪标签,我们将每一个路径的PCAM进行逐元素最大化,并且利用最近邻上采样,上采样PCAM到原始的大小。利用最大值,我们能从不同的通道,这些通道都具有不同方面的分类网络,收集到具有分辨力的特征。因此,我们就能产生更精确的点级别伪标签。】
4.2.1 空间注意力模块
4.2.2 通道注意力模块
4.2.3 点级别注意力模块

4.3 学习一个语义分割网络
本段介绍获得伪标签后的语义分割网络
【在获得四个不同的PCAMs之后,我们利用逐元素最大化来获得每一个位置的最大值,并把他们上次采样成伪掩码。然后,为了利用这些低水平的上下文信息以及点之间的两两关系,我们利用dCEF来细化伪标签。为了给利用全尺度分割模型做一个准备,我们利用生成的伪标签重新训练一个分割网络。此外,即便存在一些错分的伪标签,更深的卷积神经网络也能有着更好的学习更多特征表示的能力以及产生更好的结果。因此,我们利用KPConv U-Net类的分割模型作为我们的最终模型。】

5. 实施的细节

5.1 数据集和弱标签

5.2 生成伪标签

5.3 训练分割模型

6. 试验

6.1 场景级别 vs 子点云级别标签

6.2 伪标签评测

6.3 消融试验

6.4 分割的结果

7. 结论

你可能感兴趣的:(神经网络)