小白科研笔记:点云目标检测相关文献速读-Part A

1. 前言

网络训练的时候基本做不了代码上的活,那就多读读目标检测的文献呗。

2. TANet

首先来看AAAI2020的文章“TANet: Robust 3D Object Detection from Point Clouds with Triple Attention”。这篇文章的核心创新点有两个:

  • Triple Attention(译为三重注意力机制)
  • Coarse-to-Fine Regression (CFR) module

在对车辆识别的准确率低于同年的SOTA方法,但是对于行人自行车识别的准确率是Top。此外,实验效果表明TANet对点云上面的噪声比较鲁棒。该方法也是为数不多的在目标检测网络上使用注意力机制的模型。TANet的网络结构示意图为:

小白科研笔记:点云目标检测相关文献速读-Part A_第1张图片
图1:TANet示意图;其中TA模块是可扩展的特征提取模块;

2.1 Triple Attention

V V V是输入体素。三重注意力机制分别由Point-wiseChannel-wise,和Voxel-wise组成。首先使用Point-wiseChannel-wise得到融合的注意力特征图 M M M。根据它得到注意力作用后的体素特征 F l F_l FlVoxel-wise表示体素注意力机制,即体素点云中哪些体素是重要的,而哪些是不重要的。体素注意力机制作用在 F 1 F_1 F1上,得到最终体素特征 F 2 F_2 F2。体素注意力机制是个很有启发性的机制,有直观的意义。
小白科研笔记:点云目标检测相关文献速读-Part A_第2张图片
图2:Triple Attention示意图

2.2 Coarse-to-Fine Regression module

这个模块比较容易理解,如下图所示。Fine Regression输入是Coarse Regression的中间变量。可以说Coarse Regression部分网络指导Fine Regression部分网络。结构上跟SA-SSD有点相似。
小白科研笔记:点云目标检测相关文献速读-Part A_第3张图片
图3:Coarse-to-Fine Regression module示意图

3. 3D IoU-Net

这是篇2020年的预印文章“3D IoU-Net: IoU Guided 3D Object Detector for Point Clouds”。这篇文章的核心创新点有两个:

  • Attentive Corner Aggregation(ACA模块)
  • Corner Geometry Encoding(CGE模块)

双阶段的目标检测算法。实验效果是在有些指标上优于SOTA算法。整体网络框图如下所示:

小白科研笔记:点云目标检测相关文献速读-Part A_第4张图片
图4:3D IoU-Net示意图(从图上可以看出,Refine 3D Boxes会反过来作用在输入流上。这是双阶段的目标检测的特征。)

3.1 Attentive Corner Aggregation

ACA模块是TANet中的注意力机制模块的一种修改版(对Point-wise和Channel-wise做的修改),ACA中的注意力权值矩阵是由下面的示意图来说明:

小白科研笔记:点云目标检测相关文献速读-Part A_第5张图片
图5:ACA模块示意图

3.2 Corner Geometry Encoding

CGE模块意图在于提取目标点和它周围七个近邻点(一共就是八个点)的几何信息:

小白科研笔记:点云目标检测相关文献速读-Part A_第6张图片
图6:CGE模块示意图

CGE模块不难理解,对应的数学公式为:

小白科研笔记:点云目标检测相关文献速读-Part A_第7张图片

4. Point-GNN

这是篇CVPR2020的文章“Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud”。这篇文章的核心创新点是设计一个图神经网络单元,用来提取点云特征。这篇文章的综述部分总结了三种常见的提取点云特征的方法:(1)基于体素的特征提取方法;(2)基于点云近邻几何的特征提取方法;(3)基于图的点云提取方法。个人觉得(2)和(3)的差别不是特别大。这篇文章的综述值得参考。

小白科研笔记:点云目标检测相关文献速读-Part A_第8张图片
图7:三种常见的提取点云特征的方法

PointGNN的网络结构图如下所示:

小白科研笔记:点云目标检测相关文献速读-Part A_第9张图片
图8:PointGNN结构

它的核心在于其独特的GNN结构。点云图的建立是依据KNN图构建的。很有启发的网络结构。

5. Channel Attention Networks

这是一篇CVPR Workshop文章。核心创新点在于通道注意力机制:

小白科研笔记:点云目标检测相关文献速读-Part A_第10张图片
图9:CAN网络结构

把输入特征图的通道拆开,分成两部分,每一部分使用一个U-Net提取特征,把两个通道提取的特征合并之后,用卷积网络生成一张注意力机制权重图。用该权重图作用在两个通道上,最后再把作用后的两通道特征图合并,得到最终的输出。思路简单易懂,结果也是有效的。

你可能感兴趣的:(computer,vision论文代码分析)