来源:Arxiv 2024
机构:北京理工大学
论文题目:CascadeV-Det: Cascade Point Voting for 3D Object Detection
论文链接:https://github.com/Sharpiless/CascadeV-Det/blob/main/paper.pdf
开源代码:https://github.com/Sharpiless/CascadeV-Det
基于点的 3D 目标检测器在执行预测时是高效的,而不需要额外的后处理。然而,与二维网格不同的是,由于点云的稀疏性,3D 点往往远离目标的真实中心,这使得精确回归边界框具有挑战性。
举例来说,2D 图像可以通过遍历网格点来获取到准确的中心点:
但是,点云获取的大多是物体表面,导致无法遍历到物体中心:
为了解决这个问题,我们首先分析了中心点定位对于模型精度的影响,并进一步提出了一种级联投票(Cascade Voting)策略,该策略不断地在联级的检测头中,优化基于点的预测的中心点位置,并提供了基于点的预测的高质量三维目标检测。
具体来说,CascadeV 使用一种新的级联投票解码器来执行级联检测,该解码器结合了两个新的组件:实例感知投票(IA-Voting)和级联点分配(CPA)模块:
实验表明,配备了 CascadeV 的 FCAF3D 模型在SUN RGB-D上以70.4% [email protected],这是首次实现 70% 以上的 [email protected]。
我们定义中心度为从该位置所负责的位置到对象中心的标准化距离。然后我们可视化提议点的中心度,及其对应预测框跟 GT 的 IoU:
上图表示,具有较高中心度的提议点,会期望生成具有更高 IoU 的预测边界框,即预测的更加准确。
我们还注意到,由于我们预测框是由提议点到六个面的距离生成(如下图所示):
左边显示了来自单个提议点(浅蓝色点)的边界框。而如右图所示,我们可以利用预测框的中心,生成一个新的坐标(即深蓝色点),作为下一个阶段的提议点,实现联级检测。
由此我们重新观察提议点(浅蓝色点)和生成的新中心点(也就是下一阶段的提议点)的中心度变化:
可以看到,预测框的中心往往比原本的提议点具有更高的中心度,即离真正的物体中心点更近。
结合之前的观测:具有较高中心度的提议点,会期望生成具有更高 IoU 的预测边界框,即预测的更加准确。
这样不断更新提议点,获取更高的中心度,进而会提高预测框的准确性。
基于上述观察,我们提出了我们的方法:带有点编码器和带CascadeV-Det的新型级联投票解码器的框架,其中也包含了一个额外的 CPA 策略被用于训练。
提议点点首先从点编码器中选择,然后通过 IA-Voting 模块对对象特征进行更新,并输入带有注意模块的变压器层,通过检测头的每阶段预测进行特征细化。CPA 策略中正样本的阈值逐步降低,在更深的阶段提供更严格的正样本监督,并由此保证提供丰富的高质量的正样本。
由于我们更新了解码器中建议点的位置,因此对象特征需要相应地更新。为此,我们提出了 Instance-Aware Voting(IA-Voting)模块,它直接从预测的边界框中聚合对象特征,以便于进一步的特征更新。我们使用条件逆距离加权来聚合从这些相邻点回归的特征,在更新的提议点得到一个更新的特征。
为了保证具有高中心度的阳性对象的数量,我们实施了 CPA 训练策略,该策略包括对每个检测头的进行不同的正样本分配策略,如图:
上图展示了训练过程中匹配的正样本,其中不匹配的建议点用灰色表示。星星表示去噪点(查询),距离真值的最小距离进行去噪训练。箭头方向表示建议点的更新位置。虚线框表示正样本所选择的阈值范围,随着联级预测不断缩小,以提供高质量的正样本。
请注意,与 IA-Voting 不同的是,这种匹配策略只在训练期间生效,并用于为提议点分配用于训练的真值框。
上图(a)表明,当正样本的阈值 µ 直接从 0.5(蓝色)降低到 0.4(金色)时,匹配到真值框的提议点点的数量会急剧下降,这表明由于缺乏积极的训练阈值,直接降低阈值来去除噪声提议点是不可行的。(b)显示,在我们提出的 CPA 策略的第一阶段,由于µ> 0.5,比(a)有更多的分数匹配为阳性,并在第二和第三阶段,这些正样本的中心度进一步提高。
因此,我们可以通过在联级的后续阶段,降低 µ 来建立更严格的分配,并有足够数量的高中心度的正样本。