图 1:(a) 给定一个不完整 LiDAR 观测的对象,可能存在多个具有不同大小和形状的潜在合理的真实边界框。 (b) 当注释来自 2D 图像和部分点时,标签过程中的模糊和不准确是不可避免的。在给定的情况下,只有后部的汽车类别的类似点云可以用不同长度的不同真实值框进行注释,长度Length有非常明显的变化。
在上述现象的推动下,还存在另一类概率检测器,它们明确考虑了标签模糊性的潜在影响。最后,这些方法可以分为两种范式,如图 2 所示,(b)范式倾向于输出边界框的概率分布,而不是直接以确定的方式回归确定的框坐标。例如,在高斯分布的假设下,检测头据此预测分布的均值和方差。为了监督这种概率模型,这些工作只是将真实边界框视为Dirac增量分布,然后在估计分布和真实值之间应用 KL 散度。
注:KL散度的概念来源于概率论和信息论中。KL散度又被称为:相对熵、互熵、鉴别信息。在机器学习、深度学习领域中,KL散度被广泛运用于变分自编码器中、EM算法、GAN网络中。在统计学意义上来说,KL散度可以用来衡量两个分布之间的差异程度。若两者差异越小,KL散度越小,反之亦反。当两分布一致时,其KL散度为0。正是因为其可以衡量两个分布之间的差异,所以在VAE、EM、GAN中均有使用到KL散度。
图 2:概率对象检测器的两种不同学习范式的图示:(a)在检测头中采用概率建模,但本质上仍然忽略地面实况边界框模糊性问题的方法。 (b)明确估计真实边界框分布以用作更可靠的监督信号的方法。
显然,这些方法的主要限制在于它们无法从本质上解决标签模糊问题,因为地面实况边界框仍然被认为是具有零不确定性的确定性。为此,学习框架的第二范式试图量化源自一些简单启发式或贝叶斯的标签不确定性,这样检测器可以在更可靠的边界框分布。然而,由于建模能力不足,这些方法仍然不能产生令人满意的标签不确定性估计结果。总的来说,这一系列工作仍处于初始阶段,研究数量非常有限,尽管它在以数据驱动的方式产生更高质量的标签不确定性估计方面具有更大的潜力。
本文在架构上遵循第二种设计理念,我们特别定制了一个强大的基于深度学习的标签不确定性量化框架,以提高估计的真实边界框分布的可靠性。从技术上讲,我们将标签不确定性问题表述为潜在合理边界框的多样性,并在基于学习的框架中明确建模典型 3D 对象与其潜在合理真实框之间的一对多关系。从技术上讲,我们提出了 GLENet,这是一种改编自条件的变分自动编码器的新型深度生成网络,它引入了一个潜在变量来捕获点云对象的潜在合理边界框上的分布。
图 3:通过多次采样潜在变量,说明GLENet的多个可能合理的边界框。点云、真值框和GLENet预测框分别用黑色、红色和绿色表示。GLENet 为稀疏点云和不完整轮廓表示的对象生成不同的预测,并为具有高质量点云的对象生成一致的边界框。GLENet 多次预测的方差用于估计带注释的地面真值边界框的不确定性。
在推理过程中,我们对潜在变量进行多次采样以生成不同的边界框(图 3),其方差作为标签不确定性来指导下游检测任务中定位不确定性估计的学习。此外,基于观察到概率检测器中定位不确定性较低的检测结果往往具有准确的实际定位质量(见 4.2 节),我们进一步提出了不确定性感知质量评估器(UAQE),它有助于使用定位不确定性估计训练 IoU 分支。
为了证明我们的有效性和普遍性,我们将 GLENet 集成到几个流行的 3D 对象检测框架中,以构建强大的概率检测器。在 KITTI 和 Waymo数据集上的实验表明,我们的方法可以带来一致的性能提升并实现当前最先进的水平。特别是,在竞争激烈的 KITTI 3D 检测基准上,所提出的 GLENet-VR 大大超过了所有已发布的单模态检测方法,并在所有已发布的基于 LiDAR 的方法中排名第一。
我们将本文的主要贡献总结如下:
在本文的其余部分安排如下:
现有的 3D 物体检测器可以分为两类:单级和两级。对于单级检测器,Zhou 提出将原始点云转换为常规体积表示,并采用基于体素的特征编码。严等提出了一种更有效的稀疏卷积。朗使用柱子将点云转换为稀疏的假图像。与 2D 目标检测相比,3D 目标检测中由于遮挡和信号遗漏导致的边界模糊问题更为严重。 SPG 研究尝试使用点云补全方法来恢复物体的完整形状并提高检测性能。但是,仅使用不完整的点云生成完整且精确的形状并非易事。
深度学习预测中有两种类型的不确定性。一种不确定性,称为任意不确定性,是由观测数据中的固有噪声引起的,无法消除。另一种类型称为认知不确定性或模型不确定性,这是由不完整的训练引起的,可以通过更多的训练数据来缓解。大多数现有的最先进的 2D和 3D对象检测器都会产生确定性框每次检测都有一个置信度分数。虽然概率分数代表了存在性和语义置信度,但它不能很好地反映预测定位的不确定性。相比之下,概率目标检测器估计预测边界框的概率分布,而不是采用它们作为确定性结果。 Choi 将预测框建模为高斯分布,其方差可以指示定位不确定性,并通过检测头中的附加层进行预测。它在预测的高斯分布和建模为狄拉克函数的真实边界框之间引入了 KL 损失,因此回归分支有望输出更大的方差并获得更小的不准确定位估计损失对于边界不明确的情况。与将盒子建模为高斯分布的常见做法不同,Harakeh 学习了多元高斯分布的协方差矩阵的非对角元素作为不确定性估计。迈耶提出了一种概率 3D 对象检测器,将边界框角的分布建模为拉普拉斯分布。然而,大多数概率检测器将地面实况边界框视为确定性的狄拉克增量分布,而忽略了地面实况的模糊性。因此,定位方差实际上是以无监督的方式学习的,这可能导致次优的定位精度和不稳定的训练。
标签噪声(或不确定性)是现实世界数据集中的常见问题,可能会严重影响监督学习算法的性能。由于神经网络容易过度拟合甚至完全随机噪声,因此防止网络过度拟合噪声标签非常重要。一个明显的解决方案是考虑错误分类样本的标签是不确定的并移除样本。加西亚基于为一组二元分类器计算的噪声度预测的聚合,使用软投票方法来近似每个样本的噪声水平。当大多数分类器预测噪声样本的相同标签时,通过纠正标签扩展了这项工作。自信学习通过估计噪声标签和真实标签的联合分布来估计数据集标签的不确定性。然而,上述研究主要集中在图像分类任务上。
只有有限数量的先前工作专注于量化带注释的真实边界框的不确定性统计。 Meyer 和 Thakurdesai 提出通过标签边界框与聚合 LiDAR 观测值的相应凸包之间的 IoU 对标签不确定性进行建模。然而,它是非基于学习的,因此建模能力有限。此外,它只会产生整个真实框的不确定性,而不是每个维度。王提出了一种贝叶斯方法,通过使用高斯混合模型量化给定边界框的点云匹配度来估计标签噪声。然而,它关于点云之间的条件概率独立性的假设在实践中通常是站不住脚的。不同的是,我们将标签不确定性表述为潜在合理边界框的多样性。
可能有一些对象的点数很少,与对应的标记 Bbox 的学习表面点完全匹配,因此Wang认为该标签是确定性的。但是对于具有稀疏点云的对象,我们的 GLENet 将输出不同且合理的 Bbox,并基于它们进一步估计高标签不确定性,而不管点是否与给定标签匹配。一般来说,使用贝叶斯范式将注释框的正确性估计为标签不确定性,而我们的方法将其表述为潜在合理边界框的多样性并通过 GLENet 进行预测。
变分自动编码器 (VAE) 已广泛用于图像和形状生成任务 。它将自然样本转换为可以提取潜在变量并将其传递给解码器网络以生成不同样本的分布。孙提出了条件变分自动编码器(CVAE),用一个额外的条件扩展了 VAE,以监督生成过程。在 NLP 领域,VAE 已广泛应用于许多文本生成任务,例如对话响应 、机器翻译、故事生成和诗歌创作。 VAE 和 CVAE 也已应用于计算机视觉任务,例如图像生成 、人体姿态估计、医学图像分割 、显着目标检测和人体运动动力学建模。最近,VAE 和 CVAE 算法也被广泛应用于 3D 点云的应用,例如生成抓取姿势和实例分割。
受 CVAE 在对话系统中生成各种合理响应的启发,我们提出了从 CVAE 改编的 GLENet,以捕获具有不完整点云的对象与可能合理的真实边界框之间的一对多关系。据我们所知,我们是第一个在 3D 对象检测中使用 CVAE 来模拟标签不确定性的。
如前所述,带注释的真实标签的模糊性广泛存在于 3D 对象检测场景中,并对深度模型学习过程产生不利影响,这在以前的工作中没有得到很好的解决甚至完全忽略。为此,我们提出了 GLENet,这是一个通用且统一的深度学习框架,它通过对点云对象和可能合理的边界框标签之间的一对多关系进行建模来生成标签不确定性。然后将单个对象的 GLENet 多个输出的方差计算为标签不确定性,将其扩展为辅助回归目标,以增强 3D 对象检测任务的性能。
我们将对象的带注释的ground-truth标签的不确定性表述为对象的潜在合理边界框的多样性,这可以通过潜在边界框分布的方差来定量测量。首先,我们以点云 为条件对这些潜在框的分布进行建模,表示为 ( ∣ ) ( |) p(X∣C)。具体来说,基于贝叶斯定理,我们引入一个中间变量来将条件分布写为:
P ( X ∣ C ) = ∫ z p ( X ∣ z , C ) p ( z ∣ C ) d z P(X|C)=\int_ zp(X|z,C)p(z|C) dz P(X∣C)=∫zp(X∣z,C)p(z∣C)dz
然后,在已知 ( ∣ , ) (|,) p(X∣z,C)和 ( ∣ ) (|) p(z∣C)的情况下,我们可以采用蒙特卡罗方法通过多次采样得到多个边界框预测,并逼近 ( ∣ ) (|) p(X∣C)与采样预测的结果相同。下面,我们将介绍我们基于学习的框架 GLENet 来实现估计过程。
图 4:GLENet 的整体工作流程。在训练阶段,我们通过先验网络 P r i o r n e t w o r k Prior\ network Prior network学习潜在变量 z z z(对应 z ′ z' z′)的参数 μ \mu μ和 σ \sigma σ(对应 μ ′ \mu' μ′和 σ ′ \sigma' σ′),接着由一组对 z ′ z' z′的采样和由 C o n t e x t E n c o d e r Context\ Encoder Context Encoder产生的对应几何 E m b e d d i n g Embedding Embedding被一起用来评估边界框的分布。在推理阶段,我们从 z z z分布中多次采样以生成不同的边界框,将其方差用作标签不确定性。
注:什么是深度学习里的Embedding?这个概念在深度学习领域最原初的切入点是所谓的Manifold Hypothesis(流形假设)。流形假设是指“自然的原始数据是低维的流形嵌入于(embedded in)原始数据所在的高维空间”。那么,深度学习的任务就是把高维原始数据(图像,句子)映射到低维流形,使得高维的原始数据被映射到低维流形之后变得可分,而这个映射就叫嵌入(Embedding)
图 4 (a) 显示了由神经参数 θ \theta θ参数化的 GLENet 的流程图,其目的是预测 ( ∣ ) (|) p(z∣C) 和 ( ∣ , ) ( |, ) p(X∣z,C)。具体来说,假设先验分布 ( ∣ ) (|) p(z∣C)服从由 ( μ z , σ z ) (\mu_z,\sigma_z) (μz,σz) 参数化的多元高斯分布,表示为 N ( μ z , σ z 2 ) N(\mu_z,\sigma_z^2) N(μz,σz2),我们设计了一个先验网络,它由点网络和额外的 MLP 层组成,从输入点云 预测 ( μ z , σ z ) (\mu_z,\sigma_z) (μz,σz)的值。然后,我们使用上下文编码器将输入的点云 ,嵌入到高维特征空间中,从而得到几何特征表示 f C f_C fC,它与从 N ( μ z , σ z 2 ) N(\mu_z,\sigma_z^2) N(μz,σz2)采样的 z z z连接并送入由 MLP 组成的预测网络,以预测边界框回归分布 p ( ∣ z , ) p( |z,) p(X∣z,C),即边界框的定位、尺寸和方向。
正如在各个相关领域中的经验观察到的那样,当预测网络仅使用条件 C C C的充分表达特征才能生成合理的输出时,可能很难利用潜在变量。因此,我们利用简化的 P o i n t N e t PointNet PointNet架构作为上下文编码器的主干,以避免后向崩溃。关于这些模块的实现细节,我们请读者参考第 5.1.3 节。在以下部分中,我们还使用 θ ( ∣ ) _\theta(|) pθ(z∣C) θ ( ∣ , ) _\theta( |, ) pθ(X∣z,C) 和 θ ( ∣ ) _\theta( |) pθ(X∣C) 来表示 ( ∣ ) (|) p(z∣C)、 ( ∣ , ) ( | ,) p(X∣z,C) 和 ( ∣ ) ( |) p(X∣C)来自 GLENet 网络的预测。
给定及其带注释的边界框,我们假设存在真实的后验分布 q ( ∣ , ) q(|,) q(z∣X,C)。因此,在训练期间,我们构建了一个由网络参数 ϕ \phi ϕ参数化的识别网络(见图 4 (b)),以学习服从高斯分布的辅助后验分布 q ( ′ ∣ , ) q('|,) q(z′∣X,C),表示为 N ( μ z ′ , σ z ′ 2 ) N(\mu_z',\sigma_z'^2) N(μz′,σz′2),为了正则化 p θ ( z ∣ C ) p_\theta(z|C) pθ(z∣C),即 p θ ( z ∣ C ) p_\theta(z|C) pθ(z∣C)应该接近 q ( ∣ , ) q(|,) q(z∣X,C)。
具体来说,对于识别网络,我们采用与先前网络相同的学习架构来生成点云嵌入,这些嵌入与真实边界框信息连接并馈送到后续的MLP层以学习 q θ ( z ∣ , ) q_\theta(z|,) qθ(z∣X,C)。此外,为了促进学习过程,我们将信息 编码为相对于预定义锚点的偏移量,然后执行归一化:
其中 ( w a , l a , h a ) (w^a,l^a,h^a) (wa,la,ha)是预先定好的点云中心anchor的尺寸, d = ( l a ) 2 + ( w a ) 2 d=\sqrt{(l^a)^2+(w^a)^2} d=(la)2+(wa)2是anchor对角线。我们还将 c o s ( r ) cos(r) cos(r) 作为识别网络的附加输入来处理角度周期性问题。
在 CAVE 之后,我们通过最大化条件对数似然的变分下限来优化 GLENet
为了将典型检测器改造成概率目标检测器,我们可以强制检测头估计边界框上的概率分布,表示为 P Θ ( y ) P_\Theta(y) PΘ(y),而不是确定性边界框位置:
因此,我们还假设真实边界框为高斯分布 (),方差为 2 ,其值由 GLENet 估计:
当忽略标签模糊性并将真实边界框公式化为 Dirac delta 函数时,方程式中的损失化为
因此,当预测分布达到最优解时,即为真值分布,导数都变为零,这是损失函数的理想属性,避免了上述梯度爆炸问题。
图 5 显示了在不同标签不确定性 下的 KL 散度损失函数的情况,它们在形状和属性上显着不同。 但是,当我们引入估计的标签不确定性并且预测分布等于 ground-truth 分布时,KL Loss 的最小值确定为 0.5,梯度更平滑。
大多数最先进的两阶段 3D 对象检测器预测 IoU 相关的置信度分数,指示定位质量,而不是将分类分数作为 NMS(非最大抑制)中的排序标准。如图 6 所示,可以观察到每个边界框的不确定性与实际定位质量之间存在很强的相关性,这鼓励我们使用不确定性作为判断框质量的标准。然而,估计的不确定性是 7 维的,因此直接用不确定性替换 IoU 置信度分数是不可行的。为此,我们提出了不确定性感知质量估计器(UAQE),它引入了不确定性信息以促进 IoU 分支的训练并提高 IoU 估计的准确性。具体来说,如图 7 所示,给定预测的不确定性作为输入,我们构建了一个轻量级子模块,该子模块由两个全连接 (FC) 层组成,随后是 Sigmoid 激活以生成系数。然后我们将 IoU 分支的原始输出乘以系数作为最终估计。
考虑到在概率目标检测器中,通过 KL 损失学习的定位方差可以反映预测边界框的不确定性,我们还提出了 3D 方差投票来组合相邻边界框寻求更精确的框表示。具体来说,在循环中的单次迭代中,选择得分最高的框,并根据自身和相邻框计算其新位置。在合并过程中,距离较近且方差较小的相邻框被赋予较高的权重。请注意,与 角度差较大的相邻框不参与角度的集成。我们建议读者参考算法 1 了解详细信息。
为了揭示我们方法的有效性和普遍性,我们将 GLENet 集成到几种流行的 3D 对象检测框架中以形成概率检测器,并在两个常用的基准数据集上进行评估,即 Waymo 开放数据集 (WOD) (Sun et al., 2020) 和 KITTI 数据集 (Geiger et al., 2012)。具体来说,我们首先在 5.1 节中介绍具体的实验设置和实现细节。之后,我们在第 5.2 节和第 5.3 节中报告了生成的概率检测器的检测性能,并与以前的最先进方法进行了比较。最后,我们进行了一系列消融研究,以验证第 5.4 节中不同关键组件和配置的必要性。