DenseFusion(6D姿态估计)解读-2019cvpr

DenseFusion(6D姿态估计)解读-2019cvpr

资源

论文
作者源码
他人修改过代码

作者的想法

我们在研究中发现,从 RGB-D 输入中提取 6D 姿态信息时,很多点是被其他对象遮挡住的,这就会导致识别性能发生明显下降。在前人的工作中,一种流行的方法是利用全局特征进行 6D 位姿估计。但是当发生了遮挡,全局特征很大程度上会受到影响,导致预估测结果不佳。在这项工作中,我们生成了基于像素的密集融合方式,在不同的通道中先分别处理 RGB 和深度信息,以生成基于像素的颜色嵌入和带有 PointNet 结构的几何嵌入。然后我们利用 RGB 和密集度之间的对应关系就可以实现像素级别的融合并进行预测

1.摘要

从RGB-D图像进行6D目标位姿估计的一个关键技术挑战是充分利用两个互补的数据源。以前的工作要么是从RGB图像和深度中分别提取信息,要么是使用昂贵的后处理步骤,限制了它们在高度混乱的场景和实时应用中的性能。在这项工作中,我们提出了一个从RGB-D图像中估计一组已知物体的6D姿态的通用框架DENSEFORSION。dense fusion是一种异构的体系结构,它对两个数据源分别进行处理,并使用一种新的密集融合网络来提取像素级的密集特征嵌入,从中估计姿态。此外,我们还集成了一个端到端迭代位姿优化过程,在实现近实时推理的同时进一步改进了位姿估计。实验结果表明,该方法在YCB视频和LineMOD两个数据集上均优于目前最新的方法,并将该方法应用于实际机器人中,实现了基于姿态估计的目标抓取和操作。

2.介绍

6D目标姿态估计是许多重要的现实应用的关键,如机器人抓取和操纵、自主导航和增强现实。理想情况下,解决方案应处理形状和纹理变化的对象,对严重遮挡、传感器噪声和改变照明条件显示鲁棒性,同时达到实时任务的速度要求。廉价的RGB-D传感器的出现使得即使在光线不好的环境中也能比仅用RGB的方法更准确地推断低纹理物体的姿态。然而,现有的方法很难同时满足精确姿态估计和快速推理的要求。
在这项工作中,我们提出了一种端到端的深度学习方法,用于从RGB-D输入估计已知物体的六自由度姿态。我们方法的核心是在每像素级别嵌入和融合RGB值和点云,这与之前使用图像裁剪来计算全局特征[41]或2D边界框[22]的工作类似。这种每像素的融合方案使我们的模型能够明确地了解局部的外观和几何信息,这对于处理严重的遮挡是至关重要的。此外,我们还提出了一种在端到端学习框架下进行姿态调整的迭代方法。这大大提高了模型的性能,同时保持了参考速度的实时性。
我们在YCB视频[40]和LineMOD[12]两个常用的6D姿态估计基准中评估了我们的方法。结果表明,经过ICP精细化[40]后,我们的方法的位姿准确度比最新的PoseCNN高3.5%,而推理时间比现有的PoseCNN快200倍。特别地,由于我们提出了一种新的密集融合方法,我们证明了它在高度混乱的场景中的鲁棒性。最后,我们还展示了它在一个真实的机器人任务中的实用性,在这个任务中,机器人估计物体的姿势并抓住它们来清理桌子。

总之,这项工作的贡献有两方面:
首先,我们提出了一种从RGB-D输入中结合颜色和深度信息的原则性方法。我们利用为任务学习的嵌入空间中的二维信息来增强每个三维点的信息,并利用这个新的颜色深度空间来估计6D姿态。其次,我们在神经网络架构中整合了一个迭代求精过程,消除了前一个后处理ICP步骤方法的依赖性。

3.相关工作

经典方法从输入的RGB-D数据中提取三维特征,并进行相应的分组和假设验证。然而,这些特征要么是硬编码的,要么是通过优化替代目标,例如重建,而不是6D姿态估计的真正目标。像PoseCNN这样的新方法直接从图像数据中估计出6D姿态。Li等人进一步将深度输入作为附加信道融合到基于CNN的体系结构中。然而,这些方法依靠昂贵的后处理步骤来充分利用3D输入。相比之下,我们的方法在保留输入空间的几何结构的同时,将三维数据融合到二维外观特征中,并且我们证明它在YCB视频数据集[40]上执行[40]而无需后期处理步骤。我们的方法与点融合最为相关,其中几何和外观信息融合在一个异质的结构中。结果表明,我们提出的新的局部特征融合方案明显优于点融合的级联融合方法。此外,我们还使用了一种新的迭代求精方法来进一步改进姿态估计。

4.模型

我们的目标是估计一组已知物体在杂乱场景的RGB-D图像中的6D姿态。在不失一般性的前提下,将6D位姿表示为齐次变换矩阵p∈SE(3)。换言之,6D姿势由旋转R∈SO(3)和平移t∈R3组成,p=[R | t]。由于我们从摄像机图像中估计出物体的6D姿态,所以这些姿态是相对于摄像机坐标系定义的。估计已知物体在敌对条件下的姿态(如严重遮挡、光线不足等)只有通过组合颜色和深度图像通道中包含的信息才有可能。但是,这两个数据源位于不同的空间中。从异构数据源中提取特征并进行适当的融合是该领域的关键技术挑战。
我们通过:
(1)一个异构体系结构来解决这个问题,该体系结构以不同的方式处理颜色和深度信息,保留每个数据源的本机结构(秒)。(2)一个密集的像素级融合网络,通过利用数据源之间的内在映射(秒)进行颜色深度融合。
(3)最后,利用可微迭代求精模块(Sec)进一步改进姿态估计。与[16,40]中使用的昂贵的事后优化步骤相比,我们的优化模块可以与主架构联合训练,只需要总推理时间的一小部分。

5.模型结构

DenseFusion(6D姿态估计)解读-2019cvpr_第1张图片
**如图示出了整体提议的架构。体系结构包含两个主要阶段:**第一阶段以彩色图像为输入,对每个已知的对象类别进行语义分割。然后,对于每个分割的对象,我们将masked深度像素(转换为三维点云)以及masked边界框裁剪的图像块馈送到第二阶段。
第二阶段处理分割结果并估计物体的6D姿态。它包括四个部分:a)处理颜色信息并将图像裁剪中的每个像素映射到颜色特征嵌入的完全卷积网络;b)基于点网的[23]网络,将屏蔽的三维点云中的每个点处理到几何特征嵌入,c) 一种基于无监督置信度评分的像素级融合网络,它结合了嵌入和输出对目标6D姿态的估计;d)一种迭代自求精方法,以课程学习的方式训练网络并迭代地优化估计结果。

6.语义分割

第一步是对图像中感兴趣的对象进行分割。我们的语义分割网络是一个以图像为输入,生成N+1通道语义分割图的编解码结构。每个通道都是一个二进制掩码,其中活动像素描述N个可能已知类中的每个类的对象。本文的工作重点是开发一种位姿估计算法。因此,我们使用了由[40]提出的现有分割架构。

7.密集特征提取

在这一领域的关键技术挑战是从颜色和深度通道中正确提取信息并进行协同融合。尽管颜色和深度在RGB-D帧中呈现类似的格式,但它们的信息驻留在不同的空间中。因此,我们分别处理它们,从保留数据源内在结构的嵌入空间生成颜色和几何特征。

**密集三维点云特征嵌入:**以前的方法使用CNN作为附加图像通道来处理深度图像[16]。然而,这种方法忽略了深度通道固有的三维结构。相反,我们首先使用已知的相机内部函数将分割的深度像素转换为三维点云,然后使用类似于点网的结构来提取几何特征。Qi等人的PointNet。[23]率先使用对称函数(max pooling)在处理无序点集时实现置换不变性。最初的架构以原始点云作为输入,并学习如何对每个点附近以及整个点云的信息进行编码。这些特征在形状分类和分割[23]和姿态估计[22,41]中被证明是有效的。我们提出了一个几何嵌入网络,通过将每个P分割点映射到一个dgeo维特征空间来生成密集的每点特征。我们实现了PointNet体系结构的一个变体,它使用平均池化而不是常用的最大池化作为对称归约函数。
**密集彩色图像特征嵌入:**彩色嵌入网络的目标是提取每个像素的特征,从而在三维点特征和图像特征之间形成密集的对应关系。形成这些密集对应关系的原因将在下一节中阐明。图像嵌入网络是一种基于CNN的编解码结构,它将一幅大小为H×W×3的图像映射到一个H×W×drgb的嵌入空间中。嵌入的每个像素是一个drgb维向量,表示输入图像在相应位置的外观信息。

8.像素级密集融合

到目前为止,我们已经从图像和三维点云输入中获得了密集的特征;现在我们需要融合这些信息。一种简单的方法是从分割区域的密集颜色和深度特征生成全局特征。但是,由于严重的遮挡和分割错误,上一步的特征集可能包含其他对象或背景部分上的点/像素特征。因此,盲目地将颜色和几何特征进行全局融合会降低估计的性能。接下来我们描述了一种新的像素级密集融合网络,它有效地结合了提取的特征,特别是在严重遮挡和不完全分割的情况下的姿态估计。
**像素级的密集融合:**我们的密集融合网络的核心思想是进行局部的逐像素融合,而不是全局融合,这样我们就可以根据每个融合的特征进行预测。通过这种方法,我们可以潜在地选择基于对象可见部分的预测,并最小化遮挡和分割噪声的影响。具体来说,我们的密集融合程序首先根据已知摄像机内参数投影到图像平面上,将每个点的几何特征与其对应的图像特征像素相关联。然后将获得的特征对串接并馈送到另一个网络,以使用对称约化函数生成固定大小的全局特征向量。虽然我们避免使用单一的全局特征进行估计,但在这里,我们使用全局密集融合特征来丰富每个密集像素特征,以提供全局上下文。我们将每一个像素特征输入到最终的网络中,预测物体的6D姿态。换言之,我们将训练该网络从每个密集融合的特征中预测一个姿势。结果是一组预先设定的姿势,每个特征一个。这定义了我们的第一个学习目标,我们将在第二节中看到。
我们现在将解释我们的方法,学习如何以自我监督的方式选择最佳预测,这是由Xu等人的工作启发的。〔41〕
**每像素自监督置信度:**我们希望训练我们的姿势估计网络,以根据特定的上下文来决定哪个姿势估计可能是最佳的假设。为此,除了姿态估计预测外,我们还修改网络以输出每个预测的置信度ci。我们必须在总体学习目标中反映第二个学习目标,我们将在下一节末尾看到这一点。

9.6D目标姿态估计

在定义了整个网络结构之后,我们现在更仔细地看一下学习目标。将姿态估计损失定义为ground truth姿态下的目标模型的采样点与由预测姿态变换后的同一模型上对应点之间的距离。具体地说,对于每一密集像素的预测,最小化的损失被定义为在这里插入图片描述
上述损失函数仅适用于非对称对象,其中对象形状和/或纹理确定唯一的规范框架。对称对象有多个且可能有无限多个规范框架,这导致学习目标不明确。因此,对于对称对象,我们将估计模型方向上的每个点与ground truth模型上最近点之间的距离最小化。损失函数变成:
在这里插入图片描述
优化所有预测的每稠密像素姿势将是最小化每稠密像素损失的总和:然而,如前所述,我们希望我们的网络学习平衡每稠密像素预测之间的信任。为此,我们用稠密像素置信度加权每稠密像素损失,并添加第二个置信正则项:
在这里插入图片描述

10.迭代优化

迭代最近点算法(ICP)[2]是许多6D位姿估计方法[14,30,40]使用的一种强大的求精方法。然而,对于实时应用程序来说,性能最好的ICP实现往往不够高效。本文提出了一种基于神经网络的迭代求精模块,能够快速、稳健地提高最终姿态估计结果。
其目的是使网络能够以迭代的方式修正其自身的姿态估计误差。这里的挑战是训练网络改进先前的预测,而不是做出新的预测。为此,我们必须将上一次迭代中所做的预测作为下一次迭代输入的一部分。**我们的核心思想是将先前预测的姿态作为目标对象的标准帧的估计,并将输入点云转化为该估计的标准帧。**这样,转换后的点云隐式地对估计的姿态进行编码。然后,我们将转换后的点云反馈到网络中,并基于先前估计的姿态预测一个残差姿态。此过程可以迭代应用,并在每次迭代中生成可能更精细的姿势估计。程序如图3所示。具体来说,我们训练一个专用的位姿残差估计器网络来实现给定的主网络初始位姿估计的细化。在每次迭代中,我们都会重复使用从主网络嵌入的图像特征,并对新转换的点云计算出的几何特征进行密集融合。姿态残差估计器使用融合像素特征集的全局特征作为输入。经过K次迭代,我们得到最终的姿态估计,作为每次迭代估计的串联:pˆ=[RK | tK]·[RK−1 | tK−1]·····[R0 | t0]姿态残差估计器可以与主网络联合训练。然而,训练开始时的姿势估计太过嘈杂,无法学习到任何有意义的东西。因此,在实践中,联合训练是在主网络融合后开始的。

实验

在实验部分,我们将回答以下问题:(1)密集融合网络与单纯的级联全局融合相比如何?(2) 密集融合和预测方案对严重的遮挡和分割错误是否具有鲁棒性?(3) 迭代求精模块是否改进了最终姿态估计?(4) 我们的方法对于机器人抓取等下游任务是否足够健壮和高效?
为了回答前三个问题,我们评估了两个具有挑战性的6D目标姿态估计数据集的方法:YCB视频数据集[40]和LineMOD[12]。YCB视频数据集在不同遮挡条件下具有不同形状和纹理级别的对象。因此,它是一个理想的测试平台,我们的咬合弹性多模态融合方法。LineMOD数据集是一个广泛使用的数据集,它允许我们与更广泛的现有方法进行比较。我们将我们的方法与最先进的方法[14,30]以及模型变体进行比较。对于最后一个问题,我们将我们的模型部署到一个真实的机器人平台上,并使用我们模型的预测来评估机器人抓取任务的性能。

结论

提出了一种新的基于RGB-D图像的已知物体6D姿态估计方法。我们的方法融合了特征的密集表示,其中包括基于预测可信度的颜色和深度信息。使用这种密集融合方法,我们的方法在多个数据集上都优于以前的方法,并且对遮挡的鲁棒性显著提高。此外,我们证明机器人可以使用我们提出的方法来抓取和操作物体。

你可能感兴趣的:(pyTorch,深度学习,算法)