从单个RGB图像中进行6D姿态估计是计算机视觉中的一项重要任务。目前最先进的基于深度学习的方法依赖于一种间接的策略,即首先在图像平面坐标系和目标坐标系之间建立2D-3D的对应关系,然后应用PnP/RANSAC算法的变体。然而,这种两级pipeline不是端到端可训练的,因此很难用于许多需要微分姿态的任务。另一方面,目前基于直接回归的方法不如基于几何的方法。在这项工作中,我们对直接和间接方法进行了深入的研究,并提出了一种简单而有效的几何引导直接回归网络(GDR-Net)来从基于密集对应的中间几何表示中以端到端的方式学习6D姿态。大量实验表明,在LM、LM-O和YCB-V数据集上,我们的方法明显优于最先进的方法。
关键点:是利用关于二维-三维对应的中间几何特征定期组织的二维补丁,这有利于我们利用一个简单而有效的2维卷积Patch-PnP网络去直接从几何引导下恢复6D姿态
提出了一种新方法,用于从单个 RGB 输入图像中使用可用的 3D 模型来估计刚性对象的 6D 姿势。该方法适用于广泛的对象,包括具有全球或部分对称性的具有挑战性的对象。物体由紧凑的表面碎片表示,这些碎片允许系统地处理对称性。使用编码器解码器网络预测密集采样像素和碎片之间的通信。在每个像素中,网络预测:(i) 每个对象存在的概率,(ii) 给定对象存在的片段的概率,以及 (iii) 每个片段上的确切 3D 位置。每个像素选择相应的 3D 位置的数据依赖数,并且使用 PnP-RANSAC 算法的强大高效变体估计可能多个对象实例的姿势。在 2019 年 BOP 挑战赛中,该方法优于 T-LESS 和 LM-O 数据集上的所有 RGB 和大多数 RGB-D 和 D 方法。在 YCB-V 数据集中,它优于所有竞争对手,比第二好的 RGB 方法具有较大的优势
本文提出了一个新的实时6D对象姿势估计框架,名为G2L-Net。我们的网络以分而治之的方式在 RGB-D 检测点云上运行。具体来说,我们的网络由三个步骤组成。首先,我们通过二维检测从 RGB-D 图像中提取粗对象点云。其次,将粗对象点云馈送至翻译本地化网络,以执行 3D 细分和对象转换预测。第三,通过预测的细分和转换,我们将精细的对象点云传输到本地规范坐标中,在该坐标中,我们训练一个旋转本地化网络来估计初始对象旋转。在第三步中,我们定义了点位嵌入矢量功能,以捕获观点感知信息。为了计算更准确的自转,我们采用旋转残余估计器来估计初始旋转和地面真理之间的残留物,从而提高初始姿势估计性能。我们提议的 G2L-Net 是实时的,尽管通过提议的粗到细框架堆放了多个步骤。对两个基准数据集的广泛实验表明,G2L-Net在精度和速度方面都达到了最先进的性能。
HybridPose利用hybrid intermediate representation在输入图像中表达不同的几何信息,包括keypoints,edge vectors和symmetry correspondences。与单一表示相比,当一种类型的预测表示不准确时(存在遮挡),hybrid representation允许姿势回归利用更多不同的特征。HybHybridPose利用强大的回归模块来过滤预测的中间表示中的异常值。本文通过证明可以通过相同的简单神经网络预测所有中间表示而无需牺牲整体性能来展示HybridPose的鲁棒性。与最新的位姿估计方法相比,HybridPose在运行时间上具有可比性,并且准确性更高。例如,在Occlusion Linemod数据集上,本文的方法实现了30 fps的预测速度,平均ADD(-S)精度为79.2%,比当前的最新方法提高了67.4%。
它利用多个中间表示来表达输入图像中的几何信息以进行位姿估计。除关键点外,HybridPose还集成了一个预测网络,该网络可以输出相邻关键点之间的边缘矢量,如图1所示。由于大多数对象都具有(部分)反射对称性,因此HybridPose还利用了预测的密集逐像素对应关系,这些对应关系反映了像素之间的基本对称关系。
方法:
HybridPose的输入是一个图像I,其中包含一个已知类的对象,该图像由针孔照相机以已知的固有参数拍摄。假设对象类别具有标准坐标系Σ(即3D点云),HybridPose在Σ下输出图像对象的6D相机姿态(RI∈SO(3),tI∈R3),其中RI是旋转 组件,而tI是平移组件。
HybridPose由预测模块和位姿回归模块组成
方法概述。HybridPose由中间表示预测网络和位姿回归模块组成。预测网络将图像作为输入,并输出预测的关键点,边缘矢量和对称对应关系。姿态回归模块由初始化子模块和优化子模块组成。初始化子模块使用预测的中间表示法求解线性系统以获得初始姿态。改进子模块利用GM鲁棒范数进行优化(9),以获得最终的姿态预测
Step1: 利用有标记的合成数据进行完全监督,即给出真实的旋转量R、平移量T、掩膜MP;
Step2: 利用未标记的真实数据进行自监督,即仅给出物体的3D模型M、掩膜MP、通过传感器得到的RGB图像IS、深度图像DS。
6D物体的位姿估计是计算机视觉中的基本问题。卷积神经网络(CNN)最近被证明甚至能够从单眼图像中预测可靠的6D位姿估计。尽管如此,CNN被认为是高度数据驱动的,获取足够的标注数据通常非常耗时且劳动密集。为了克服这个缺点,本文提出了通过自监督学习来实现单目6D姿势估计的想法,从而消除了对标注样本的需求。在用合成RGB数据对本文提出的网络进行完全监督之后,本文利用神经渲染的最新进展对未标注的真实RGB-D数据进行进一步的自监督,以寻求视觉和几何上的最佳对齐方式。实验结果表明,本文提出的自监督方法能够显着提高模型的性能,胜过依赖于合成数据或采用领域适应领域的其他方法。
对于6D姿态估计,近期的很多工作,都是先检测出2D图片上的一些关键点,然后建立2D-3D的correspondings,最后通过RANSAC-based Pnp算法,求出最后的6D姿态。但是这种方法,有如下缺陷:
损失函数的设计没有针对到最后的6D姿态,只是建立在中间步骤。例如对2D投影的误差建立损失函数
这些工作都没有考虑一个实际情况:当知道其中一个关键点的投影坐标时,会对其他的关键点的位置造成影响
不能end-to-end的训练,inference的速度也会比较慢
1、End-to-end
这篇文章的主要贡献就是把基于 RANSAC 的 Pnp 算法,设计到了网络中,完成了end-to-end的结构。
作者做出了如下假设:把生成的Correspondences都输入到网络后,网络会自动选择一组最优的对应,生成Pose。即网络选择 代替了RANSAC,MLP部分代替了PnP计算。
2、 Ordering
针对每一个cluster内的点,是无序的,作者在这里使用了Max pooling。
对于不同的cluster,作者通过实验证明,如果提供一个不同的产生顺序,会产生不同的结果,因此作者在这里固定了他们的提供次序。
3、生成关键点
作者通过实验发现,对每种物体生成相同的关键点集合,或者根据各个物体的Bouding box生成关键点,准确度上并没明显差别,因此使用了通用的关键点生成方法。
用于RGB-D图像中估计一组已知对象的6D位姿,分别处理两个数据源,并使用一种新的dense fusion network来提取像素级的dense feature embedding,并从中估计姿态。实验结果表明,该方法在YCB-Video和Linemod两种数据集上均优于现有的方法。论文还将所提出的方法应用到一个真实的机器人上,根据所估计的姿态来抓取和操纵物体。
本文提出采用Pixel-wise Voting Network(PVNet)来回归指向关键点的像素单位向量,并通过这些向量使用RANSAC对关键点进行投票,从而可以抗遮挡或截断。进一步地,这种表示提供了关键点位置的不确定性,PNP解算器又可以进一步利用这些不确定性。
本文目标是估计RGB-D图像中从未见过的物体实例的6D位姿和尺寸。与“实例级”6D位姿估计任务相反,作者假设在训练或测试期间没有精确的CAD模型可用。为了处理给定类别中不同的和从未见过的物体实例,作者引入了标准化物体坐标空间(NOCS),即同一个类别中的所有物体实例使用一个共享的标准模型来表示。再通过训练神经网络来推断观察到的像素与共享标准模型的对应关系以及其他信息,例如类别标签mask。通过将预测图象与深度图像相结合,共同估计杂乱场景中多个物体的6D位姿和尺寸。为了训练网络,作者提出一种新的上下文感知技术来生成大量带注释的混合现实数据。为了进一步改进模型并评估它在真实数据上的性能,作者还提供了一个完全注释的真实场景下的数据集。大量实验表明,该方法能够鲁棒性的估计真实场景中从未见过物体的位姿和大小。
由于遮挡和对称性等问题,仅使用RGB图像估计物体的6D姿态任然具有挑战性(难构建具有精确纹理的三维模型)Pix2Pose可以在没有纹理模型的情况下预测每个目标像素的三维坐标。
设计了一种自动编码器结构来估计三维坐标和每个像素的期望误差。然后将这些像素级预测用于多个阶段,形成2D-3D对应关系,用RANSAC迭代的PnP算法直接计算姿态。我们的方法通过利用最近在生成性对抗训练中的成果来精确地恢复被遮挡的部分,从而对遮挡具有鲁棒性。此外提出了一种新的损耗函数变压器损耗,通过将预测引导到最接近地对称姿态来处理对称目标,对包含对称和遮挡目标的三个不同基准数据集的计算表明,我们的方法优于仅仅使用RGB图像的最新方法。
仅从RGB图像中检测物体及其6D姿态是许多机器人应用的重要任务。端到端的深度学习框架deep-6DPose,它可以从单个RGB图像中联合检测、分割和恢复对象实例的6D姿态。将最新的实例分割网络Mask R-CNN扩展到一个新的姿态估计分支,直接回归6D目标姿态,而不需要任何后处理。关键技术是将姿态参数解耦为平移和旋转,以便通过代数表示来回归旋转。由此产生的姿态回归损失是微分的,不受约束的,使训练变得更容易处理。(由于是端到端的架构,Deep 6DPose比竞争对手的多阶段方法快得多,提供了10fps的推理速度,非常适合机器人的应用)
在有限样本数下,模板匹配可以准确估计新目标的姿态,然而遮挡物体的姿态估计仍然是一个挑战。本文提出一种新的多任务模板匹配(MTTM)框架,该框架在预测分割掩膜的同时,从深度图像中找到目标物体最近的模板,并利用目标区域的相同特征映射实现模板与被检测物体在场景中的位姿变换。提出的特征比较网络通过比较模板的特征映射和场景的裁剪特征来计算分割遮罩和姿态预测。该网络的分割结果通过排除不属于目标的点,提高了姿态估计的鲁棒性。
提出了一种单阶段方法来同时检测RGB图像中的一个物体并预测其6D姿态,不需要多个阶段或检查多个假设,它只预测一个近似6D的姿势,然后必须细化,我们足够精确的,不需要额外的后处理。它的速度非常快,在GPU上每秒50帧,因此更适合实时处理。我们的方法的关键部分是一个新的CNN架构,直接预测对象的3D边界框的投影点的2D图像位置,然后用PnP算法估计物体的6D姿态。
提出一个新的网络架构,即一个快速和准确的单阶段6D姿势预测网络,不需要任何后处理,以无缝和自然的方式扩展了用于二维检测的单阶段CNN结构去执行6D检测任务。实现基于YOLO,但该方法适用于其他单阶段检测器。
提出了一种新的基于RGB数据的三维模型实例检测和6D姿态估计方法。为此,我们扩展了流行的SSD范式,以覆盖完整的6D姿势空间,并仅对合成模型数据进行训练。我们的方法可以与当前最先进的方法在多个具有挑战性的RGBD数据集上竞争或超越。此外,我们的方法在10Hz左右,要比相关的其它方法快很多倍。
本文提出了一种利用三维数据计算出的方案在单阶段深层卷积神经网络中进行联合目标检测和方向估计的新方法。对于方位估计,我们通过几个精心设计的层来扩展R-CNN结构。介绍了两种新的目标proposals方法,即利用立体数据和激光雷达数据。我们在KITTI数据集上的实验表明,通过合并两个领域的proposal,可以在保持低proposal数量下的同时实现高召回率。此外,在KITTI测试数据集的cyclists简单测试场景中,我们的联合检测和方向估计方法优于最新方法。
本文提出了一个鲁棒性且可以实时运行的重定位系统,该系统利用一个CNN实现了输入为RGB图像,输出为相机位姿的端到端定位系统。该系统在室内和室外都能够以每帧5ms的计算速度实时运行。此外,本文提出了23层深度卷积网络PoseNet,利用迁移学习将分类问题的数据库用于解决复杂的图像回归问题。其训练得到的特征相比较于传统局部视觉特征,对不同的光照、运动模糊以及不同的相机内参等具有更强的鲁棒性。同时,该论文展示了PoseNet基于已有的分类数据库可以在很少训练样本的情况下取得很好的性能。
本文提出了一种基于RGB-D数据的类别级6D目标姿态跟踪的深度学习方法-6-PACK算法。论文中的方法可以实时跟踪已知对象类别的新对象实例。6-PACK学习通过少量的3D关键点来紧凑的表示对象,在此基础上通过关键点匹配来估计对象实例的帧间运动。这些关键方法在没有人工监控的情况下端到端学习,以便最有效的跟踪。实验表明,这种方法大大优于现有方法上的NOCS类别6D姿态估计基准,并支持物理机器人执行简单的基于视觉的闭锁循环操作任务。
在主动场景中,当观察者无法从当前视点恢复目标的姿态时,观察者可以确定下一个视点的位置,并从另一个视点捕获新的场景,以提高对环境的认识,从而降低6D姿态估计的不确定性。本文提出一个完整的主动多视图框架来识别拥挤场景中多个物体实例的6自由度姿态。在主动视觉设置中加入几个部分以提高准确性:假设积累和验证结合了先前观点估计的基于单镜头的假设,并提取了最可能的假设集**;基于熵的次优视角预测生成下一个摄像机位置**以捕获新数据以提高性能;摄像机运动规划基于视角熵和运动代价规划摄像机的运动轨迹。对每个组件的不同方法进行了实现和评估,以显示性能的提高。
点对特征是一种广泛应用的点云三维目标检测方法,但在存在传感器噪声和背景杂波的情况下容易失败。我们引入了新的采样和投票方案,大大减少了杂波和传感器噪声的影响。实验表明,随着我们的改进,PPF变得比最先进的方法更具有竞争力,计算成本低。
提出了一种更好、更有效的抽样策略,加上对前处理和后处理步骤的小修改,使得文中的方法与最先进的方法相比具有竞争力,计算成本低
> All is well !!!