参考链接:机械臂抓取---(1)概述 - PeterPeng7997 - 博客园 (cnblogs.com)
17篇6D姿态估计算法汇总(含论文,代码及解读)
6D位姿估计(开源包含视频测试)
1.Dense Fusion
原文链接:https://arxiv.org/abs/1901.04780
代码链接:https://github.com/j96w/DenseFusion
主要思想:从RGB-D图中估计已知对象的6D姿态。分别处理两个数据源。使用dense fusion network提取像素级dense feature embedding,并从中估计姿态。
本文贡献:
①提出一种将RGBD输入的颜色和深度信息融合的方法。利用嵌入空间中的2D信息来增加每个3D点的信息,并使用这个新的颜色深度空间来估计6D位姿。
②在神经网络架构中集成了一个迭代的微调过程,消除了之前后处理ICP步骤的依赖性。
2.PVNet(Pixel-wise Voting Network ,PVNet)
论文链接:https://arxiv.org/pdf/1812.11788.pdf
代码链接:https://github.com/zju3dv/pvnet
主要思想:使用PVNet来回归指向关键点的像素单位向量,并通过这些向量使用RANSAC对关键点位置进行投票,从而可以抗遮挡或截断。进一步地,这种表示提供了关键点位置的不确定性,PNP解算器又可以进一步利用这些不确定性。
本文贡献:
①即便在遮挡和截断的情况下,PVNet网络可以学习到一个指向2D keypoint的向量场表示;作者的创新之处:能够学习到十分robust的2D keypoints。
②基于PVNet得到的稠密预测,作者用了一种基于关键点分布的PnP算法来从2D keypoints分布求取(R,t)位姿。
3.Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation(CVPR2019)
论文链接:https://arxiv.org/abs/1901.02970
代码链接:https://github.com/hughw19/NOCS_CVPR2019
主要思想:本文的目标是估计RGB-D图像中从未见过的物体实例的6D位姿和尺寸。作者假设在训练或测试期间没有精确的CAD模型可用。为了处理给定类别中不同的和从未见过的物体实例,作者引入了标准化物体坐标空间(简称NOCS),即同一个类别中的所有物体实例使用一个共享的标准模型来表示。然后,通过训练神经网络来推断观察到的像素与共享标准模型的对应关系以及其他信息,例如类别标签和mask。通过将预测图像与深度图相结合,共同估计杂乱场景中多个物体的6D位姿和尺寸。为了训练网络,作者提出了一种新的上下文感知技术来生成大量带注释的混合现实数据。为了进一步改进模型并评估它在真实数据上的性能,作者还提供了一个完全注释的真实场景下的数据集。大量实验表明,该方法能够鲁棒地估计真实场景中从未见过物体的位姿和大小。
主要贡献:
①通过训练神经网络来推断观察到的像素与共享标准模型的对应关系以及其他信息,例如类别标签和mask。通过将预测图像与深度图相结合,共同估计杂乱场景中多个物体的6D位姿和尺寸。为了训练网络,作者提出了一种新的上下文感知技术来生成大量带注释的混合现实数据。为了进一步改进模型并评估它在真实数据上的性能,作者还提供了一个完全注释的真实场景下的数据集。大量实验表明,该方法能够鲁棒地估计真实场景中从未见过物体的位姿和大小。
②提出一个可以同时预测物体类别标签、mask和NOCS图的CNN,将NOCS图与深度图进行对应来估计从未见过物体的位姿和大小。
③使用空间上下文感知的混合现实方法来自动生成大量数据用来训练和测试。
4.Pix2Pose
论文链接:https://arxiv.org/abs/1908.07433
主要思想:由于遮挡和对称问题,仅使用RGB图像难估计位姿。没专业扫描设备难构建物体三维模型。因此,Pix2Pose在没有纹理模型的情况下预测每个目标像素的三维坐标。设计了一种自动编码器结构来估计三维坐标和每个像素的期望误差。然后将这些像素级预测用于多个阶段,形成2D-3D对应关系,用RANSAC迭代的PnP算法直接计算姿态。我们的方法通过利用最近在生成性对抗训练中的成果来精确地恢复被遮挡的部分,从而对遮挡具有鲁棒性。此外,提出了一种新的损耗函数变压器损耗,通过将预测引导到最接近的对称姿态来处理对称目标,对包含对称和遮挡目标的三个不同基准数据集的计算表明,我们的方法优于仅使用RGB图像的最新方法。
本文的贡献:
①提出了一种新的6D姿态估计框架Pix2Pose,该框架在训练过程中使用无纹理的3D模型从RGB图像中稳健地回归出目标的像素级3D坐标。
②一种新的损耗函数:transformer loss,用于处理具有有限个模糊视图的对称对象。
③在LineMOD、LineMOD Occlusion和TLess三个不同数据集上的实验结果表明,即使对象是被遮挡或对称的,Pix2Pose也优于最新的方法。
5.Deep-6DPose
论文链接:https://arxiv.org/abs/1802.10367v1
主要思想:本文介绍了一个端到端的深度学习框架deep-6DPose,它可以从单个RGB图像中联合检测、分割和恢复对象实例的6D姿态。我们将最新的实例分割网络Mask R-CNN扩展到一个新的姿态估计分支,直接回归6D目标姿态,而不需要任何后处理。
本文贡献:
我们的关键技术贡献是将姿态参数解耦为平移和旋转,以便通过李代数表示来回归旋转。由此产生的姿态回归损失是微分的,不受约束的,使训练变得容易处理。在两个标准位姿基准数据集上的实验表明,我们提出的方法与目前最先进的基于RGB的多阶段位姿估计方法相比,具有更好的性能。重要的是,由于端到端的架构,Deep-6DPose比竞争对手的多阶段方法快得多,提供了10 fps的推理速度,非常适合机器人应用。
6.Multi-Task Template Matching for Object Detection, Segmentation and Pose Estimation Using Depth Images(ICRA2019)
论文链接:https://ieeexplore.ieee.org/document/8794448
主要思想:在有限样本数下,模板匹配可以准确估计新目标的姿态。然而,遮挡物体的姿态估计仍然是一个挑战。此外,许多机器人应用领域遇到深度图像比颜色图像更适合的无纹理对象。本文提出了一种新的多任务模板匹配(MTTM)框架,该框架在预测分割掩模的同时,从深度图像中找到目标物体最近的模板,并利用目标区域的相同特征映射实现模板与被检测物体在场景中的位姿变换。提出的特征比较网络通过比较模板的特征映射和场景的裁剪特征来计算分割遮罩和姿态预测。该网络的分割结果通过排除不属于目标的点,提高了姿态估计的鲁棒性。实验结果表明,尽管MTTM方法仅使用深度图像,但在分割和姿态估计方面优于基线方法。
本文贡献:
①提出一个新的基于深度的框架:MTTM,通过与模板进行近邻匹配,使用共享的特征图来预测分割mask和物体的位姿。
②提出一个新的基于深度的框架:MTTM,通过与模板进行近邻匹配,使用共享的特征图来预测分割mask和物体的位姿。
7.Real-Time Seamless Single Shot 6D Object Pose Prediction(CVPR2018)
论文链接:https://arxiv.org/abs/1711.08848
代码链接:https://github.com/Microsoft/singleshotpose
主要思想:我们提出了一种单阶段方法来同时检测RGB图像中的一个物体并预测其6D姿态,不需要多个阶段或检查多个假设。我们是足够精确的,不需要额外的后处理。我们的方法的关键部分是一个新的CNN架构,直接预测对象的3D边界框的投影顶点的2D图像位置,然后用PnP算法估计物体的6D姿态。
主要贡献:
新的网络架构,即一个快速和准确的单阶段6D姿势预测网络,不需要任何后处理。它以无缝和自然的方式扩展了用于二维检测的单阶段CNN结构去执行6D检测任务。实现基于YOLO,但该方法适用于其他单阶段检测器,如SSD及其变体。
8.SSD-6D
论文链接:https://arxiv.org/abs/1711.10006v1
代码链接:https://github.com/wadimkehl/ssd-6d
主要思想:提出了一种新的基于RGB数据的三维模型实例检测和6D姿态估计方法。为此,我们扩展了流行的SSD范式,以覆盖完整的6D姿势空间,并仅对合成模型数据进行训练。
主要贡献:
①一个仅利用合成三维模型信息的训练阶段
②模型位姿空间的分解,便于对称性的训练和处理
③ SSD的一种扩展,产生2D检测并推断出正确的6D姿势
9.Pose-RCNN
论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7795763
主要思想:本文提出了一种利用三维数据计算出的方案在单阶段深层卷积神经网络中进行联合目标检测和方向估计的新方法。对于方位估计,我们通过几个精心设计的层来扩展R-CNN结构。介绍了两种新的目标proposals方法,即利用立体数据和激光雷达数据。我们在KITTI数据集上的实验表明,通过合并两个领域的proposal,可以在保持低proposal数量下的同时实现高召回率。
10.PoseNet
论文链接:https://arxiv.org/abs/1505.07427
代码链接:http://mi.eng.cam.ac.uk/projects/relocalisation/
主要思想:本文提出了一个鲁棒且可以实时运行的重定位系统,该系统利用一个CNN实现了输入为RGB图像输出为相机位姿的端到端定位系统。除此之外,提出了23层深度卷积网络PoseNet,利用迁移学习将分类问题的数据库用于解决复杂的图像回归问题。其训练得到的特征相较于传统局部视觉特征,对不同的光照、运动模糊以及不同的相机内参等具有更强的鲁棒性。同时,该论文展示了PoseNet基于已有的分类数据库可以在很少训练样本的情况下取得很好的性能。
主要贡献:
①提出了一种自动标注方法,利用SfM自动生成训练样本的标注(相机位姿),可以仅利用视频生成用于训练PoseNet的训练样本和标注,不需要人工标注每一幅图像的位姿信息,极大地节约了人力成本。
②提出迁移学习,利用训练好的分类器(classifier)以及少量的训练样本训练得到用于重定位的回归器(regressor),可以有效解决训练样本不足的问题。
11.6-PACK
论文链接:https://arxiv.org/abs/1910.10750v1
代码链接:https://sites.google.com/view/6packtracking
主要思想:本文提出了一种基于RGB-D数据的类别级6D目标姿态跟踪的深度学习方法-6-PACK算法。论文中的方法可以实时跟踪已知对象类别(如碗、笔记本电脑和杯子)的新对象实例。6-PACK学习通过少量的3D关键点来紧凑地表示对象,在此基础上通过关键点匹配来估计对象实例的帧间运动。这些关键点在没有人工监控的情况下端到端学习,以便最有效地跟踪。实验表明,这种方法大大优于现有方法上的NOCS类别6D姿态估计基准,并支持物理机器人执行简单的基于视觉的闭锁循环操作任务。
主要贡献:
①这种方法不需要已知的三维模型。相反,它避免了通过类似于2D对象检测中使用的proposals方法的新anchor机制来定义和估计绝对6D姿势的需要。
②这些anchor为生成三维关键点提供了基础。与以往需要手动标注关键点的方法不同,提出了一种无监督学习方法,该方法可以发现用于跟踪的最佳三维关键点集。
③这些关键点用作对象的紧凑表示,从中可以有效地估计两个相邻帧之间的姿态差。这种基于关键点的表示方法可以实现鲁棒的实时6D姿态跟踪。
12.Multi-view 6D Object Pose Estimation and Camera Motion Planning using RGBD Images
论文链接:
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8265470
主要思想:在主动场景中,当观察者无法从当前视点恢复目标的姿态时,观察者可以确定下一个视点的位置,并从另一个视点捕获新的场景,以提高对环境的认识,从而降低6D姿态估计的不确定性。我们提出了一个完整的主动多视图框架来识别拥挤场景中多个物体实例的6自由度姿态。我们在主动视觉设置中加入了几个部分以提高准确性:假设积累和验证结合了先前观点估计的基于单镜头的假设,并提取了最可能的假设集;基于熵的次优视角预测生成下一个摄像机位置以捕获新数据以提高性能;摄像机运动规划基于视角熵和运动代价规划摄像机的运动轨迹。对每个组件的不同方法进行了实现和评估,以显示性能的提高。
主要贡献:
①集成不同的组件,建立一个完整的主动系统,对多个目标进行检测和姿态估计。
②无监督下一个最佳视图(NBV)预测算法,通过基于当前对象假设的场景渲染来预测下一个最佳摄像机姿态,用于目标检测和姿态估计。
③使用物理引擎生成具有真实多对象配置的合成数据集。
13.Going further with point pair features
论文链接:http://arxiv.org/abs/1711.04061
主要思想:点对特征是一种广泛应用的点云三维目标检测方法,但在存在传感器噪声和背景杂波的情况下容易失效。我们引入了新的采样和投票方案,大大减少了杂波和传感器噪声的影响。实验表明,随着我们的改进,PPF变得比最先进的方法更具竞争力,因为它在一些具有挑战性的基准测试对象上的性能优于它们,而且计算成本较低。
主要贡献:提出了一种更好、更有效的抽样策略,加上对前处理和后处理步骤的小修改,使得文中的方法与最先进的方法相比具有竞争力:它以较低的计算成本,在最近具有挑战性的数据集上击败了它们。
14.BOP: Benchmark for 6D Object Pose Estimation
论文链接:https://arxiv.org/abs/1808.08319
代码链接:https://bop.felk.cvut.cz/home/
主要思想:提出了一种基于单RGB-D输入图像的刚体6D姿态估计基准。训练数据由一个纹理映射的三维物体模型或已知6D姿势的物体图像组成。该基准包括:
i)8个统一格式的数据集,涵盖不同的实际情况,包括两个新的数据集,侧重于不同的照明条件;
ii)一个具有姿势误差函数的评估方法,处理姿势模糊性,
iii)对15种不同的近期方法进行综合评估,以了解该领域的现状;
iv)一个在线评估系统,可随时提交新的结果。评估结果表明,基于点对特征的方法目前表现最好,优于模板匹配方法、基于学习的方法和基于三维局部特征的方法。
15. Multimodal Templates for Real-Time Detection of Texture-less Objects in Heavily Cluttered Scenes (ICCV), 2011.
论文链接:http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=6126326
主要思想:提出了一种多模式检测三维物体的方法。虽然它是通用的,但论文将它演示在图像和提供互补对象信息的稠密深度图的组合上。这种方法可以实时工作,在繁杂的杂波环境下,不需要耗时的三位一体阶段,并且可以处理不受约束的对象。论文基于对捕获不同模式的模板的有效表示,并且在商品硬件上的许多实验中表明,该方法显著地超过了单模式的最新方法。
主要贡献:
①提出一种有效的方法,同时利用多个采集模式的信息来定义一个模板,从而在复杂的环境中可靠地检测已知对象。
②每个模态的数据被离散到存储箱中,使用 “线性化响应图”来最小化缓存未命中并允许大量并行化。
③重点研究了彩色图像和稠密深度图的结合。
④方法是非常通用的,可以很容易地整合其他模式,只要提供的测量与图像可以量化对齐。
16.Gradient Response Maps for Real-Time Detection of Texture-Less Objects.
论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6042881
主要思想:本文提出了一种实时三维物体实例检测的方法,该方法不需要耗时的训练阶段,并且能够处理无纹理的物体。该方法的核心是一种新的模板匹配图像表示方法,该方法对小图像变换具有鲁棒性。这种稳健性基于扩展图像梯度方向,允许在分析图像时只测试所有可能像素位置的一小部分,并用有限的模板集表示三维对象。此外,本文还提出,如果有密集深度传感器,同时考虑到三维表面法向,可以扩展该方法以获得更好的性能。论文展示了如何利用现代计算机的体系结构来构建一个有效但非常有鉴别力的输入图像表示,该表示可用于实时考虑数千个模板。在大量的实际数据实验中,我们证明了我们的方法比目前最先进的方法在背景杂波方面要快得多,并且更具鲁棒性。
17.Model Based Training, Detection and Pose Estimation of Texture-Less 3D Objects in Heavily Cluttered Scenes.
论文链接:https://link.springer.com/content/pdf/10.1007/978-3-642-37331-2.pdf
主要思想:文章提出了一个使用Kinect体感相机(RGBD sensors),实现对3D目标自动建模、检测和跟踪的构架。基于LINEMOD法(其目标检测部分主要运用基于模板的LINEMOD方法,通过改进,提升13%检测正确率),利用RGBD信息,完成多视角模板匹配,提供姿态粗估计,具有可在线实时学习3D模型能力,可处理大量杂波和中度遮挡场景,能同时检测多目标。
主要贡献:
1、以色彩梯度和表面法线自动减少特征冗余,自动学习3D模型的模板,此外,在保证探测速度和稳定性的同时,提供了特征空间的采样方案。
2、提供了新的高效的后处理方法,表明姿态估计和色彩信息可验证特测假设,并提升13%探测正确率。
3、提供新的数据集,新数据集的主要特点为:对每一幅图像和序列提供3D模型和真实姿态;每一个序列均匀的覆盖了姿态空间;每幅图像包含了远近距离的2D和3D杂波。
1.Go-ICP: A Globally Optimal Solution to 3D ICP Point-Set Registration
迭代最近点(ICP)算法是目前应用最广泛的点集配准方法之一。然而,基于局部迭代优化的ICP算法易受局部极小值的影响。它的性能严重依赖于初始化的质量,并且只保证局部最优性。本文提出了在ICP定义的L2误差度量下,两个三维点集欧氏(刚性)配准的第一个全局最优算法Go-ICP。Go-ICP方法基于搜索整个3D运动空间SE(3)的分枝定界(BnB)方案。利用SE(3)几何的特殊结构,推导了新的配准误差函数的上下界。在BnB方案中引入局部ICP,在保证全局最优的同时加快了新方法的速度。本文还讨论了扩展,解决了异常值健壮性问题。实验结果表明,该方法能够在不考虑初始值的情况下产生可靠的配准结果。Go-ICP可应用于需要最佳解决方案或无法始终获得良好初始化的情况。
2.SUPER 4PCS Fast Global Pointcloud Registration via Smart Indexing
大规模场景中的数据采集通常需要通过多次扫描积累信息。一种常见的方法是使用迭代最近点(ICP)算法(或其变体)局部对齐扫描对,但需要静态场景和扫描对之间的小运动。这可防止在多个扫描会话和/或不同采集模式(如立体声、深度扫描)之间积累数据。或者,可以使用允许扫描处于任意初始姿势的全局注册算法。然而,最先进的全局配准算法4PCS在数据点的数量上具有二次时间复杂度,这大大限制了它在获取大型环境方面的适用性。本文提出了Super 4PCS全局点云配准,它可以在线性时间(数据点的数目)中运行,并且在基于扫描对的(未知)重叠对齐问题的复杂性上输出敏感。算法简单,内存利用率高,速度快。本文证明,Super 4PCS比其他方法有显著的加速效果,并允许在以前不可能的尺度上非结构化高效地获取场景。
3.3DRegNet: A Deep Neural Network for 3D Point Registration
本文提出了一种三维扫描配准的深度学习算法3DRegNet。近年来随着廉价的3D商品传感器的出现,开发一种基于学习的3D配准算法将是非常有益的。本文在给定一组三维点对应关系的情况下,利用深度残差层和卷积层建立深度网络3DRegNet,主要完成两项任务:
(1)将点对应关系分类为正确/错误的点对应关系
(2)可以回归将扫描对齐到公共参考帧的运动参数
与经典方法相比,3DRegNet有几个优点。首先,由于3DRegNet的工作原理是点对应,而不是原始扫描,因此明显快于许多传统方法。其次,论文证明该算法可以扩展到多视图场景,即同时处理两次以上扫描的注册。与使用四元数表示旋转的四变量位姿回归网络不同,本文使用李代数仅使用三个变量表示旋转。在两个具有挑战性的数据集(ICL-NUIM和SUN3D)上进行的大量实验表明3DRegNet性能优于其他方法,并取得了最新的结果。
4.3DMatch: Learning Local Geometric Descriptors from RGB-D Reconstructions
由于三维扫描数据的噪声、低分辨率和不完整性,在真实深度图像上进行局部几何特征匹配是一项具有挑战性的任务。这些困难限制了目前最先进的方法的性能,这些方法通常基于几何特性上的直方图。本文提出了一个数据驱动的模型3DMatch,该模型学习局部体块描述符以建立部分3D数据之间的对应关系。为了积累模型的训练数据,提出了一种自监督的特征学习方法,利用现有的RGB-D重建中发现的数百万个对应标签。实验表明,该描述子不仅能够匹配新场景中的局部几何特征进行重建,而且可以推广到不同的任务和空间尺度(如Amazon Picking Challenge的实例级对象模型对齐和网格曲面对应)。结果表明,3DMatch始终优于其他最先进的方法,具有显著的优势。