刚体6D姿态估计方法综述

刚体6D姿态估计方法综述

1 问题描述

对于一个刚体,已有单个视角下的RGB-D数据,恢复相机坐标系下物体的6D位姿,即3D位置和3D姿态;

2 问题解析

这类问题通常需要已知物体的3D模型(点云或网格,纹理情况视方法而定),直观思路是寻找到单个视角下数据和已有3D模型直接的映射,根据物体表面的纹理情况,可以基于RGB图像,也可以基于Depth图像,也可以两者混合;此外,当物体有遮挡呢?可以采用局部投票的方法;当没有物体3D模型呢?可以采用基于回归的方法;

3 问题分类

可以将刚体6D姿态估计的方法分为以下四大类 [2018-Learning to predict], 分别为Correspondence-based method, Template-based method, Voting-based method 和 Regression-based method;

姿态估计方法 已知信息 核心思路 代表方法 适用场景
基于2D-3D对应的方法 3D模型3D点与以及投影后的带纹理图像 将3D模型投影得到RGB模板图像,根据特征点如Sift等的带匹配点对,再使用PnP算法;(类似vSLAM重定位) SIFT,SURF,ORB等 纹理丰富
基于3D-3D对应的方法 3D模型的3D点云数据 将Depth图像对应3D点云配准到完整3D模型;可使用RANSAC方法或基于3D描述符方法粗配准,再使用ICP细配准; Super 4PCS, SpinImages, FPFH, SHOT等3D特征描述符, ICP 无纹理
基于模板的方法 3D模型的3D点云数据,以及投影后的RGB图像和Depth图像 提取2D模板图像轮廓的梯度(可结合深度图法向),和当前图像轮廓的梯度(可结合Depth图像的法向)进行匹配,得到最相近模板,以模板位姿作为粗位姿;可结合ICP细配准; LINEMOD, [2018-Implicit] 纹理不丰富
基于投票的方法 3D模型的3D点云数据 在局部建立坐标系,每一个局部都能预测一个到3D模型的变换;大量的局部能够预测出很多变换,最后使用RANSAC寻找最优的变换; PPF, Object Coordinate, DenseFusion, PVNnet等 无纹理
基于回归的方法 3D模型的3D点云数据或者投影到N个角度的图像(对应位姿) 寻找位姿和图像之间的内在联系;将位姿用不同形式表示,使其适用于CNN网络的输出;可分为直接回归6D位姿和先估计2d投影点再使用PnP间接恢复位姿; PoseCNN,Deep6DPose,BB8,SSD-6D,等 无纹理

3.1 Correspondence-based method

这类方法针对纹理丰富的物体,是最常用的方法;该方法又可以分为两类:寻找已知模型3D点和观测RGB图像2D像素点之间的对应;寻找已知模型3D点和观测Depth图像3D点之间的对应;

3.1.1 3D-2D对应

3D模型首先投影到N个角度,得到N张模板RGB图像,记录3D点和2D像素之间的对应;采集单个视角下RGB图像后,提取特征点如 SIFT,SURF,ORB等,寻找和模板图像之间的对应 (2D-2D);这样我们得到了3D点和当前观测RGB图像2D像素点的对应,使用Perspective-n-Point(PnP)算法即可恢复当前视角图像的位姿;(类似基于特征点vSLAM中的重定位过程)

3.1.2 3D-3D对应

观测的Depth图像可以结合内参转换为3D点云,需要和已有完整3D点云进行配准;当单视角观测点云和完整3D点云位姿偏差较大时,需要进行全局配准(粗配准);当单视角观测点云和完整3D点云位姿很接近时,可以使用局部配准(细配准),如ICP等方法;全局配准方法主要分为2类,一类基于RANSAC类方法如Super 4PCS [2014-Super 4PCS],随机选择3对或者4对点进行投票,选择最优的对应最为最终变换;一类是基于特征描述符的方法,在点云上分别提取显著性特征点,根据描述符如SpinImages,FPFH,SHOT等,寻找3D点之间的对应,确定变换;全局配准的结果可以用局部配准方法进行优化;

3.2 Template-based method

这类方法针对的是弱纹理或者无纹理图像,也即Correspondence-based method不能处理的情况;这类方法中,很难提取特征点,能利用的可以是RGB图像的梯度信息;完整3D模型也投影到N个角度,得到N张模板RGB图像,记录每张投影时对应的位姿;通过比较观测RGB图像和模板RGB图像的梯度信息,寻找到最相似模板图像,以该模板对应的位姿作为观测图像对应的位姿;该类方法的代表方法是LineMode方法 [2012-Model based];

3.3 Voting-based method

这类方法主要针对的是具有遮挡的情况;依据是图像中的每一个局部都能够对整体的输出产生投票;代表性方法是基于Object coordinate的方法 [2014-Learning 6d object pose],每一个Object coordinate都能预测一对3D-3D之间的变换,通过产生大量假设再refine得到最终结果;此外还有基于Hough forest的方法 [2014-Latent-class],基于Point Pair Features (PPF) [2012-3d object detection] 的方法;此外,还有DenseFusion方法,分别对RGB图像和Depth对应3D点云使用3DCNN网络得到融合的pixel-wise dense feature,每一个feature都能预测一个姿态,最后通过投票得到最后的6D姿态;该方法是当前精度最高的算法;

3.4 Regression-based method

该类方法主要学习图像特征和6D位姿之间的联系;常用的方法为在基于深度学习进行目标检测的基础上,再回归出物体的6D位姿;常见的方法可以分为两类,一类直接回归出物体的6D姿态,包括PoseCNN [2017-Posecnn], Deep-6DPose [2018-Deep-6dpose]等;另一类方法预测关键3D点在2D图像上的投影位置,然后使用pnp方法恢复姿态,包括BB8 [2017-Bb8],Tekin’18 [2018-Real-time], SSD6D [2017-Ssd-6d]等;

4 总结

以上方法中,Correspondence-based method精度高,是主流采用的方法,在进行机器人抓取时较为常用;弊端是需要3D物体精确的3D模型;Template-based method方法精度较为受限;Voting-based方法精度较高,然而运算速度慢;Regression-based method方法精度较高,扩展性好,但需要大量训练数据。

参考文献

2012-Model based training, detection and pose estimation of texture-less 3d objects in heavily cluttered scenes
2012-3d object detection and localization using multimodal point pair features
2014-Super 4PCS Fast Global Pointcloud Registration via Smart Indexing
2014-Learning 6d object pose estimation using 3d object coordinate
2014-Latent-class hough forests for 3d object detection and pose estimation
2017-Bb8: a scalable, accurate, robust to partial occlusion method for predicting the 3d poses of challenging objects without using depth
2017-Ssd-6d: Making rgb-based 3d detection and 6d pose estimation great again
2017-Posecnn: A convolutional neural network for 6d object pose estimation in cluttered scenes
2018-Deep-6dpose: recovering 6d object pose fromasinglergbimage
2018-Learning to predict dense correspondences for 6d pose estimation
2018-Real-time seamless single shot 6d object pose prediction
2018-Implicit 3D Orientation Learning for 6D Object Detection From RGB Images
2019-Densefusion: 6d object pose estimation by iterative dense fusion

你可能感兴趣的:(计算机视觉,人工智能,python)