6d姿态估计综述

参考资料:
《Vision-based Robotic Grasping From Object Localization, Object Pose Estimation to Grasp Estimation for Parallel Grippers: A Review》

1.简介

1.1 6D位姿的含义

6D是指6个自由度,代表了3个自由度的位移(Translation),以及3个自由度的空间旋转 (Rotation),合起来就叫位姿 (Pose)。位姿是一个相对的概念,指的是两个坐标系之间的位移和旋转变换。

对于物体的6D位姿估计,通常用物体从世界坐标系相机坐标系的RT变换:
T c = R c m ∗ T m + t c m T_c = R_{cm}*T_m+t_{cm} Tc=RcmTm+tcm其中, T m T_m Tm是物体再世界坐标系下的坐标, T c T_c Tc是相机坐标系; R c m R_{cm} Rcm是代表由世界坐标系到相机坐标系的旋转, t c m t_{cm} tcm代表位移。

1.2 方法划分

1.2.1 基于点对应的方法-2D

  • 显示地寻找当前图像与模板图像之间的特征点对应。传统的特征包括SIFT、SURF、OBR等,深度特征例如LIFT、GLAMpoints、LCD等

6d姿态估计综述_第1张图片

  • 隐式地回归3D坐标点在2D上的投影,代表方法BB8、YOLO6D、Segment-driven、DPOD、EPOS等。
    6d姿态估计综述_第2张图片

1.2.2 基于点对应的方法-3D

PVNet3D、6-PACK

1.2.3 基于模板的方法-2D

1.2.4 基于模板的方法-3D

2. 常用数据集和评价指标

2.1 LineMod

2.2 YCB-Video

2.3 评价指标

Average Distance of Model Points(ADD)
e A D D = avg ⁡ x ∈ M ∥ ( R x + T ) − ( R ^ x + T ^ ) ∥ . e_{A D D}=\operatorname{avg}_{x \in M}\|(R x+T)-(\hat{R} x+\hat{T})\| . eADD=avgxM(Rx+T)(R^x+T^).其中 R R R T T T 是真实的旋转和平移, R ^ \hat{R} R^ T ^ \hat{T} T^ 是预测的旋转和平移, a v g avg avg是指计算均值。

ADD-S
给定真实的物姿 [ R ∣ T ] [R|T] [RT]和预测的姿态 [ R ^ ∣ T ^ ] [\hat{R}|\hat{T}] [R^T^],ADD-S是指:从3D模型的每一个预测点到最近的真实点距离,然后求平均(对所有点)。

在LineMod数据集中,ADD用于评估非对称物体,ADD-S用于对称物体,通常设置的阈值为模型直径的10%。
在YCB-Video数据集中,用ADD-S小于2cm的物体所占的比例来评估。在不同阈值下绘制ADD-S曲线,计算曲线下方的面积作为AUC值。

你可能感兴趣的:(6D姿态估计,计算机视觉,python)