参考资料:
《Vision-based Robotic Grasping From Object Localization, Object Pose Estimation to Grasp Estimation for Parallel Grippers: A Review》
6D是指6个自由度,代表了3个自由度的位移(Translation),以及3个自由度的空间旋转 (Rotation),合起来就叫位姿 (Pose)。位姿是一个相对的概念,指的是两个坐标系之间的位移和旋转变换。
对于物体的6D位姿估计,通常用物体从世界坐标系到相机坐标系的RT变换:
T c = R c m ∗ T m + t c m T_c = R_{cm}*T_m+t_{cm} Tc=Rcm∗Tm+tcm其中, T m T_m Tm是物体再世界坐标系下的坐标, T c T_c Tc是相机坐标系; R c m R_{cm} Rcm是代表由世界坐标系到相机坐标系的旋转, t c m t_{cm} tcm代表位移。
PVNet3D、6-PACK
Average Distance of Model Points(ADD)
e A D D = avg x ∈ M ∥ ( R x + T ) − ( R ^ x + T ^ ) ∥ . e_{A D D}=\operatorname{avg}_{x \in M}\|(R x+T)-(\hat{R} x+\hat{T})\| . eADD=avgx∈M∥(Rx+T)−(R^x+T^)∥.其中 R R R 和 T T T 是真实的旋转和平移, R ^ \hat{R} R^ 和 T ^ \hat{T} T^ 是预测的旋转和平移, a v g avg avg是指计算均值。
ADD-S
给定真实的物姿 [ R ∣ T ] [R|T] [R∣T]和预测的姿态 [ R ^ ∣ T ^ ] [\hat{R}|\hat{T}] [R^∣T^],ADD-S是指:从3D模型的每一个预测点到最近的真实点距离,然后求平均(对所有点)。
在LineMod数据集中,ADD用于评估非对称物体,ADD-S用于对称物体,通常设置的阈值为模型直径的10%。
在YCB-Video数据集中,用ADD-S小于2cm的物体所占的比例来评估。在不同阈值下绘制ADD-S曲线,计算曲线下方的面积作为AUC值。