6D位姿估计的理解及BOP数据集参数说明

6D位姿估计的理解及BOP数据集参数说明

一、6D位姿估计
姿态估计在百度上搜会出现“姿态估计问题就是确定某一三维目标物体的方位指向问题”的解释,但是具体来讲确定某一三维目标物体的方位指向问题到底是什么意思呢?

首先,6D表示6个自由度,3个自由度的位移(Translation)和3个自由度的空间旋转(Rotation)。位移即方位,旋转即指向。将它们组合起来便构成了“位姿”。位姿并不是绝对的,它指的是两个坐标系之间的变换(Translation and Rotation),而坐标系有世界坐标系、相机坐标系和物体坐标系三种,所以也就有了物体6d位姿估计和相机6d位姿估计两种位姿估计。

这两种位姿估计本质上讲是差不多的,区别就是从哪一个坐标系变换到相机坐标系。
一、6d物体位姿估计
6d物体位姿估计的任务就是估计从物体坐标系到相机坐标系的刚性变换,即在拍摄照片时,相机坐标系相对于物体坐标系发生的平移和旋转变换。通常用物体坐标系到相机系的RT变换来表示:
在这里插入图片描述

  • Tc:物体在相机坐标系下的3D点
  • Tm:物体在物体坐标系下的3D点
  • Rcm:物体从物体坐标系到相机坐标系的旋转
  • tcm:物体从物体坐标系到相机坐标系的位移

二、6d相机位姿估计
6d物体位姿估计的任务就是估计从世界坐标系到相机坐标系的刚性变换,即在拍摄照片时,相机坐标系相对于世界坐标系发生的平移和旋转变换。通常用世界坐标系到相机系的RT变换来表示:
在这里插入图片描述

  • Tc:物体在相机坐标系下的3D点
  • Tm:物体在世界坐标系下的3D点
  • Rcm:物体从世界坐标系到相机坐标系的旋转
  • tcm:物体从世界坐标系到相机坐标系的位移

三、BOP数据集参数
BOP数据集,这里可以学习数据集的相关内容和下载数据集。
在跑ssd-6d时用到了BOP数据集里的部分数据集,有一些参数我不太明白,后来通过查找资料,终于知道了每个文件里的参数是什么意思。
1.相机参数
6D位姿估计的理解及BOP数据集参数说明_第1张图片

对应于如图所示的文件“scene_camera.json”,打开后包括以下参数:

  • cam_K:表示相机的内参,是一个三行三列的矩阵K按行来保存得到的向量
  • cam_R_w2c:表示世界坐标系到相机坐标系的旋转矩阵R_w2c(3×3)按行来保存得到的向量
  • cam_t_w2c:表示世界坐标系到相机坐标系的三行一列的位移向量t_w2c(3×1)
  • depth_scale:一个因子,用来与depth图乘积得到深度值(单位:mm)
  • view_level:试点细分级别

相机矩阵:P_w2i = K * [R_w2c, t_w2c]

世界坐标系下的3D点与图片上的2D点的转换:sp_i=P_w2ip_w

  • p_w = [x, y, z, 1]’ 世界坐标系下点的3D坐标
  • p_i =[u, v, 1] 相机坐标系2D坐标
    2.真值标记
    6D位姿估计的理解及BOP数据集参数说明_第2张图片

对应如图所示的文件“scene_gt.json”,打开后包括以下参数:

  • obj_id:物体的id
  • cam_R_m2c:物体坐标系到相机坐标系的三行三列的旋转矩阵R_m2c按行保存的结果
  • cam_t_m2c:物体坐标系到相机坐标系的三行一列的位移向量t_m2c

相机矩阵:P_w2i = K * [R_w2c, t_w2c]

物体坐标系(Model)下的3D点与相机坐标系下2D点的转换:sp_i=P_w2ip_w

  • p_w = [x, y, z, 1]’ 物体坐标系下点的3D坐标
  • p_i =[u, v, 1] 相机坐标系下的2D坐标

3.位姿真值的Meta信息
6D位姿估计的理解及BOP数据集参数说明_第3张图片
对应如图所示的文件“scene_gt_info.json”,打开后包括以下参数:

  • bbox_obj:物体的二维bbox,四个值分别表示(左上角坐标,框宽,框高)=(x,y,width,height)
  • bbox_visib:物体轮廓的可见部分的二维bbox
  • px_count_all : 物体二维bbox中的像素总数
  • px_count_visib:物体轮廓的可见部分的二维bbox中的像素数
  • px_count_valid:depth图像中的非零值点在二维bbox中的像素数
  • visib_fract := px_count_visib/px_count_all可见部分的占比

参考:
https://blog.csdn.net/u014712806/article/details/112339410
https://blog.csdn.net/dsoftware/article/details/106101681

你可能感兴趣的:(数据集格式,位姿估计,深度学习,计算机视觉)