单目3D目标检测前置知识

坐标系的转换

坐标系转换主要设计到四个坐标系,包括世界坐标系,相机坐标系,像素坐标系和图像坐标系。
单目3D目标检测前置知识_第1张图片

  • 世界坐标系(Ow-Xw,Yw,Zw:描述物体在客观世界中的绝对位置,单位为米(m),坐标系原点可以由人自由选取以方便计算,很多论文都将世界坐标系的原点选择为自车坐标系的原点
  • 相机坐标系(Oc-Xc,Yc,Zc:描述空间中目标物体相对于相机的位置而引入的坐标系,单位为米(m),坐标系原点在相机光心,规定垂直于图像平面的相机光轴为Zc轴正方向,垂直向下为Yc正方向,按右手坐标系来建立坐标系
  • 图像坐标系(O-x,y):反映了成像过程中二维-三维的投影关系,通过连续的实际物理量描述物体在图像平面中的位置,单位为毫米,以垂直于图像平面的相机光轴和图像平面的交点作为坐标原点,由于相机光心往往存在偏移,因此该原点通常并不是图像中心
  • 像素坐标系(o-x,y):描述物体在数字图像中的位置,单位为像素(pixel),该坐标系以图像顶点作为坐标原点,u、v 轴分别平行于图像坐标系的 x、y 轴

世界坐标系转相机坐标系

世界坐标系和相机坐标系之间的转换其实是旋转和平移的过程,即先旋转到目标坐标系的方向,然后再平移过去。
假设目标坐标系下某一点为[x,y,z],该点在当前坐标系下的坐标为[x’,y’,z’],变化方式如下:
[ x y z ] = R [ x ′ y ′ z ′ ] + T \begin{bmatrix}x\\y\\z\\\end{bmatrix}=R\begin{bmatrix}x'\\y'\\z'\\\end{bmatrix}+T xyz =R xyz +T
其中R为旋转矩阵,T为平移矩阵。在3D目标检测中,一般会写成齐次方程的形式,即
[ x y z 1 ] = [ R 3 ∗ 3 T 3 ∗ 1 O 1 ] [ x ′ y ′ z ′ 1 ] \begin{bmatrix}x\\y\\z\\1\end{bmatrix}=\begin{bmatrix}R_{3*3}&T_{3*1}\\O&1\end{bmatrix}\begin{bmatrix}x'\\y'\\z'\\1\end{bmatrix} xyz1 =[R33OT311] xyz1
R为3x3的旋转矩阵,T为3x1的平移矩阵。
由上述可得,世界坐标系与相机坐标系之间的转换展开如下:
[ x c y c z c 1 ] = [ R 3 ∗ 3 T 3 ∗ 1 O 1 ] [ x w y w z w 1 ] = [ R 11 R 12 R 13 T x R 21 R 22 R 23 T y R 31 R 32 R 33 T z 0 0 0 1 ] [ x w y w z w 1 ] \begin{bmatrix}x_c\\y_c\\z_c\\1\end{bmatrix}=\begin{bmatrix}R_{3*3}&T_{3*1}\\O&1\end{bmatrix}\begin{bmatrix}x_w\\y_w\\z_w\\1\end{bmatrix}=\begin{bmatrix}R_{11}&R_{12}&R_{13}&T_x\\R_{21}&R_{22}&R_{23}&T_y\\R_{31}&R_{32}&R_{33}&T_z\\0&0&0&1\end{bmatrix}\begin{bmatrix}x_w\\y_w\\z_w\\1\end{bmatrix} xcyczc1 =[R33OT311] xwywzw1 = R11R21R310R12R22R320R13R23R330TxTyTz1 xwywzw1

图像坐标系和相机坐标系之间的转换

根据小孔成像原理和相似三角形,得到相机坐标系和图像坐标系之间的关系
单目3D目标检测前置知识_第2张图片

其中f表示相机的焦距,用齐次坐标表示为
单目3D目标检测前置知识_第3张图片

图像坐标和像素坐标之间的转换

像素坐标的原点 o u v o_{uv} ouv在图像的左上角处,图像坐标系原点o在像素坐标系的 ( u 0 , v 0 ) (u_0,v_0) (u0,v0)处,如下图所示
单目3D目标检测前置知识_第4张图片
在图像坐标系中坐标(x, y)表示其在图像平面的实际二维物理位置,单位为毫米,而像素坐标系中坐标(u,v) 表示其相对于像素坐标原点平移的像素个数,因此在转换过程中涉及尺度变换和原点平移两个步骤,可得到图像坐标系到像素坐标系的坐标转换关系如下所示
单目3D目标检测前置知识_第5张图片
其中dx和dy表示单位像素在xy轴上的物理长度,写成齐次公式即为
单目3D目标检测前置知识_第6张图片

像素坐标系和世界坐标系之间的转换

由上述可知,世界坐标系和像素坐标系之间的转换关系为
单目3D目标检测前置知识_第7张图片
其中 f x = f / d x fx = f/dx fx=f/dx, f y = f / d y fy = f/dy fy=f/dy, K i n t K_{int} Kint为相机的内参矩阵,其值只和相机的结构有关, K e x t K_{ext} Kext为相机的外参矩阵,由旋转矩阵 R 和平移向量 T 组成,R、T 则由相机在世界、相机坐标系中的位置姿态决定。

信息编码方式

3D目标检测任务中,最终的检测结果是一个立方体,其表示方式为 ( c , x , y , z , w , l , h , θ ) (c,x,y,z,w,l,h,\theta) c,x,y,z,w,l,h,θ,其中c表示类别,x,y,z表示物体的中心体坐标,w,l,h表示立方体的长宽高, θ \theta θ为目标在三维空间中相对于水平方向的航向信息。一般来说,目标在三维空间还可能会存在俯仰角和翻滚角,但是一般不考虑。

你可能感兴趣的:(3D目标检测,3d,目标检测,计算机视觉)