LSD-SLAM和ORB-SLAM的出现,使得单目slam最近成为了研究热点。单目SLAM一般处理流程包括track和map两部分。所谓的track是用来估计相机的位姿。而map部分就是计算pixel的深度,如果相机的位姿有了,就可以通过三角法(triangulation)确定pixel的深度,把这些计算好深度的pixel放到map里就重建出了三维环境。
在单目SLAM的学习过程中,需要较多的视觉几何的基础知识。这些基础知识中,有很多会令初学者晕头转向。比如,如何从本征矩阵E中如何恢复旋转R和平移T;比如,论文中经常提到的尺度scale是怎么来的;比如,怎么从单目获取的图像序列中获取场景的深度信息。
博客分为两部分:本篇博客主要讲相机位姿估计,下一篇博客将结构恢复(深度提取)。
两个摄像机的光心 C0、C1 ,三维空间中一点 P ,在两幅图像中的位置为 p0、p1 。如下图所示:
由于 C0、C1、P 三点共面,得到:
p0 在坐标系 C0 中的表示,以及 p1 在坐标系 C1 中的表示为:
p0=⎛⎝⎜x0y01⎞⎠⎟c0 和 p1=⎛⎝⎜x1y11⎞⎠⎟c1
请特别注意:
这里的 pi 是在摄像机坐标系 Ci 中的表示,而我们从图像平面得到的 (u,v,1)T 是在图像坐标系下的表示。我们知道从摄像机坐标系到图像坐标系,是左乘了一个内参数矩阵 K 。所以根据图像坐标中的 (u,v) 得到其在摄像机坐标系下的坐标 p 需要左乘内参数的逆矩阵 K−1 。在摄像机坐标系中的表示就称为normalized coordinates(hartley 书的第257页)。在程序中得到p的坐标代码演示如下:
这时,由共面得到的向量方程可写成:
(1) 其中,t是两个摄像机光心的平移量;R是从坐标系 C1 到坐标系 C0 的旋转变换,左乘旋转矩阵R的目的是把向量 C1p1→ 在坐标系 C1 下的表示旋转到坐标系 C0 下,注意点 p1 是在坐标系 C1 中的表示。将矩阵相乘的形式拆开得到
上面这个方程左边进行任意缩放都不会影响方程的解:
(x0x1x0y1x0y0x1y0y1y0x1y11)E33⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜E11/E33E12/E33E13/E33...1⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟=0
所以E虽然有9个未知数,但是有一个变量 E33 可以看做是缩放因子,因此实际只有8个未知量,这里就是尺度scale的来由,后面会进一步分析这个尺度。
AX=0,x有8个未知量,需要A的秩等于8,所以至少需要8对匹配点。有了匹配点后,就只需要求解最小二乘问题了,上面这个方程的解就是矩阵A进行SVD分解 A=UΣVT 后,V矩阵最右边那一列的值。另外如果这些匹配点都在一个平面上那就会出现A的秩小于8的情况,这时会出现多解,会让你计算的E可能是错误的,所以更多时候人们是用五点法来计算本征矩阵E,具体算法可以看 David Nister的论文。
然而在实际计算过程中,匹配点坐标存在误差,这会使得计算出的E可能不会满足之前提到的那条性质,所以我们需要把计算出的E投影到真正的本征矩阵空间,也就是使得它的三个奇异值中两个相等,一个为0。投影的方法如下,实际就是强制改变这个矩阵的奇异值,具体证明见YI Ma著作《An Invitation to 3D vision》的第86页。
在讲解恢复R,T前,稍微提一下特征点匹配的方法。常见的有如下两种方式:
1. 计算特征点,然后计算特征描述子,通过描述子来进行匹配,优点准确度高,缺点是描述子计算量大。
2. 光流法:在第一幅图中检测特征点,使用光流法(Lucas Kanade method)对这些特征点进行跟踪,得到这些特征点在第二幅图像中的位置,得到的位置可能和真实特征点所对应的位置有偏差。所以通常的做法是对第二幅图也检测特征点,如果检测到的特征点位置和光流法预测的位置靠近,那就认为这个特征点和第一幅图中的对应。在相邻时刻光照条件几乎不变的条件下(特别是单目slam的情形),光流法匹配是个不错的选择,它不需要计算特征描述子,计算量更小。
我们知道本征矩阵 E 定义为 E=[t]×R或者t^R 。可以用下面的计算式从本征矩阵中恢复R和T, T^ 表示T的反对称矩阵: