http://blog.skyoung.org/2014/04/13/Lucas-Kanade-Tracker/
Lucas-Kanade跟踪算法是视觉跟踪中一个很经典的基于点的逐帧跟踪算法。起初这个算法是用来求解stero matching1的,后来经过Carlo Tomasi2和Jianbo Shi3等人的发展渐趋成熟。Jianbo Shi提出了一种筛选跟踪点特征的方法,使得特征的跟踪更可靠。Jean-Yves Bouguet4详细阐述了如何采用金字塔方式实现LK算法以处理两帧之间特征点位移较大的情况。
首先我们来看一下我们要解决的问题是什么?LK算法是基于特征点的跟踪,而这里的特征点就是每个点对应的一个小窗口图像块,LK所要解决的是求解连续两帧图像相同特征点的位移问题。这里我们假设 I 和 J 为连续两帧图像,其 (x,y) 点的灰度值分别对应 I(x,y),J(x,y) 。设 u=[ux,uy]T 是图像 I 上一点,LK算法的目标是在图像 J 找到一点 v=u+d=[ux+dx,uy+dy]T 使得点 I(u) 和点 J(v) 是同一个位置。为了求解这样的点,LK求解这两个点对应的小窗口内像素的相似度。设 ωx 和 ωy 分别是点左右扩展的窗口范围,这样我们可以定义如下residual function为
窗口大小为 (2ωx+1)×(2ωy+1) ,通常情况下 ωx 和 ωy 的值为2,3,4,5,6,7。
针对上述最优化问题,求解方法是求解 ϵ(d) 关于向量 d 的偏导使其等于0,即
这样可以推到出其偏导结果:
利用泰勒级数展开 J(x+dx,y+dy) 得,
这样得出residual function为,
这里关于图像 J(x,y) 的偏导可以通过求解 I(x,y) 的偏导近似计算。设
等式两边取倒置
我们用简单符号替代其中的两个部分,分别设
现在residual function变成了,
使上式等于0,得出位移 d 为,
这里必须保证 G 是可逆的,也就是保证图像 I(x,y) 在 x 和 y 方向上的梯度值必须不是0。
以上便是基本的LK算法的推导过程,具体实现的时候需要多次的迭代才能得到一个较准确的点的位移矢量,类似牛顿-拉弗森方法(Newton-Raphson method)的迭代过程,这是一个逐渐趋近最优值的过程。下面详细介绍迭代的过程,针对第 k(k⩾1) 次迭代:
设第 k−1 次迭代的位移 dk−1=[dk−1x,dk−1y] ,则我们利用第 k−1 次迭代的位移作为第 k 次迭代位移的初始化值,即当前次迭代的 J(x,y) 变为
residual function变为
通过一次标准的LK算法,得出第 k 次的位移
这里我们发现每次迭代中,G是不变的,通过 I(x,y) 计算,唯一变化的是 b ,每次迭代图像 J(x,y) 对应的窗口都会向所要求的位置点靠近一点点(即上一次迭代的位移作为初始化),而 b 的计算与 J(x,y) 有关,所以每次迭代都会发生变化,这样每次迭代需要计算的就只有 b 。
假设进行了K次迭代后收敛,最终位移的结果为
对于第一次迭代其对应的初始化位移为:
但是上述推导的一个基本假设是点特征的位移是很小的,这样才能满足泰勒展开式中只保留前两项的近似操作。而为了能处理较大的位移情况,则需要基于图像金字塔在不同分辨率的图层下进行跟踪。
首先举一个简单的例子,比如知道一个点前后两幅图像的位移为16个像素,这么大的位移直接使用标准LK算法是很难计算出来结果的,而如果在图像分辨率降低到原来一半后,其位移就变为8个像素,再降低一半,则为4个像素,如果金字塔的层数是3,则在最底层,点的位移只有两个像素,这样就满足了小位移的假设。这样首先在最底层进行标准LK算法,得出一个位移后乘以2作为上一层的初始位移,再进行标准LK算法,以此类推,最终得到点的位移。
设图像金字塔层数为 L=0,1,2...Lm ,跟踪是从图像金字塔的最底层 Lm 开始的,对于图像从第 L+1 层到 L 层的跟踪流程,和标准LK算法的迭代有点类似,第 L 层的初始化位置是基于第 L+1 层计算出来的。
设 gL=[gLxgLy]T 是第 L 层的初始化位移,它是通过第 L+1 层的位移计算得到的。这样第 L 层的residual function就变成了
从上式可以看出,第 L 层的 JL(x,y) 由于有了 gL 作为初始化位置使得要求解的位移 dL 变得很小,也就很适合用标准的LK算法计算了。
gL 的计算是通过第 L+1 层的位移和初始化位置计算的,
对于最底层的初始化位置设为,
最后得出点的位移为,
图像金字塔的构建是通过首先对上一层图像进行去边缘滤波,然后下采样得到的,具体的实现参考下面章节。
这个算法的实现主要分为三个重要的部分:图像金字塔的构建,图像梯度图的计算,标准LK算法的迭代。
OpenCV是通过下采样和去边缘滤波器两个流程生成的多分辨率的图像金字塔,当然为了程序的优化,这两个流程是同时进行的。滤波器采用的kernel是
程序实现的核心函数是
1 |
void pyrDown(InputArray src, OutputArray dst, const Size& dstsize=Size(), int borderType=BORDER_DEFAULT ) |
其OpenCV的源代码如下(OpenCV-2.4.8/video/pyramids.cpp/line:187)。这个函数实现的大体思路是以目标图像的长宽为基准同时实现对源图像的去边缘滤波以及下采样操作。因为图像在滤波后还要做下采样,如果这两步骤是分开做的话,前面滤波到的像素就会额外计算了一半下采样后根本不需要的像素,浪费了计算,所以这里仅仅是滤波了下采样中保留下来的像素。
滤波器的实现最直接的想法就是每次计算所有窗口里面的像素值然后求均值,但这样做会重复计算前后两行重叠的部分像素和,代码效率并不高,实际上代码中的实现是首先计算每一个像素对应的前后两行的行和,然后存储下这5个行和,每行所有像素计算完所有5个行和并存储好后,再用一个for循环求和每个像素的5个行和,这样就可以避免重复计算前后两行重复的行和而提高了效率。如下图所示,中间红色像素对应窗口为1-5行,蓝色像素对应窗口为2-6行,其中其中2-5行的和都是重复的,不需要重复计算。
这里有几个需要解释的地方:
第一,代码第54行的for循环实现的是求解每个元素对应的各个行和。这里它采用了一种循环存取机制。例如,当计算目标图像第k行像素(即源图像第2k行像素)时,其需要求解的行和分别是对应源图像上的2k-2,2k-1,2k,2k+1,2k+2行,这时假设内存中是按照顺序方式存储的,当计算目标图像k+1行像素(即源图像第2k+2行像素)时,我们只需要再计算2k+3和2k+4的行和并且存储在本来存储2k-2和2k-1行的行和的内存中,这样的计算和存储开销是最小的。这样说可能有点抽象,如下图所示,左边是计算目标图像第k行像素时,数组中5个元素存储的内容,右边是计算目标图像k+1行像素存储的内容,仅仅是把原来存储2k-2和2k-1行的元素替换成新计算出来的2k+3和2k+4行的行和,这样在访问这些行和时,顺序就会发生一定的变化,由左边的1,2,3,4,5变成右边的4,5,1,2,3。这样在计算k+2行像素时,只需把原来存储2k-2和2k-1的内存替换为2k+3和2k+4的行和即可,然后依次类推。查看程序第57行WT* row = buf + ((sy - sy0) % PD_SZ)*bufstep;
,采用的就是这种循环存储方法。那这样在取这些存在数组中的行和是,顺序也是对应的顺序,因为每个行和要乘以的权重不一,自然顺序不能错。顺序的计算方法查看程序第122行rows[k] = buf + ((y*2 - PD_SZ/2 + k - sy0) % PD_SZ)*bufstep;
第二,程序在处理边缘问题是采用了borderInterpolate
这个函数,主要涉及对称边缘图像或直接复制边缘图像等方式添加虚拟边缘。当boderType = BORDER_REPLICATE
时,是简单的复制边缘图像,当boderType = BORDER_REFLECT
时,就是以边缘为中心对称复制边缘里层的图像。而pyrDown采用的就是这种边缘处理方式。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 |
template<class CastOp, class VecOp> void pyrDown_( const Mat& _src, Mat& _dst, int borderType ) { //滤波器的窗口大小 const int PD_SZ = 5; typedef typename CastOp::type1 WT; typedef typename CastOp::rtype T; CV_Assert( !_src.empty() ); Size ssize = _src.size(), dsize = _dst.size(); int cn = _src.channels(); int bufstep = (int)alignSize(dsize.width*cn, 16); AutoBuffer |
图像梯度的实现也要设计到窗口计算问题,所以和上面提到的方法有类似的地方,也是先计算行和,再计算列和。程序采用了Sharr算子进行梯度的计算,x方向的梯度图算子是
OpenCV详细代码如下,注意这里程序计算出的x和y方向的梯度值分别存放在了一个双通道的目标图像中,每个通道占用一个方向的梯度值。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 |
static void calcSharrDeriv(const cv::Mat& src, cv::Mat& dst) { using namespace cv; using cv::detail::deriv_type; int rows = src.rows, cols = src.cols, cn = src.channels(), colsn = cols*cn, depth = src.depth(); CV_Assert(depth == CV_8U); dst.create(rows, cols, CV_MAKETYPE(DataType |
这个部分的实现需要注意的地方主要是subpixel的计算,因为每次计算出的位移都很小,考虑到计算的精度,必须的精确到小数位,所以需要注意如何计算一个小数位置的像素值,这个就和线性插值是类似的。如下图所示,小数位置的像素值是有四个相邻像素拟合出来的。设中间蓝色像素点的坐标为 (xsub,ysub) ,四周四个整数位置的像素点自分别为 (x0,y0),(x0,y1),(x1,y0),(x1,y1) ,中间蓝色像素离其他四个像素水平和垂直方向上的像素距离分别为 w00,w01,w10,w11 ,如图中所标。
subpxiel的计算公式为
在计算权重 wi,j 的时候,为了避免浮点计算,会对 wi,j 乘以一定的倍数使用整数运算。用的subpixel的地方主要有两个地方,一个是在计算矩阵 G 的时候,需要取梯度图的值,但是点的位置不一定是整数,所以一定要使用subpixel取值;还有一个地方是计算 b 的时候,因为要取前后两幅图像的像素值,而这两个点的位置也不一定是整数,所以也要用到subpixel。考虑到这部分的OpenCV代码比较长,而理解相对没有那么困难,这里就不再贴出,仅列出上面需要注意的地方,需要的可以参考oepncv2.4.8/video/lkpramid.cpp/line:159-483
LK算法的实现除了以上所讲的OpenCV的实现外,还有几个其他的版本,分别是由Stan Birchfield实现的版本KLT,速率相比OpenCV慢一些;一个GPU加速实现的版本GPU KLT;一个Matlab实现的版本Matlab KLT以及一个Java实现的版本Java KLT。
Bruce D. Lucas and Takeo Kanade. An Iterative Image Registration Technique with an Application to Stereo Vision. International Joint Conference on Artificial Intelligence, pages 674-679, 1981.↩
Carlo Tomasi and Takeo Kanade. Detection and Tracking of Point Features. Carnegie Mellon University Technical Report CMU-CS-91-132, April 1991.↩
Jianbo Shi and Carlo Tomasi. Good Features to Track. IEEE Conference on Computer Vision and Pattern Recognition, pages 593-600, 1994.↩
Jean-Yves Bouguet. Pyramidal Implementation of the Lucas Kanade Feature Tracker.↩