图像目标检测与跟踪学习笔记(五)

专题:Object Tracking

1. tracking work flow

图像目标检测与跟踪学习笔记(五)_第1张图片


    个人理解:输入图像作用在模型上,得到响应值,根据响应值在图片中画出边界框,然后边界框中的图像与输入图像一同作用对模型进行更新。


2.相关滤波跟踪(MOSSE)

    相关滤波原理:相关性(correlation),用来描述两个因素之间的联系。而相关性又分为cross-correlation(互相关,两个信号之间的联系)和auto-correlation(自相关,本身在不同频域的相关性)。

    假设有两个信号f和g,则两个信号的相关性(correlation)为:

图像目标检测与跟踪学习笔记(五)_第2张图片

    f*代表f的复共轭,相关性就是衡量两个函数在某个时刻相似程度。两个信号越相似,其相关值越高。应用在跟踪上就是要找到与跟踪目标响应最大的项。即要找到一个滤波器,使其在目标上的响应最大。


其中f代表输入的图像,h代表滤波模板,g代表响应值。对上式进行卷积运算,运算量较大,对其进行快速傅里叶变换(FFT),这样卷积操作经过FFT后就变成了点乘操作。


简化表示为:


那么现在的目标就是要找到使得响应值最大的H*:

    在实际跟踪的过程中我们要考虑到目标的外观变换等因素的影响,所以需要同时考虑目标的m个图像作为参考,从而提高滤波器模板的鲁棒性,所以就有了MOSSE这个模型:

因为上述操作都是元素级别的,只要使其中的每个元素(w和v是H中每个元素的索引)的MOSSE都最小即可。因此上式可转换为如下形式: 


在上式中对H*求偏导,令其为0,即可求得:


求导结果为:(过程略)


上面得到是H中每个元素的值,最后得到H为:


在跟踪中 ,对跟踪框(groundtruth)进行随机仿射变换,获取一系列的训练样本fi,而gi则是由高斯函数产生,并且其峰值位置是在fi的中心位置。获得了一系列的训练样本和结果之后,就可以计算滤波器h的值。(这里的f,g,h的size大小都相同。 
作者为了让滤波器对与形变、光照等外界影响具有更好的鲁棒性,将滤波器的模型公式分为分子和分母两个部分,每个部分都分别的进行更新,更的参数为η。其中At和At−1分别表示的是当前帧和上一帧的分子。
图像目标检测与跟踪学习笔记(五)_第3张图片
2.多通道特征(DSST)
   
         MOSSE在求解滤波器时,其输入项是图像本身(灰度图),也就是图像的灰度特征。对于灰度特征,其特征较为简单,不能很好的描述目标的纹理、边缘等形状信息,因此DSST的作者将灰度特征替换为在跟踪和识别领域较为常用的HOG特征。

        作者跟踪的实现过程中,作者定义了两个correlation filter,一个滤波器(translation filter)专门用于确定新的目标所处的位置,另一个滤波器(scale filter)专门用于尺度评估。在translation filter方面,作者的方法与MOSSE的方法是一样的,只不过其获取最佳模板H的准则有了些许变化。根据translation filter可以获取当前帧目标所处的位置,然后在当前目标位置获取不同尺度的候选框,经过scale filter之后,确定新的目标尺度。
    
相关滤波器实现:
(1).Translation Filter
图像目标检测与跟踪学习笔记(五)_第4张图片
图像目标检测与跟踪学习笔记(五)_第5张图片

(2).Scale Filter Fast Scale Space Tracking
    
    作者提出了一种三维的尺度相关滤波器,滤波器的大小为 M x N x S,M和N分别代表滤波器的Height 和Width, S代表尺度的数量。
图像目标检测与跟踪学习笔记(五)_第6张图片
    f是以上一帧确定的位置为中心,取得一系列不同尺度的图像块的特征。采用三维高斯函数构建三维的滤波响应输出g。同样采用第三部分叙述的方法每次迭代更新模板h。对于新一帧的图片,可以获取S个尺度上的特征组成一个 M x N x S的特征金字塔z,采用第三部分叙述的方法获得响应g,根据g中最大值所在的位置则可以确定位置信息和尺度信息。

(3). Fast Scale Space Tracking

图像目标检测与跟踪学习笔记(五)_第7张图片
3.TLD(Tracking learning detection)
   
        TLD(Tracking-Learning-Detection)是英国萨里大学的一个捷克籍博士生Zdenek Kalal在其攻读博士学位期间提出的一种新的单目标长时间(long term tracking)跟踪算法。该算法与传统跟踪算法的显著区别在于将传统的跟踪算法和传统的检测算法相结合来解决被跟踪目标在被跟踪过程中发生的形变、部分遮挡等问题。同时,通过一种改进的在线学习机制不断更新跟踪模块的“显著特征点”和检测模块的目标模型及相关参数,从而使得跟踪效果更加稳定、鲁棒、可靠。TLD算法的框架图如下:
        空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。也就是说,由空间域到图像平面的投影。而通俗来讲,把图像中的每一个点的瞬时速度和方向找出来就是光流。图像目标检测与跟踪学习笔记(五)_第8张图片
        它的tracker用的lk法,这是一个frame to frame的跟踪方法,用它来对目标的运动进行估计,当然lk跟踪的精度是不高的,会跟踪失败,当跟丢的时候就要用到我们的rf detector,detector用于对每一帧的出现的目标进行定位记录相应的位置信息和表面信息,称之为学习,当tracker跟丢时,凭着detector的过去的学习,对目标进行重新定位。learning是将tracker和detector联系起来的纽带,这个learning方法是P-Nlearning。

(1).tracking
    
    使用LK光流法,对特征点进行来回两次映射(p>p'>p"),找出适合于tracking的特征点(p"-p‘
图像目标检测与跟踪学习笔记(五)_第9张图片
图像目标检测与跟踪学习笔记(五)_第10张图片

(2).detection
   
 work flow如下所示:
图像目标检测与跟踪学习笔记(五)_第11张图片
    其大致流程是:实现进行背景建模,分辨出前景与背景;然后进行方差滤波,滤掉背景;接着使用集成分类器对其进行检测评分(scores);最后根据scores的值进行模板匹配。判断属于某一样本的概率为:
图像目标检测与跟踪学习笔记(五)_第12张图片
其中d-与d+分别表示与正负样本之间的距离。


some related conceptions:

a.光流法:
        空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。也就是说,由空间域到图像平面的投影。而通俗来讲,把图像中的每一个点的瞬时速度和方向找出来就是光流。
        可以通过光流判断物体距离我们的远近。 一般而言,远景的物体相对来说光流较小,而近景物体光流较大,尤其是动态场景中的运动物体。

b. P-N learning:
    PN学习(PN learning)是一种利用带标签的样本和不带标签的样本之间存在的结构性特征来逐步训练两类分类器并改善分类器分类性能的方法。PN学习对分类器在测试样本上的分类结果进行评估,找到那些分类结果与约束条件相矛盾的样本,重新调整训练集,并进行重复迭代训练,直到某个条件满足,才停止分类器训练过程。在目标跟踪过程中,由于被跟踪目标的形状、姿态等容易发生变化,造成目标跟丢的情况时有发生,所以,在这种情况下,对被跟踪目标的在线学习和检测是个很好的策略。而PN学习正好可以在此处大显身手。
    其工作流程大致如下:
图像目标检测与跟踪学习笔记(五)_第13张图片

c. random forest 随机森林
    RF是用来处于 分类 问题和 回归 问题的通用性模型,属于 集成学习(Ensemble) 的一种。
   其实从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的 Bagging 思想。

d. NCC(normalized cross correlation)算法
    归一化互相关匹配法,是基于图像灰度信息的匹配方法。通过计算模板图像和匹配图像的互相关值,来确定匹配的程度。互相关最大时的搜索窗口位置决定了模板图像在待匹配图像中的位置。它是一个亮度、对比度线性不变量。

4.评价指标

(1)CLE 中心距离

(2)overlap 重叠度


























你可能感兴趣的:(图像目标检测与跟踪基础学习)