基于深度学的多目标跟踪算法

视频目标跟踪分为:单目标跟踪和多目标跟踪

1  单目标跟踪(也称视觉跟踪)

不需要任何目标对象类型的先验知识,可以用来跟踪任意感兴趣的目标。通过人为初始化视频场景中的感兴趣区域,单目标跟踪算法需要寻找该区域中的指定目标在后续视频帧中的位置。典型的单目标跟踪算法主要包括四个部分:初始化、运动模型、外观模型和更新模型。

1.1  初始化:

确定要进行跟踪的目标的初始位置和大小,在数据集中通常由人工标注获得,而在实际中也可以由目标检测算法提供。

1.2  运动模型:

运动模型对目标的运动状态进行建模,用来预测目标在下一帧可能出现的位置或生成一组候选样本供外观模型评价。

1.3  外观模型:

外观模型通过对目标外观进行建模,用来评价候选位置或候选样本,并选择最优的候选位置或候选样本作为目标在当前帧的跟踪结果。

1.4  更新模型:

更新模型根据跟踪结果对外观模型和运动模型进行更新,以适应目标和背景的动态变化,如目标自身的形变、旋转以及背景的光照变化、遮挡等。大多数单目标跟踪方法主要关注的是为跟踪目标建立一个鲁棒的外观模型,以便在跟踪过程中遇到遮挡、形变、光照变化、视角变化、快速运动和相似背景等挑战因素时,可以鲁棒地将跟踪目标与视频背景区分开来。

单目标跟踪算法可以分为两类:基于生成模型的方法和基于判别模型的方法。

 

2  生成模型方法

基于生成模型的方法仅仅对跟踪目标自身的外观进行建模,通过计算过去帧的目标与当前帧的候选区域的外观表示之间的匹配误差或相似度,选择与目标匹配误差最小或相似度最大的候选区域作为跟踪结果。常见的基于生成模型的单目标跟踪方法如下几种:

2.1  模板匹配:

是一种最简单的基于生成模型的方法,通过将跟踪目标区域原始像素或其外观表示作为模板,选择与该模板匹配误差最小的候选目标区域作为跟踪结果。常见的做法是采用颜色直方图来表示目标,用巴氏系数来计算目标模板与候选区域之间的相似度,通过均值漂移算法搜索与目标模板最相似的图像区域作为跟踪结果。

2.2  增量子空间:

增量子空间学习方法也被用于基于生成模型的目标跟踪算法中,跟踪目标被投影到通过主成分分析学习得到的线性子空间或流行空间中,选择在子空间中的投影误差最小的候选样本作为跟踪结果。

2.3  稀疏表示:

基于稀疏表示的生成式跟踪方法得到了很多研宄者的关注,通过对目标训练字典,利用字典对候选样本求解稀疏表示进行稀疏重构,根据重构误差来确定跟踪结果。

3  判别模型的方法

基于生成模型的方法在对目标外观建模时没有利用到目标区域以外的背景信息,因此容易受到背景的干扰。而基于判别模型的方法则可以同时考虑目标本身以及背景的信息,该类方法一般将单目标跟踪建模成一个二分类问题,通过训练一个二类分类器来区分目标和背景。机器学习中的很多分类方法都被成功地应用到基于判别模型的跟踪算法中,例如朴素贝叶斯、支持向量机、boosting算法、多示例学习,随机森林、结构化学习等。由于可以同时利用目标信息和背景信息,基于判别模型的跟踪方法相比基于生成模型的跟踪方法通常能取得更好的跟踪效果,因此这类方法得到了单目标跟踪领域的研宄者们更多的关注。近年来,基于判别模型的单目标跟踪算法取得了显著的进展,目前主流的研宄方向大致可以分为两类:相关滤波和深度学习。

3.1  基于相关滤波的单目标跟踪

    基本思路是将跟踪问题转化为对搜索区域进行相关滤波并寻找滤波器响应最大值的位置的过程。相关跟踪方法中的滤波器通常是通过优化岭回归得到的,其训练样本是通过循环移位来近似密集采样产生的,通过傅里叶变换将空间域的相关操作转化为频域的点乘操作,减小了计算量,而循环移位得到的训练样本矩阵经过傅里叶变换后会对角化,进一步减小了计算量,从而大大提高了跟踪效率.

3.2  基于深度学习的单目标跟踪

     种简单的做法是直接应用在 ImageNet 上预训练的图像分类网络的深度卷积特征,更复杂的做法是在跟踪序列上进行端到端的训练或者微调,大致可以分为两类:基于分类网络和基于孪生网络。

     基于分类网络的单目标跟踪:由于深度网络的训练需要充足的训练样本,而跟踪过程中得到的样本数量有限,基于分类网络的单目标跟踪方法通常是先对分类网络进行离线预训练,在跟踪时根据第一帧的标注和后续帧的跟踪结果对网络进行在线微调,以适应当前跟踪视频中的目标和背景的变化。

    

   

 

你可能感兴趣的:(目标跟踪)