视频中的目标跟踪算法综述

序言

目标跟踪是计算机视觉研究领域的热点之一,有着非常广泛的应用。目标跟踪是在一段视频序列中定位感兴趣的运动目标,并形成目标运动的路径或轨迹。

目标跟踪应用领域也很广泛,例如:

  1. 智能监控;
  2. 机器人视觉系统;
  3. 虚拟现实(人体跟踪);
  4. 医学诊断(细胞状态跟踪)等。

过去的几十年来,目标跟踪技术取得了长足的进步。特别是近几年,随着深度学习的目标跟踪方法的出现,获得了令人满意的效果,也涌现了越来越多的方法,这都使得目标跟踪技术取得了突破性的进展。

本文主要内容是对目标跟踪算法历史做了简单总结,内容来自视频中目标检测与跟踪。这里只是做了总结,因为最近这两年基于深度学习的目标跟踪算法也挺多的,介绍到的算法时间线截止于2018年,本文的定位权当是目标跟踪过渡阶段学习,希望通过这篇文章能帮助读者对目标跟踪领域有一个较为全面的认识。

一、相关方法(1):

1.1 背景差分法:

原理:该方法首先需要构建好背景图像,然后将当前图像与背景图像作差,之后再处理差值图像,从而得到最终的前景图像。

局限性:该方法关键在于构建合适的背景模型,自然场景给背景模型带来了很多挑战,因为他们是动态的,例如:光照变化、极端天气条件等,即便在静态环境下,由于噪声、摄像机抖动等,图像之间也存在着差异。

混合高斯背景建模算法:为每个像素点建立高斯分布,从而能够应对背景多峰分布的情况,但是也存在一些缺点,如:参数的选择问题、更新速率问题、光照突变问题造成的大面积误检问题等。

Visual Background Extractor:利用单帧图像来构建背景模型,并且采用随机选择策略、空间信息传播方法来更新该模型,该方法实时性比较好,但是容易出现“鬼影”、阴影等问题。

1.2 相邻帧间差分法:

原理:又称为时间差分法,其基本思想是利用相邻的两帧或者几帧做差,求得的差值图像即为检测结果。

局限性:这种方法适用于相邻的几帧变化不大的情况,对于光照或者树枝摆动变化效果并不好。

1.3 光流法:

原理:在不变的光流场中寻求相对改变的光流场,而改变的部分即为运动目标所在部分。前提是假设场景中的亮度信息不改变,然后求出连续几幅图像帧间的像素点的运行矢量,即光流场。对于背景区,由于改变比较少,一般会产生比较均匀的运动矢量场,而对于运动对象,其运动矢量场则不是很规则,而从据此检测出运动目标。

局限性:优点是可以在不预先知道场景的任何信息情况下进行运动目标检测,缺点是由于涉及大量的矩阵和迭代运算,难以实现实时运动目标检测。

三种方法比较:

视频中的目标跟踪算法综述_第1张图片

二、相关方法(2):

该部分主要介绍两种类型的方法:生成式方法判别式方法

1. 生成式方法:

简介:生成式模型通常寻找与目标模板(待跟踪目标)最相似的候选作为跟踪结果,这一过程可以视为模板匹配。

特点:在目标跟踪早期,主要是各种生成式方法,生成式方法都采用不训练、在线更新的方法,而且都是在CPU上进行计算,模型的速度很快,最快的可以达到2000+FPS。

生成式方法相关算法

(1)均值漂移

  • 均值漂移-Mean Shift(2000年);
  • 均值漂移-Cam Shift(2002年);

(2)卡尔曼滤波-Kalman Filter(1960年)

(3)粒子滤波-Particle Filter(2002年)

(4)稀疏编码

  • 稀疏编码-L1Tracker(2009年);
  • 稀疏编码-ALSA(2012年)。

2. 判别式方法:

简介:判别式模型通过训练一个分类器去区分目标与背景,选择置信度最高的候选样本作为预测结果;

特点:从最近几年的论文和相关竞赛中可以看出,判别式方法基本已经“一统天下”,现在的目标跟踪是相关滤波和深度学习的时代。

判别式方法相关算法:

(1)相关滤波

  • 相关滤波-MOSSE(2010年);
  • 相关滤波-CSK(2012年);
  • 相关滤波-KCF/DCF(2012年);
  • 相关滤波-DSST(2014年);

(2)深度学习

  • 深度学习-MDNet(2016年);
  • 深度学习-GOTURN(2016年);
  • 深度学习-SiameseFC(2016年);
  • 深度学习-EAST(2017年);
  • 深度学习-ECO(2017年);

(3)深度学习+相关滤波

  • 深度学习+相关滤波-C-COT(2016年);
  • 深度学习+相关滤波-CFNet(2017年);
  • 深度学习+相关滤波-DCFNet(2017年);
  • 深度学习+相关滤波-CFCF(2017年);
  • 深度学习+相关滤波-ECO(2017年);
  • 深度学习+相关滤波-ECO+(2018年);

3. 两种类型方法总结:

  1. 生成式模型速度快,但效果不如判别式模型;
  2. 判别式模型(尤其是深度学习)面临着实时性问题;
  3. 模型正在朝着相关滤波和深度学习结合的方向靠拢;
  4. 早期的论文大多是在计算过程中使用了数学技巧进行优化(线性代数+信号处理);
  5. 最新的论文很多都是在特征和生成训练集方面做了一些优化和处理。

三、 目标跟踪深度学习数据集:

  1. OTB-2015:OTB数据集中包含100个视频序列,所以有些论文中也称其为OTB-100。100个序列中26个是灰度序列,74个彩色序列,整个数据库总共58897帧,序列有长有短,最短的几十帧,最长的3000+帧。

  2. VOT-2018:作为视觉跟踪领域的最高峰,VOT是国际目标跟踪领域最权威的测评平台,由伯明翰大学、卢布尔雅那大学、布拉格捷克技术大学、奥地利科技学院创办,旨在测评在复杂场景下单目标短时跟踪的算法性能。由于每年的测评序列都会更新,且标注的精确度一年比一年高,VOT竞赛也被视为视觉跟踪领域最难的竞赛,远远超过了其他数据集。目前VOT-2017数据集中包含60个视频序列,且基本上都是短时视频序列。

你可能感兴趣的:(计算机视觉,算法)