目标跟踪技术及其数据集

目前,目标跟踪作为计算机视觉中的一个重要的研究课题,在民用和军事等很多方向有着广泛的应用前景,主要包括自动驾驶、精准制导、视频监控等,而在这些领域寻求一定的精度和速度以及鲁棒性指标具有重要的工程意义。现在主要研究的目标跟踪算法一般是在给定一个视频序列的第一帧中目标位置的基础上,对后续帧中的原始目标进行跟踪。由于目标抖动、局部遮挡、背景光照变化、形状改变、快速运动等原因,在该领域仍然具有很大的挑战。
现有的目标跟踪算法主要有两大类:生成式方法和判别式方法,现在大部分SOTA的跟踪算法都是tracking-by-detection,也就是判别式方法。生成式方法主要是在初始帧中对给定的目标区域进行建模,在后续帧中搜索与模型最相似的部分即为预测的目标位置。比较著名的有卡尔曼滤波、粒子滤波和mean-shift等算法,此类方法的跟踪准确率较低。判别式方法则是将目标跟踪问题看作每帧中的目标检测任务,使用跟踪目标的图像特征训练一个分类器,将图像中的目标区域作为正样本,背景区域作为负样本,在后续帧中使用训练好的分类器寻找最优解。并且在跟踪过程中不断地使用每帧中的跟踪结果对分类器进行更新,其中比较著名的有现在被广泛使用的相关滤波方法和一些基于深度学习的目标跟踪算法。

一.目标跟踪中的关键问题

  1. 跟踪样本较少
    目标跟踪与其他的一些计算机视觉任务不同之处在于目标跟踪中所跟踪的目标在每个视频序列中都是不同的,并且每个视频中所提供的内容只有第一帧的图像和所跟踪目标的初始位置。对于一般的目标检测任务来说,往往需要大量的数据来进行预训练,这对于目标跟踪来说是较为困难的。
    针对这个问题,现阶段已经有很多算法提出了很好的解决方案。比如KCF算法中使用循环矩阵来获取更多的训练样本来对分类器进行训练。MDNet将网络分为共享层和domain-specific层,将每个视频序列当成一个独立的domain进行训练,每个domain层具有一个独立的二分类层,用于区分前景和和背景。
  2. 跟踪目标在跟踪过程中变化较大
    目标跟踪任务都是在一个连续的视频序列中跟踪第一帧中选定的目标,但是在视频序列中跟踪目标的状态以及背景可能会发生很大的变化,主要有外观变形,光照变化,快速运动和运动模糊,背景相似干扰等,这就对目标跟踪任务造成了很大的困难。
    针对这些问题,部分基于相关滤波的算法使用每帧中的跟踪结果在线训练一个分类器,每帧跟踪结束后都使用这个结果对分类器进行更新。部分基于深度学习的跟踪算法使用预训练过的卷积神经网络提取跟踪目标的特征作为模板和后续帧中的特征进行互相关计算,并使用后续帧中的结果对模板进行更新。
  3. 模板漂移问题
    由于跟踪过程中需要使用新的跟踪结果对之前的分类器或模板进行在线更新,如果在跟踪过程中发生了一些目标遮挡等情况,就会产生模板漂移的问题,导致无法在后续过程中继续对目标进行跟踪。
    针对这个问题,主要有两种解决思路。第一种是通过某种方式对跟踪结果的置信度进行判断,只有当跟踪结果为高置信度的情况时才进行更新。第二种方式就是学习一个稳定的长时目标分类器,当判断目标丢失时,重新在整张图片中搜索目标的位置。

二.目标跟踪常用数据集

  1. OTB数据集
    地址:http://cvlab.hanyang.ac.kr/tracker_benchmark/index.html
    由吴毅老师的论文中提出的数据集组成,主要有OTB50和OTB100两个数据集,其中OTB100包含了OTB50中的50个视频序列。整个OTB数据集中包括了100个视频序列和总共102个跟踪目标(其中两个视频序列中包含了两个跟踪目标),并且提供了标注的ground-truth文件和用来进行算法效果测试和对比的matlab代码,下面是这两篇论文。
     Wu, Y.; Lim, J.; Yang, M.-H. Online object tracking: A benchmark. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Portland, OR, USA, 23–28 June 2013; pp. 2411–2418.
     Wu, Y.; Lim, J.; Yang, M.-H. Object tracking benchmark. IEEE Trans. Pattern Anal. Mach. Intell. 2015, 37, 1834–1848.
    这两篇论文里面对比了一些之前发表过的tracker算法,并进行了一些详细的分类。OTB可以算是目标跟踪领域的第一个比较权威的数据集,在这之前的一些目标跟踪算法主要都是使用的一些自己录制的视频序列来进行算法效果的验证,大家也不知道这个算法是否在其他场景也能够适用。这个数据集的提出很大地促进了目标跟踪领域算法的发展,给所有的研究者提供了一个可以对自己算法进行检验和对比的平台。
    目标跟踪技术及其数据集_第1张图片
  2. VOT数据集
    地址:https://www.votchallenge.net/index.html
    VOT是现在使用比较多的一个数据集,从VOT2013开始每年都会更新,现在已经更新到VOT2020了。VOT数据集的跟踪难度比OTB要高很多,提供了很多小目标和非刚体运动等较复杂情况下的跟踪场景,从VOT2018开始,还提供了专门用来评估长时跟踪算法的数据集。并且OTB中标注跟踪目标只使用了传统垂直形式的矩形边框作为目标的ground-truth,而在近几年的VOT数据集中使用了跟踪目标的最小外接矩形作为目标的ground-truth,在最新的数据集中还提供了跟踪目标的mask作为ground-truth以供一些将目标跟踪和目标分割相结合的算法来进行评估。
    目标跟踪技术及其数据集_第2张图片
  3. UAV123数据集
    地址:https://cemse.kaust.edu.sa/ivul/uav123
    UAV123是2016年ECCV上提出的一个目标跟踪数据集,该数据集全部由无人机在空中拍摄,背景较为干净,视角变化较大,总共约14G,包含了123个视频序列,超过11万帧图片。此外还提供了低帧率10fps版本的视频序列以供测试使用。官方主页还提供了一些其他算法的运行结果。下面是这篇论文。
    Mueller M, Smith N, Ghanem B. A benchmark and simulator for uav tracking[C]//European conference on computer vision. Springer, Cham, 2016: 445-461.
    目标跟踪技术及其数据集_第3张图片
  4. LaSOT数据集
    地址:http://vision.cs.stonybrook.edu/~lasot/
    LaSOT是一个长时目标跟踪的大型数据集,总共包含了1550个视频序列和超过380万帧图片,每个视频序列平均长度超过2500帧(83秒),最长的视频序列超过10000帧,总共分为85个类别,每个类别超过10个视频序列。并且每帧中的目标都是经过人工标注的,更重要的是它考虑了视觉外观和自然语言的联系,不仅提供了跟踪目标的bounding box,还增加了丰富的语言注释。下面是两篇论文。
     Fan H, Lin L, Yang F, et al. Lasot: A high-quality benchmark for large-scale single object tracking[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2019: 5374-5383.
     Fan H, Bai H, Lin L, et al. LaSOT: A High-quality Large-scale Single Object Tracking Benchmark[J]. International Journal of Computer Vision, 2020: 1-23.
    在这里插入图片描述

三.跟踪算法目标跟踪技术及其数据集_第4张图片

(图片来源:https://github.com/foolwood/benchmark_results)
上图中是一些SOTA的目标跟踪算法,主要分为两个分支,基于深度学习的跟踪算法(左侧)和基于相关滤波的跟踪算法(右侧)。

其中基于深度学习的跟踪算法中有一个比较重要的分支—基于孪生网络的目标跟踪算法,最早由Luca Bertinetto等人在2016年的ECCV会议上发表,主要思想是通过一对相同结构的神经网络用来作为特征提取器,其中一个用来提取初始帧中给定目标的特征,另一个用来提取跟踪过程中搜索区域的特征,然后通过利用对所提取的特征进行一些相关性的计算,来确定目标的位置,这个算法后来作为一个baseline延伸出了很多改进的跟踪算法(论文主页地址:http://www.robots.ox.ac.uk/~luca/siamese-fc.html)。

基于相关滤波的目标跟踪算法最早由João F. Henriques等人在2015年的TPAMI会议上发表,主要思想是根据跟踪过程中的当前帧以及之前帧的信息训练一个分类器,计算新输入帧的相关性,得到置信图中得分最高的区域(点)就是预测的跟踪结果。分类器的优化函数使用脊回归函数,引入核技巧以及循环矩阵将参数训练问题简化,使用循环矩阵获得更多的训练样本数量。这篇论文的提出为目标跟踪任务提出了一个全新的研究方向,促进了该领域的发展。论文主页地址:http://www.robots.ox.ac.uk/~joao/circulant/index.html)。
https://github.com/foolwood/benchmark_results,这个github中包含了目标跟踪方向大部分比较知名的和发表在顶会上的论文和项目地址,代码基本都是开源的。

想了解更多关于我们金翅创客实验室的内容,请关注微信公众号:金翅创客。目标跟踪技术及其数据集_第5张图片

在这里插入图片描述原创声明:本文内容均为本人原创作品。请任何和个人、组织,在经过本人授权后,方可转载。

你可能感兴趣的:(目标跟踪,深度学习)