运动目标跟踪综述

运动目标跟踪综述

运动目标跟踪技术是近几年来新兴的一个研究方向,它通过分析视频序列,在视频序列的每一帧中定位出目标,包括计算出目标的大小、位置等信息。其难点在于运动目标在视频图像跟踪过程中可能会发生的旋转、遮挡、尺度变化等比较复杂的变化,以及一些客观因素的影响,比如各类噪声、出现遮挡等等。它是视频监控技术应用的关键,也是计算机视觉研究领域的一个重要分支。

1.运动目标跟踪方法和模型

过去几十年,目标跟踪方法经历了从卡尔曼滤波等经典跟踪方法,到基于相关滤波方法,再到深度学习相关方法的演变历程。根据建模方式的不同,可以将目标跟踪方法分为生成式模型方法、判别式模型方法。

(1)生成式模型方法

生成式模型方法是提取目标特征构建表现模型,在图像中搜索与模型最匹配的区域作为跟踪结果。生成式模型不论采用全局特征还是局部特征,其本质是在目标表示的高维空间中,找到与目标模型最相邻的候选目标作为当前估计。该类方法缺陷在于只关注目标信息,而忽略了背景信息。比较经典的算法有卡尔曼滤波、粒子滤波、均值漂移等。
卡尔曼滤波(Kalmanfilter,KF) 算法是解决线性高斯问题的经典算法,而实际目标跟踪场景中多为非线性非高斯问题。国内外学者为了实现卡尔曼滤波在实际场景中的应用,也提出了很多改进算法。
粒子滤波(particlefilter,PF) 算法由Isard等引入到目标跟踪问题中.与KF相关算法相比,PF算法能够更有效地解决强非线性非高斯系统问题,但由于算法本身存在粒子退化、计算量大等问题,当跟踪目标具有较强机动性时,PF算法跟踪效果较差。
均值漂移(meanshift) 算法是经典的基于概率密度分布的方法,由Comaniciu等引入目标跟踪领域,通过最小化目标和候选目标的概率密度函数之间的距离来跟踪目标.该算法实现简单,实时性强,具有一定的旋转不变性,但当目标被遮挡或背景杂乱时,易造成局部极大值点,使算法收敛于错误目标。

(2)判别式模型方法

判别式模型将跟踪问题作为分类或回归问题,目的是寻找一个判别函数,将目标从背景中分离出来,从而实现对目标的跟踪。判别式模型方法又可分为基于相关滤波的跟踪算法和基于深度学习的跟踪算法。

基于相关滤波的跟踪算法

相关滤波跟踪算法是一种在线学习方法,其基本思想是设计一个滤波模板,利用该模板与目标候选区域做相关运算,最大输出响应的位置即为当前帧的目标位置,能够及时对模型进行更新,来适应目标的变化。同时,为了简化运算,降低计算复杂度,相关滤波算法在滤波器求解过程中,将求解运算转换到频率域进行,显著提高了目标跟踪的速度,使算法能够达到实时跟踪的效果。基于相关滤波的跟踪算法求解过程主要可分为3个阶段:训练阶段、模型更新阶段和检测阶段。针对以上三步求解过程,学者们也提出了很多改进的相关滤波跟踪算法,来解决目标跟踪过程中出现的由运动模糊、尺度变化、物体遮挡等因素造成的跟踪漂移问题。其代表算法有:最小输出误差平方和(MOSSE)跟踪算法、核相关滤波(KCF)跟踪算法、判别尺度空间(DSST)跟踪算法、空间正则相关滤波(SRDCF)跟踪算法、时空正则相关滤波(STRCF)跟踪算法、背景感知相关滤波(BACF)跟踪算法等。

基于深度学习的跟踪算法

近年来,基于深度学习的目标跟踪算法在网络架构、骨干网络、特征融合、算法更新方式、目标搜索策略等方面均进行了大量研究,以使跟踪器学习丰富的表示形式并能有效地从目标中提取复杂和抽象的特征。相比于相关滤波跟踪算法,该算法能够获得更高的跟踪准确度,且研究者们期望能够提供通用的深度学习跟踪算法,同时在精度、速度和鲁棒性上获得更好的效果。深度目标跟踪算法对硬件配置是有要求的,需要有GPU的支持,且在有GPU的环境下,各算法均能达到实时跟踪的效果.为了提高跟踪精度,各算法的主干网络逐渐由简单的AlexNet向复杂的ResNet、Inception等网络过渡。
单目标跟踪方面,有如全卷积孪生网络(SiamFC)跟踪算法, 孪生候选区域生成网络(SiamRPN)跟踪算法, 改进全卷积孪生网络(SiamRPN++)跟踪算法等代表算法。基于Siamese的神经网络算法在跟踪性能和效率之间达到了很好的平衡,该网络设计的初衷就是为了使算法变得更快更准,实现算法在工业领域的应用,是目前目标跟踪领域较有前景的网络结构。
多目标跟踪方面,目前主要有三种主流的跟踪框架,分别是Tracking-by-detection,代表算法如SORT、DeepSORT;基于检测和跟踪联合,代表算法如JDE、FairMOT、CenterTrack、ChainedTracker等;基于注意力机制,代表算法如TransTrack、TrackFormer等。

2.运动目标跟踪评价标准

单目标跟踪方面,分为两种数据集,OTB与VOT,分别有不同的评价指标。
OTB,
(1)精确度图(Precision Plot)主要反映中心位置误差小于给定阈值的视频帧的百分比曲线;
(2)成功率图(Success Plot)主要反映边框重叠率大于给定阈值的视频帧的百分比曲线;
(3)时间鲁棒性(Temporal Robustness Evaluation);
(4)空间鲁棒性(Spatial Robustness Evaluation)。
VOT,
(1)准确率(Accuracy),即在单个测试序列下的平均重叠率;
(2)鲁棒性(Robustness);
(3)等效滤波操作(Equivalent Filter Operations),用于衡量跟踪速度;
(4)平均重叠期望(Expected Average Overlap),反映序列长度与平均准确率的关系,同时考虑准确率和鲁棒性。
多目标跟踪方面,评估指标有MOTA(多目标跟踪准确度)、MOTP(多目标跟踪精度)、MT(跟踪到的轨迹,即一条轨迹被跟踪到80%)、ML(丢失的轨迹,即一条轨迹被跟踪到不足20%)、IDF1(正确识别的检测与真实数和计算检测的平均数之比)、IDSw.(ID切换总数)、FAF(每帧的平均误报警数)、FP(误报总数)、FN(未命中目标的总数)、Frag(轨迹碎片化的总次数)、Hz(频率)。其中主要的是MOTA和MOTP,计算公式分别为如下所示
在这里插入图片描述
在这里插入图片描述

参考文献:Li X,Zha Y F,Zhang T Z,Cui Z,Zuo W M,Hou Z Q,Lu H C and Wang H Z. 2019. Survey of visual object tracking algorithms based
on deep learning. Journal of Image and Graphics,24( 12) : 2057-2080( 李玺,查宇飞,张天柱,崔振,左旺孟,侯志强,卢湖川,王菡子. 2019. 深度学习
的目标跟踪算法综述. 中国图象图形学报,24( 12) : 2057-2080) [DOI: 10. 11834 /jig. 190

你可能感兴趣的:(目标跟踪,计算机视觉)