本人硕士期间研究过10个月左右的目标跟踪算法,刚入门时苦于没人指点,自己每天乱看文章,后来发现看的好多文章都是没有意义的(ps....看了一大堆meanshift,kalman啥的......),做了很多无用功,后来逐渐入门。因此我打算将目标跟踪跟踪算法从原理上和适用范围上进行分类、总结与综述,希望能够让大家尽快入门,少走些弯路。
本文所写的 “目标跟踪算综述” 论文已经在《自动化学报》上发表,希望感兴趣的小伙伴可以批评指正:http://kns.cnki.net/KCMS/detail/11.2109.TP.20190104.1506.016.html?uid=WEEvREcwSlJHSldRa1FhdXNXaEd1OFVOaDdwQ0tCckFuaHBIcFFIbUxkbz0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!&v=MDU3Nzk0WXc5TXptUm42ajU3VDNmbHFXTTBDTEw3UjdxZWJ1WnNGaUhrVzd6QkpGWT1LQ0xmWWJHNEg5ak1ybzlHWk90
一. 原理上进行分类
近70年,涌现出大量的目标跟踪算法, 根据其工作原理,我们将其分为生成式模型和鉴别式模型两种:
(1) 生成式模型
早期的工作主要集中于生成式模型跟踪算法的研究,如光流法,粒子滤波,Meanshift 算法、 Camshift算法等。此类方法首先建立目标模型或者提取目标特征,在后续帧中进行相似特征搜索。逐步迭代实现目标定位。但是这类方法也存在明显的缺点,就是图像的背景信息没有得到全面的利用。且目标本身的外观变化有随机性和多样性特点,因此,通过单一的数学模型描述待跟踪目标具有很大的局限性。具体表现为在光照变化,运动模糊,分辨率低,目标旋转形变等情况下,模型的建立会受到巨大的影响,从而影响跟踪的准确性;模型的建立没有有效地预测机制,当出现目标遮挡情况时,不能够很好地解决。
(ps.......这一段我们所提到的目标跟踪算法都是生成式模型的,都是已经淘汰了的,现在很少有人将其作为主要框架进行研究)
(2) 鉴别式模型
鉴别式模型是指, 将目标模型和背景信息同时考虑在内, 通过对比目标模型和背景信息的差异, 将目标模型提取出来, 从而得到当前帧中的目标位置.文献在对跟踪算法的评估中发现, 通过将背景信息引入跟踪模型, 可以很好的实现目标跟踪. 因此鉴别式模型具有很大的优势. 2000 年以来, 人们逐渐尝试使用经典的机器学习方法训练分类器, 例如MIL,TLD, 支持向量机, 结构化学习, 随机森林, 多实例学习, 度量学习. 2010 年,文献首次将通信领域的相关滤波方法引入到目标跟踪中. 作为鉴别式方法的一种, 相关滤波无论在速度上还是准确率上, 都显示出更优越的性能. 然而, 相关滤波器用于目标跟踪是在 2014 年之后. 自2015 年以后, 随着深度学习领域的广泛应用, 人们开始将深度学习领域用于目标跟踪
(ps......这一段我们提到的算法是现阶段最流行的两种算法:相关滤波,深度学习。后续的研究都是围绕这两种算法展开的)
二. 早期的目标跟踪算法
虽然现在来看没什么实用性但是我还是介绍下吧。运动目标跟踪,首先对目标进行有效地表达。然后在接下来的视频序列的每一帧中找到相似度与目标最大的区域,从而确定目标在当前帧中的位置。早期的生成式方法主要有两种思路:1) 依赖于目标外
观模型。通过对目标外观模型进行建模,然后在之后的帧中找到目标。例如:光流法。2) 不依赖于目标外观模型。选定目标建立目标模型,然后在视频中搜索找到目标模型。例如:Meanshift。
(1)光流法
光流法 (Lucas-kanade) 的概念首先在 1950 年提出,它是针对外观模型对视频序列中的像素进行操作。通过利用视频序列在相邻帧之间的像素关系,寻找像素的位移变化来判断目标的运动状态,实现对运动目标的跟踪。但是,光流法适用的范围较小,需要满足三种假设:图像的光照强度保持不变;空间一致性,即每个像素在不同帧中相邻点的位置不变,这样便于求得最终的运动矢量;时间连续。光流法适用于目标运动相对于帧率是缓慢的,也就是两帧之间的目标位移不能太大。
(2)Kalman 滤波
Kalman 滤波是一种能够对目标的位置进行有效预测的算法。它建立状态方程,将观测数据进行状态输入,对方程参数进行优化。通过对前 n 帧数据的输入,可以有效的预测第 n 帧中目标的位置,Kalman 估计也叫最优估计。因此,在目标跟踪过程中,当目标出现遮挡或者消失时,加入 Kalman 滤波可以有效地解决这种问题. 缺点是是 Kalman 滤波只适合于线性系统, 适用范围小。针对 Kalman 滤波适用范围小这一问题,人们提出了粒子滤波的方法。粒子滤波的思想源于蒙特卡洛思想,它利用特征点表示概率模型。这种表示方法可以在非线性空间上进行计算, 其思想是从后验概率中选取特征表达其分布. 最近, 人们也提出了改
进平方根容积卡尔曼滤波的方法来减小误差,从而实现精准跟踪。
(3)核方法
基本思想:另一类基于搜索的方法是核方法。核跟踪方法是目标跟踪的主要方法,应用非常广泛。 例如Meashift,Camshift 算法,它直接运用最速下降法的原理,向梯度下降方向对目标模板逐步迭代,直到迭代到最优位置。它的核心就是一步一步迭代寻找最优点,在跟踪中,就是为了寻找相似度值最大的候选区间。我们这样定义方向矢量:满足计算范围内的 t 个样本点与区域几何中心的矢量和。其中 xi 为样本点,x 为区域的几何中心。Sh 为符合计算区域的半径为 r 的球区域。
Meanshift 就是对样本点与中心点的矢量差求平均值。矢量和的方向就是概率密度增加的方向,沿着概率密度增加的方向移动向量,逐步迭代直到找到最优解。但是这种搜索方法存在缺陷,只对样本点进行计算,无论距离中心点的远近,其贡献是一样的。当目标出现遮挡或运动模糊时,外层的特征容易受到背景的影响,其准确性降低。针对这一情况,我们应该赋予不同的采样点不同的权值,离中心点越近,权值越高;反之亦然。因此,我们应该选择合适的系数来提高跟踪算法的鲁棒性。为了解决这一问题,作者将 Epannechnikov 核函数引入到Meanshift 中。
图 1 表达了 Meanshift 的跟踪原理示意图:可以看出,算法通过逐步迭代寻找概率密度最大的方向。当偏移量小于某一设定阈值时,则可以认为样本迭代到最佳位置,达到目标跟踪的目的。跟踪的过程分为三个步骤:
1) 目标模型的建立:在初始帧中选中目标模型,对初始帧中的目标区域建立 RGB 颜色空间直方图。其中 c 是归一化系数,K 表示内核函数,在本算法中使用 Epanechikov 核函数,函数是判断点 xi是否属于目标区域,在区域内为 1,不在区域内为 0。目标的模型表示如下:
2) 模型的搜索:在后续帧中,在前一帧的基础上逐步搜索,得到目标区域的模型如下。其中,y 为窗口的中心坐标,r 表示核窗口的宽度。
3) 相似度判别:相似度判别式是判断是否继续迭代的条件。当目标模型与跟踪模型的相似度小于特定的阈值时,迭代停止,得到待跟踪的目标区域。引入 BH 系数进行判断,系数值越大,相似度越高。Su 为目标模板,Qu 为候选区域模板。
Meanshift 算法虽然实现了较好的跟踪效果,但是对目标尺度的变化不能进行自适应的跟踪。针对这一缺陷,人们提出了Camshift 算法。Camshift算法是在 Measnhift 基础上的改进,在其中加入了尺度自适应机制,可以根据目标的大小自动调节跟
踪框的尺度,算法的流程图如图 2:首先,Camshift算法中使用的是 HSV 颜色直方图。这是由于 HSV颜色直方图具有较强的鲁棒性。其次,根据所求得的颜色直方图将初始输入图像转化为概率分布图像。最后是 Meanshift 迭代过程。进行 Meanshift 迭
代,将前一帧的输出作为后续帧的输入。其思想与Meanshift 相同,移动窗口中心到质心,逐步迭代,直到满足迭代终止条件。在迭代的过程中,通过零阶距调整窗口的大小。
三. 相关滤波类方法
我们的重点来了,相关滤波类方法是现今最后热的研究方向。相关滤波类方法具体的理论推导有很多资料可以进行参考,本人的论文中也有介绍感兴趣的小伙伴可以进行查阅。
在相关滤波方法用于目标跟踪之前,所有的跟踪算法都是在时域上进行处理。在运算过程中,涉及到复杂的矩阵求逆计算,运算量大,实时性差。基于相关滤波的目标跟踪方法将计算转换到频域,利用循环矩阵可以在频域对角化的性质,大大减少了运
算量,提高运算速度。KCF 在相关滤波基础上进行了优化,引入了循环矩阵。目标跟踪过程中缺少大量的负样本,通过循环矩阵可以增加负样本的数量,提高分类器训练的质量。将高斯核加入到岭回归中,能够将非线性的问题转换到高维的线性空间中,简化计算。在 KCF 中,作者将目标跟踪问题的求解转化为一个分类问题 (图像中的目标和背景).。这个分类问题的求解应用了岭回归方法,所得到的分类器中包含了矩阵的逆运算, 其运算量复杂,严重影响跟踪系统的实时性。KCF 在分类器的计算中引入了循
环矩阵,巧妙的规避了矩阵的逆运算,大大减少了分类器的运算量。高斯核函数的引入可以将非线性问题转化为高维空间中的线性问题,使得算法更具有一般性。KCF 可以分为:模型建立,在线匹配,模板更新三个部分。
根据相关滤波算法的结构,我们将从特征的选择,尺度的估计,以及分类器的模型三个方面进行讨论。本节的框架图如图 4 所示:特征分为单一特征和混合特征两类;尺度的估计包括尺度池估计,分块估计,特征点估计三类;跟踪模型的改进分为模型结构上的改进和模型融合。
(1)特征的选取
1) 单特征. 最早的相关滤波器 MOSSE使用的是灰度特征. 由于灰度特征的单一性, 使得其优点是跟踪速度快, 可以达到 669 帧每秒, 但缺点是跟踪精度低. 随后的算法 CSK是在 MOSSE的基础上增加了循环矩阵和核函数进行估计, 但在特征上没有做进一步的优化, 仍使用灰度特征, 其目标跟踪速度可达 320 帧每秒. 随后 CN是在2014 年在 CSK 的基础上提出, 它采用的是颜色特征 (color name). 为了提高运算速度, 论文中还用了 PCA 将 11 维的特征降到 2 维, 并改进了模型跟踪方案. KCF与 CSK是同一作者, 可以说是KCF 是对 CSK 的进一步完善. KCF 中使用的是HOG特征, 目标的表面纹理特征和轮廓形状能够很好地被 HOG 特征来描述.
2) 多特征. 随着研究的深入, 人们逐渐发现使用单独的特征在跟踪准确率和跟踪速度上存在着性能瓶颈. 因此, 多特征融合成为了目标跟踪的研究热点. SAMF是将 CN、灰度特征和 HOG 特征进行矢量链接, 将链接后的特征作为跟踪的特征.STAPLE是在 DSST算法基础上将特征进行融合, DSST 算法中使用的 HOG 特征, 其对运动模糊、 光照变化具有很强的鲁棒性; 而对于目标发生形变时跟踪效果差. 由于目标在运动过程中颜色分布不会改变, 颜色直方图可以很好的处理目标形变情况. 因此, 作者将 HOG 特征与颜色统计特征进行互补, 共同作为目标的输入特征. MOCA中使用的是 MC-HOG 特征, 首先, 将输入的 RGB 图像转换为颜色空间; 然后, 分别从颜色空间中的每个通道提取 HOG; 最后, 将所有 HOG 特征结合在一起, 形成一个三维矩阵或一个长向量, 作为特征矩阵或特征向量.近年来, 随着深度学习方法的广泛应用, 人们考虑将深度特征运用在目标跟踪算法中. HCF将深度学习提取的卷积特征用于目标跟踪. DeepSRDCF算法中, 采用单卷积层进行建模, 用输出的深度特征进行目标跟踪, 这样能够更好的区别目标与背景.由上述的讨论我们可以得出, 目标特征的选择经历了由简单到复杂的过程. 最开始人们使用灰度,颜色, HOG, 深度特征等单一的特征. 随着研究的进展, 为了发挥每种特征的优势, 人们将多种特征进行融合, 将融合后的特征作为目标特征. 后续的研究可以考虑更多的有效特征或特征融合方式.
(2)尺度自适应
早期的相关滤波类算法, 如: KCF, CSK,CN等, 其目标跟踪尺度是固定的. 当跟踪目标发生旋转, 形变或者尺度变化时, 跟踪器不能自适应的进行跟踪. 跟踪框内会包含很多干扰信息, 从而导致跟踪失败. 因此, 针对这一问题的改进, 主要有以下几种方法.
1) 基于尺度池的方法. 尺度池方法就是将原有的目标进行不同尺度的放大和缩小. 计算变化后的目标, 选择响应值最大的作为跟踪目标, 从而达到尺度自适应追踪.稳健的尺度估计是视觉对象追踪中的一个挑战性问题. 为了解决这一难点, 人们提出 SAMF[16]
算 法. 其 工 作 原 理 如 图 5 所 示: 跟 踪 窗 口 i的大小为二维向量 Si, S0 为目标的输入,k 为尺度因子.对初始目标进行七个尺度的缩放, 经过相关滤波器后分别得到对应的响应值. 然后比较不同尺度响应值, 并取响应值最大一个, 作为最佳的目 标 尺 度 值. 在SAMF中七个固定的尺度池:0:985; 0:99; 0:995; 1:0; 1:005; 1:01; 1:015.SAMF 中使用最佳的尺度值对目标进行跟踪, 能够解决目标跟踪过程中目标尺度变化的问题, 并在 2014 年的 VOT 视频跟踪竞赛中取得第一名.DSST中提出了一种基于三维尺度空间相关滤波器的联合平移尺度跟踪方法. 在设计滤波器时, 在二维位置平移的基础上增加一维尺度. 两个滤波器工作相互独立, 分别进行目标定位与尺度缩放, 这样可以更加高效的工作, 方便将该算法移植到其他算法中. 追踪时在目标周围矩形区域计算一个特征金字塔, 由于特征金字塔的引入, 使得 DSST 算法的尺度变化有 33 种.
2) 基于分块的方法. 分块方法是将目标分成若干个小块, 计算当前帧中块与块之间的距离. 其核心思想是通过判断分块间的距离是否达到所设定的阈值来估计目标的尺度变化.基于分块的跟踪也能很好的解决自适应跟踪问题. 文献中提出了一种基于多个相关滤波器的跟踪方法 (RPAC). 其原理如图 6 所示: 首先在图像中心选择一个块, 在其上下左右依次选择四个大小相同的块. 在跟踪过程中, 计算当前帧中间块和上下左右块中心点的距离. 通过判断各中心点间的距离是否达到尺度更新的阈值来进行尺度自适应跟踪.PSC中, 将目标分成四个小块, 计算初始帧中四个块最大响应位置之间的距离. 然后在后续帧中使用 CN 跟踪器检测四个块中最大响应值的位置.通过比较位置变化的大小来判断目标尺度的变化.文献中, 将目标分成两个块, 通过比较两个块在当前帧位置的关系来判断目标尺度的变化. 当两个块距离变小时, 目标尺度减小; 当两个块距离变大时, 目标尺度变大. 通过当前帧两个块之间的距离的变化, 来确定目标尺度的变化.
3) 基于特征点的跟踪. 随着研究的深入, 人们想到使用特征点进行目标跟踪. 在目标跟踪与特征匹配中, 常用的特征点有 SIFT, SURF,FAST, BRIEF等特征点. 在 sKCF中, 在视频序列相邻帧中提取特征点, 赋予特征点不同的权值, 离目标中心近, 权重大; 离目标中心远, 权重小. 通过比较特征点的位置变化实现尺度自适应变化. 早期的相关滤波方法 MOSSE, CSK, CN, KCF,重点工作放在了对目标特征的改进上, 对跟踪尺度没有进行改进. 随着研究的深入, 后续的研究算法大多数解决了尺度变化的问题. SAMF, DSST 中采用了尺度池策略, 对目标尺度进行估计. 但是由于尺度池有限, 有时不能实现准确跟踪. 后续人们采用了分块跟踪策略和特征点跟踪策略, 对尺度池方法进行完善. 特征点位置的变化对目标尺度更加敏感. 相比之下, 针对待跟踪目标的特点, 自适应的定义尺度是最好的选择.
(3)基于跟踪框架的改进
1) 基于模型的改进. 更多的算法集中于相关滤波框架的改进, 如 SRDCF, BACF. 由于相关滤波是模板类方法, 如果目标快速运动或者发生形变, HOG 特征不能实时的跟上目标的变化, 会产生错误样本造成分类器性能下降, 导致边界效应的产生. SRDCF 针对这一问题, 扩大了搜索区域, 加入空间正则化约束, 其原理图 7 所示, 离目标中心越近, 约束越小; 离目标中心越近越远, 约束越大; 这样减少了背景区域的权重, 提高了分类器的可靠性.SRDCFdecon在 SRDCF 基础上将学习率从固定值改为自适应函数. BACF 算法直接从训练分类器入手, 扩大样本数量的同时又增加样本的质量. 先扩大循环采样区域, 这样样本数量会大量增加; 同时为了保证样本质量, 缩小搜索区域, 减少背景信息的干扰.LMCF使用 CF 来优化结构化 SVM, 提高计算速度. 相比于传统 SVM, 结构化 SVM 具有更强大的判别力. 但是在求解结构化 SVM 时计算量大, 实时性差, 因此只能进行稀疏的采样. 相关滤波思想出现后, 通过使用循环矩阵增加采样范围, 在频域进行计算, 提高了计算速度. 因此可以使用 CF 来对结构化 SVM 进行优化. 同时, 文中对目标检测以及模型更新策略也进行了改进. 如图 8 所示: 在目标检测时, 当响应值为明显的峰值时, 正常进行跟踪; 当响应值为多个峰值时, 说明存在干扰信息, 不能选取盲目的取峰值最高的位置, 应该在产生峰值的位置重新进行比较. 在模型更新时, 当产生多个峰值时, 停止对目标模板的更新, 这样可以减少相似干扰、 目标遮挡等情况下错误的目标更新.
上述的目标跟踪算法都是在短时间内进行在线跟踪, 若需要进行长时间目标跟踪, 必须配合在线检测机制才能实现. LCT中, 在 DSST 二维位置滤波器和一维尺度滤波器的基础上, 增加一个检测器并给检测器设置两个阈值, 用来判断跟踪是否正确.当响应值小于最小阈值, 说明跟踪不可靠, 应重新跟踪; 当响应值大于最大阈值时, 目标跟踪准确, 应进行在线学习. 通过使用短时间跟踪算法和在线检测器可以实现目标的长时间跟踪.相比于传统的算法, 随着深度学习领域的发展,研究人员将深度学习用于目标模型的建立. CF2中采用分层卷积进行建模. 其中第一个卷积层提供更精确的定位, 但无法处理待跟踪目标的外观剧烈变化的情况; 第二个卷积层的输出对目标的表观信息, 并且这种表示可以处理待跟踪目标的外观剧烈变化的情况, 但是, 它们无法精确定位目标. 将两个卷积层融合可以得到目标精确的位置.
2) 基于融合的模型. 每一种跟踪算法都有自己的优势. 有的是通过提取优良的特征进行跟踪, 有的是引入可变化尺度进行跟踪. 通过将不同的算法进行合理地集成, 可以进行优势互补, 达到更好的效果. 文献中提出了一种基于集成 (EBT) 的方法, 将多种算法结合在一起, 每个跟踪器独立的负责目标跟踪过程中的一个部分, 例如: 利用 DLT提取深度特征进行特征提取, 利用 LSST估计尺度,利用 Struct和 CSK作为跟踪模型, 并对跟踪结果进行集成处理, 集成多个跟踪器的优势提高跟踪的稳定性, 但其缺点是实时性差.
四. 深度学习类方法
我们的重点来了,深度学习类方法是现今最后热的研究方向。最近, 随着深度学习方法的广泛应用, 人们开始考虑将其应用到目标跟踪中. 人们开始使用深度特征并取得了很好的效果. 之后, 人们开始考虑用深度学习建立全新的跟踪框架, 进行目标跟踪.深度学习方法的效果之所以火热, 是由于通过多层卷积神经网络训练大量的数据. 但是将深度学习方法用到目标跟踪存在严重的缺陷:
1) 因为在目标跟踪中的正样本只有初始帧中的目标, 没有大量的数据难以训练出性能优良的分类器.
2) 深度学习方法通过将多层网络连接训练分类器来提高跟踪精度, 但是随着卷积层数量的提高以及训练网络的复杂, 算法的实时性很低, 不能满足快速运动目标的实时跟踪.虽然深度学习方法存在着缺陷, 但是由于其在结构上的巨大优势, 研究人员逐步将其缺点进行改进. 从改进的方向上看主要可以分成两个部分:
(1)基于相关滤波方法改进
优良的特征是实现良好跟踪的基础, 深度学习方法得出的深度特征比传统的手工特征 (HOG、 灰度、 CN、 Harris 等) 更加精确. 相关滤波的核心思想是将计算转化到频域, 相比于传统方法, 跟踪速度得到了大幅度的提升. 为了结合两种方法的优点, 人们开始将深度学习引入到相关滤波中.HCF中将深度特征与相关滤波算法相结合,由于卷积神经网络不同层提取的特征具有不同的特点. 前层图像分辨率高, 特征包含更多的位置信息;后层的特征包含更多的语义信息. 作者使用三层网络分别训练相关滤波器, 加权后得到目标的最终响应位置. DeepLMCF 是在 LMCF 的基础上引入了深度特征, 提高了跟踪的精度和算法在复杂情况下的鲁棒性. 由于前层的网络包含更多的位置信息,DeepSRDCF在 SRDCF 的基础上建立单层网络, 这样不但减少了深度特征的计算量, 而且极大
提升了算法的性能.C-COT获得了 VOT2016 竞赛的第一名, 文中提出了一种连续卷积滤波器的方法, 在 SRDCFdecon的基础上, 采用多层深度特征, 通过连续空间域差值转换操作, 实现了滤波器的输入可以是不同分辨率的特征. ECO是 C-COT的改进版本, 从模型大小、 样本集大小以及更新策略三个方面进行改进. 首先筛选去除贡献小的滤波器;然后简化训练样本集, 减少相邻样本间的冗余; 最后每隔 6 帧更新一次模型, 既减少了模型更新的次数,又能有效地减轻目标遮挡时的影响.深度学习用于相关滤波方法中不局限于特征提取一个方向, 人们开始考虑用深度学习方法构建分类器.SiamFC一种孪生网络的思想: 其主要任务就是学习一个相似匹配函数, 一个分支是保存目标信息, 另一个分支是搜索特征, 然后将两部分特征进行相关操作, 最后置信度高的区域即为目标的位置.
(2)基于网络结构的改进
DLT算法首先将深度学习方法应用到目标跟踪中. 它针对在线训练时正样本缺失的问题, 提出了一种离线训练与在线调整相结合的方法.作者首先在辅助数据集上进行离线训练, 获取目标的特征表示. 然后在跟踪时, 初始帧给定的情况下对网络结构进行微调, 实现准确地跟踪. 在模型更新时设置阈值机制, 因为过多次数的模型更新会导致算法的复杂度增加, 实时性差, 因此作者通过比较当前帧目标与初始帧目标的相似度是否达到确定的阈值来判断模型是否更新.虽然 DLT 算法成功的将深度学习应用到了目标跟踪中, 但是仍存在以下缺陷: 数据集上的图片分辨率低, 使得训练的分类器效果差, 很难得到有效的特征. 训练时会存在很多干扰, 比如数据集中图片的目标很有可能成为追踪时的背景. 当发生目标姿态变化, 背景杂乱等干扰时, 会导致目标模型一直更新, 会增加算法的复杂度, 实时性差.由于训练时存在样本分辨率不高的情况, 对于样本与背景的定义非常模糊, 为了解决这类问题. 文献将高斯函数引入到卷积神将网络中训练中,来提高深度特征提取的精度针对目标与背景对比度差异较大的情况, 文献中降低了网络的层次, 减少了减法的复杂度. 同时在模型更新时, 由于初始帧是目标的正确描述, 采用与训练相同的网络进行调整; 在后续的跟踪中会存在跟踪漂移等问题, 作者改变了更新策略, 简化了网络结构, 提高算法的实时性.当目标与背景相似时, 为了提高特征的精确度,需要采用多层次的网络. 文献提出一种网状结构的神经网络, 它的思想是利用多个卷积神经网络进行加权处理, 每隔 10 帧更新一个神经网络, 并根据更新时间顺序赋予每个神经网络不同的权重. 这种算法可以有效地提高跟踪的精度, 但是实时性差,每秒更新 1.5 帧. 文献 [79] 中针对正负样本之间存在严重不平衡分布问题, 用生成式对抗网络来丰富高质量正样本; 同时提出了一个高阶敏感损失来减小简单负样本对于分类器训练的影响, 跟踪效果超过了 ECO.
五. 实验分析
实验中,我将目前(截止到2018年CVPR)比较流行的50种算法的代码在数据集上进行测试。结果如下:随着深度学习领域的广泛应用, 人们开始将深度特征应用到目标跟踪领域. 之后, 人们开始考虑用深度学习建立全新的跟踪框架进行目标跟踪. 近两年, 基于深度学习的目标跟踪算法层出不穷, 例如 ECO,MDNet,SANet,BranchOut,TCNN等, 并取得了很好的效果. 本文将相关滤波方法、 深度学习方法和传统的目标跟踪算法在OTB-2013 上进行了对比. 图中给出了 50 种目标跟踪算法在OTB-2013 中的总体精确度和成功率曲线以及代码帧率。
所有目标跟踪算法在11中复杂情况下的表现为: