问题: 实践中发现多种跟踪算法在目标长期跟踪过程中,当出现重度遮挡、物体跑出视野外情况时,总会跟丢,并且难以重新找回初始目标。扒出15年的这篇论文,想要尝试借鉴一下它解决这类问题的思想方法。
直接入题:本文解决了长期视觉跟踪的问题,目标物体由于变形、突然运动、重度遮挡和视野之外而引起明显的外观变化。这种情况下,我们将追踪任务分解为对象的平移和尺度估计。作者的论文中表明,时间上下文之间的相关性显着提高了平移估计的准确性和可靠性,并且从置信度最高的帧中学习鉴别相关滤波器(discriminative correlation filters)以估计尺度变化是有效的。
另外,训练一个在线的随机的fern分类器(an online random fern classifier),以便在追踪失败的情况下重新检测对象。 在大规模基准数据集上的广泛实验结果表明,所提出的算法在效率,准确性和鲁棒性方面由于目前最先进的方法。
基于以前工作的两个观察:
1、时间间隔很小时(小于0.04秒),两个连续帧之间的变化很小,即使对象严重遮挡,目标周围的上下文仍然可能保持不变。因此,对由目标对象及其上下文组成的外观时间关系进行建模非常重要。本文运用一种基于相关滤波器的核岭回归方法(kernel ridge regression method)对由目标对象及其周围环境组成的外观模板进行编码。 由提取的特征构建的自适应模板能抵抗重度遮挡,快速运动和大变形。这种方法与现有的基于相关滤波器的跟踪算法不同,后者在长期跟踪中容易漂移。这种方法主要贡献是使用相关滤波器为长期视觉跟踪有效地建模时间上下文信息。
2、增强长期跟踪器的检测模块对于(i)估计比例变化和(ii)在长期遮挡或者在视野外发生跟踪失败的情况下重新检测对象是至关重要的。对于比例估计,我们从最可靠的帧中训练目标的另一个相关滤波器。 我们使用HOG作为特征来构建一个多尺度目标金字塔并详尽搜索最优尺度。对于目标重新检测,由于该滤波器在高维HOG特征空间中被训练,所以我们不应用目标相关滤波器来扫描整个帧(计算效率低), 而是使用随机fern分类器训练在线检测器,并在激活时扫描窗口。
因此,算法同时使用两个基于具有不同适应率的相关滤波器的回归模型对时间上下文相关性和目标外观进行建模来缓解矛盾。
本文三个创新点:
(1)时间上下文回归器旨在积极适应平移估计来解决重大变形和重度遮挡问题。
(2)目标回归器保守地适应并应用于外观金字塔以进行尺度估计。
(3)提出了一种新方法在跟踪失败的情况下激活目标重新检测,并通过使用目标回归器来决定是否采用重新检测结果。
做法:如上图所示,从单个框架学习两个回归模型。模型Rc利用目标和周围的时间相关性,而Rt仅模拟目标外观。在训练模型R时,特征上添加了一层空间权重。时间上下文模型Rc考虑了目标和周围环境,因为该信息在时间上保持稳定并且在遮挡的情况下有用于区分目标和背景。并且为了使回归模型Rc自适应地估计经历闭塞,变形和突然运动的目标,令它以逐帧的学习速率α进行更新。关系满足下式:
,
与之前传统的方法不同,我们不用第一帧中的确定目标去评估之后帧中的跟踪结果,而是从最可靠的跟踪目标中学习一个判别回归模型Rt,用 的最大值评估跟踪结果的置信度。为了提高Rt模型的可靠度预先设好阈值 ,只有当 时才更新。
在跟踪过程中,我们在估计的平移位置周围构建一个目标金字塔来进行尺度估计。(可以尝试解决尺度不准确的问题)
P和Q是目标的大小,N为尺度数,对于每个s∈S提取以sP×sQ为大小的估计位置为中心的图像块Js,并把它们统一成P×Q大小,提取HOG特征,构建尺度特征金字塔。 为Rt对Js的响应, 为最优尺度,如果相应的,Rt才升级更新。
在线检测:
与之前的跟踪方法不同(每帧都进行重新检测),本文采用一个阈值 来控制检测器是否激活。为了保证算法效率,我们不用回归模型Rt作为检测器,而用一个在线随机fern分类器。由于当满足 时,检测器通过滑动窗口应用于整个框架,我们采用保守的更新方案训练在线随机fern检测器。
令 指示类别标签, 是一系列fern小集合的二进制特征,则每个fern特征的联合分布如下式:
其中代表第k个fern, 每个fern 的条件概率可以表示为,根据贝叶斯公式,最优类 被检测为:
整体算法流程:
输入:初始目标边界框 ,
输出:目标估计状态 , 时间上下文回归模型Rc,目标外观回归模型Rt, 随机fern检测器Drf。
重复以下过程直到视频序列结束:
根据 从第t帧中裁剪搜索窗口并提取特征;
(1)平移估计
用Rc和相关滤波分数计算相关图 (correlation map)估计新的位置 ;
(2)比例估算
在 周围构造目标金字塔,然后用Rt和相关滤波分数计算计算相关图 ,
得到 ;
(3)目标重新检测
如果 , 那么 :
使用检测器Drf执行重新检测,找到可能的候选状态集合X;
细节:对 X 中的每个状态 ,计算置信分数 , 如果 ,则 ; 否则,
结束
(4)模型更新
更新Rc ;
如果 ,那么使用Js更新Rt ;
更新Drf ;
算法实现中的具体设置:
特征:方式:特征向量由多通道的特征串联表示
训练Rc:HOG特征,31bins;灰度直方图特征,8bins (6*6) ;
亮度通道上添加非参局部秩变换特征,8bins;共47通道的特征。
训练Rt:HOG特征构建目标金字塔。
训练随机fern:将高置信度的每个跟踪结果调整为15×15大小,以形成灰度特征向量。
核函数:高斯核函数
随机ferns:原理是将像素作为类似于二进制特征进行比较,使用KNN(K-最邻近法)分类器,
选择置信度最高的跟踪结果作正样本。检测时基于扫描窗口策略。
效果图(详见论文):
总结:
本文提出一种长期视觉追踪算法。 将相关滤波用于估计目标的平移和比例(尺度)变化。 通过对时间上下文相关性建模进行目标平移估计,对外观构建金字塔模型进行目标比例估计。 并且使用在线随机fern检测器在追踪目标失败的情况下重新检测目标。 一定程度上加强目标重度遮挡、移出视野情况下的鲁棒性。