论文全名:Accurate Scale Estimation for Robust Visual Tracking
论文摘自BMVC 2014,由Martin Danelljan(目标跟踪大神)、Gustav Häger、Fahad Shahbaz Khan、Michael Felsberg撰写
作者提出鲁棒尺度估计:通过基于尺度递增表示来学习相关滤波器。
对于转换和尺度估计(非固定)分别学习了一个滤波器,提高了性能。
(1)tracking-by-detection(目标与背景分类问题):MOSSE(最小化平方误差的输出和)、Struck SVM、CSK(核最小二乘分类)、CT。缺点:对尺度变化序列中表现差。
(2)处理尺度变化:ASLA、SCM。缺点:以低帧速率操作,导致不实时。理想的尺度估算方法应该是稳健的,以便在计算效率的同时进行尺度变化。
作者针对上述问题,提出基于MOSSE相关滤波器的鲁棒尺度估计方法。
贡献:
(1)提出了在尺度金字塔上训练分类器来评估目标尺度的方法。
(2)在找到最佳转换后独立地估计目标尺度。
效果:提高了准确性,帧速率提高了25倍。
测试数据集:OTB2013中标签为“Scale Variation”的28个视频序列 。
作者提出的方法是基于MOSSE的,
目的:对第t帧得到最佳相关滤波器。
方法:(与MOSSE处理相同)
(1)取(目标的灰度图像块)作为训练样本,期望输出为
(高斯函数【峰值位于
中心】),通过最小化误差平方和
(第二个等式由Parseval定理得出【经过了离散傅立叶变换】)。
(2)定义第t帧的相关分数(逆傅里叶变换),取最大值即可。
解释:(分子和分母通过对
分别加权平均更新得到),
大小为M×N,
为循环相关操作(
小写字母表示时域,大写字母表示频域(傅里叶域))。
输入:第t帧图像、第t-1帧目标位置
、尺度变化
;
(1)预测目标:
1.通过
与
,得到第t帧的预测样本
;
2.利用
与之前帧的
与
,用【1】计算相关分数
;
3.通过
得到第t帧的位置
;
(2)尺度计算:
4.通过第3步的
与
,得到第t帧的尺度样本
;
5.利用
与之前帧的
与
,用【1】计算相关分数
;
(3)模型更新:
8.通过【1】计算出
与
,更新预测目标模型;
9.通过【1】计算出
与
,更新尺度模型。
与KCF相同,作者将HOG(对低分辨率处理不佳)用于转换滤波器,并将其与通常特征相结合。
具体:利用1维滤波器评估尺度,2维滤波器计算平移,3维滤波器进行目标具体缩放空间定位。
目的:对于d维特征图,找到最佳相关滤波器h(对于初始帧,使用第二节中的方法)
方法:
(1)设f为其目标的一个矩形块(训练样本),包含(
),期望输出为g,
为对应特征维度的滤波器,λ=0.01控制正则项。最小化损失函数:
。对于转换滤波器的评估,作者用目标的特征图f,训练了一个HOG滤波器
,
(2)相关分数(逆傅里叶变换),为时域中第t+1帧的最大值的位置。
解释:计算量较大,引入:
,其中,
,
,η=0.0025是学习率。
提出了基于三维的相关滤波器:滤波器大小固定为M×N×S,其中M和N是滤波器的高度和宽度,S是尺度。
(1)计算目标区域的特征金字塔(大小为M×N)
(2)将训练样本f设为特征金字塔的立方体(M×N×S),以目标的估计位置(通过之前帧的目标位置,用【1】的相关分数计算最大值来获得)为中心。
(3)用三维高斯函数作为相应的期望输出g。
通过用于转换和尺度的单独(一维)滤波器进行fast尺度变换。将搜索区域限制为比例空间中较小的部分。设P×R表示当前帧中的目标大小,S是尺度滤波器的大小。
设定尺度:
(1)对于每个,取大小为
图像块
(以目标中心为中心),a=1.02为特征层之间的比例因子。
(2)对于d维特征描述符,样本f(n)设为,n为尺度值
(3)对f更新缩放滤波器。(在计算
后再计算
)
(4)与f相同,提取z,用【1】的相关分数计算最大值,获得尺度差异。
1.参数
(1)将期望输出g的标准差设置为预测目标滤波器中目标大小的1/16和尺度滤波器的1.5;
(2)滤波器大小M×N为初始目标的两倍,S = 33;
(3)对任何序列参数值不变。
2.特征
(1)使用PCA-HOG(第六节cell大小为8×8)进行图像表示,其中,cell大小设为1×1。
(2)用图像灰度值进一步增加HOG特征(【2】尺度空间中也用到)。
(3)对于【3】fast 尺度空间,cell大小设为4×4,而对大于512像素的初始目标,设定纵横比尺寸不变(确保最大特征描述符长度为992)
(4)与MOSSE相同。提取的特征都会乘以cos窗。
我们首先表明,用HOG功能取代传统的强度值可以显着提高性能。然后,我们将快速尺度估算方法与穷举方法进行比较。最后,我们提供定量和定性比较与最先进的跟踪器。
Matlab, Intel Xenon 2 core 2.66 GHz CPU with 16 GB RAM。
(1)CLE(中心位置误差):GT与估计中心位置的平均欧几里德距离
(2)DP(距离精度):CLE小于特定阈值的帧数
(3)OP(IOU):IOU大于阈值t=0.5的百分比
与MOSSE相比,Baseline的CLE从31.2减少到15.9,DP提高了11.6%,OP提高了6.9%。
可以看出,Fast尺度空间的OP、DP、CLE性能最佳,而且相比尺度空间,计算速度提高了24倍。
算法:DSST(ours),CT,TLD,DFT,EDFT,ASLA ,L1APG,CSK, SCM,LOT,Struck和LSHT。
结论:虽然ASLA、SCM、Struck在OP、DP与CLE表现不错,但速度方面却不敌DSST。
作者通过学习一种判别相关滤波器,独立地估计平移和缩放,而且可以将该方法放入任何跟踪算法中。