原文链接:https://ieeexplore.ieee.org/document/8665251
原文代码:https://github.com/vision4robotics/SPBACF-Tracker
该算法将要跟踪的对象最初划分成多个部分,并且不同的背景感知相关滤波器分别应用于这些划分的对象部分。 提出了一种有效的具有结构比较和贝叶斯推断的从粗到细策略,用于定位物体并估计物体的尺度变化。 另外,提出了自适应阈值,以使用高斯过程回归方法更新每个局部外观模型。如下图:
其中, ε ( w , g ^ ) \boldsymbol{\varepsilon }\left( \boldsymbol{w},\boldsymbol{\hat{g}} \right) ε(w,g^)表示在傅立叶域中,为获得所需的滤波器参数w
y ^ \boldsymbol{\hat{y}} y^是矢量化的高斯回归标签。
下标d表示D个特征信道的第d个
X ^ d \boldsymbol{\hat{X}}_{\boldsymbol{d}} X^d定义为: X ^ d = diag ( x ^ d ) \boldsymbol{\hat{X}}_{\boldsymbol{d}}=\text{diag}\left( \boldsymbol{\hat{x}}_{\boldsymbol{d}} \right) X^d=diag(x^d)
g ^ \boldsymbol{\hat{g}} g^是辅助变量,可以表示为 g ^ d = F ( B T w d ) \boldsymbol{\hat{g}}_{\boldsymbol{d}}=\mathcal{F}\left( \boldsymbol{B}^{\boldsymbol{T}}\boldsymbol{w}_{\boldsymbol{d}} \right) g^d=F(BTwd)
头上的小帽子^代表离散傅里叶变换
替代公式为 g ^ d = N F B T w d \boldsymbol{\hat{g}}_{\boldsymbol{d}}=\sqrt{\boldsymbol{N}}\boldsymbol{FB}^{\boldsymbol{T}}\boldsymbol{w}_{\boldsymbol{d}} g^d=NFBTwd其中F是傅立叶变换的正交N×N映射矩阵
M×N二进制矩阵B实现了裁剪操作,该操作可以从大小为N的原始信号中裁剪出M个中间元素。表示矩阵或矢量的共轭转置。 λ是Tikhonov正则项的系数。 为了解决等式中闭式解方案的不足。 在公式1中,应用了增强的拉格朗日方法(ALM)。 特定的拉格朗日函数无需单通道表示即可重新得出:
其中, μ \boldsymbol{\mu } μ是折衷惩罚参数
ζ ^ \boldsymbol{\hat{\zeta}} ζ^是傅立叶域中的拉格朗日参数
I K \boldsymbol{I}_{\boldsymbol{K}} IK是K×K单位矩阵
使用Kronecker乘积 ⊗ \otimes ⊗,重新定义的项为 ∑ D X ^ d g ^ d = N X ^ ( F B T ⊗ I K ) w \sum_{\boldsymbol{D}}{\boldsymbol{\hat{X}}_{\boldsymbol{d}}\boldsymbol{\hat{g}}_{\boldsymbol{d}}=\sqrt{\boldsymbol{N}}\boldsymbol{\hat{X}}\left( \boldsymbol{FB}^{\boldsymbol{T}}\otimes \boldsymbol{I}_{\boldsymbol{K}} \right) \boldsymbol{w}} ∑DX^dg^d=NX^(FBT⊗IK)w
等式中的ALM问题。 可以通过交替方向乘子法(ADMM)迭代求解2。 这个主要问题可以分为两个子问题,分别可以得到解析解 w ∗ \boldsymbol{w}^* w∗和 g ^ ∗ \boldsymbol{\hat{g}}^* g^∗。 此外,凭借稀疏的带状特性?和Sherman-Morrison公式,ADMM迭代可以实现实时跟踪的性能。
再者,物体检测
使用新的图像块 z t \boldsymbol{z}^{\boldsymbol{t}} zt和辅助变量 g ^ t − 1 \boldsymbol{\hat{g}}^{\boldsymbol{t}-1} g^t−1估计帧t中跟踪物体的位置和尺度变化。 使用搜索区域的多种分辨率,可以确定最大相关滤波器响应,以便估计对象位置和比例变化:
其中 s ^ t \boldsymbol{\hat{s}}^{\boldsymbol{t}} s^t是跟踪对象的预测位置和比例变化。 ⊙ \odot ⊙表示逐元素乘积。
最后进行滤波器更新
其中 x ~ t \boldsymbol{\tilde{x}}^{\boldsymbol{t}} x~t是从 x t \boldsymbol{x}^{\boldsymbol{t}} xt和 x ~ t − 1 \boldsymbol{\tilde{x}}^{\boldsymbol{t}-1} x~t−1获得的外观模型。 α \boldsymbol{\alpha } α是恒定的学习率。
如图2所示,跟踪对象分为多个部分。 对于每个部分,使用独立的分类器(即BACF)来提供局部响应图拟合。 最后,将这些局部响应图融合到联合响应图 f t \boldsymbol{f}_{\boldsymbol{t}} ft中以定位跟踪对象。 为了提高无人机跟踪的鲁棒性,基于两个参数设计了自适应权重,即每个局部响应图的重要性:(1)峰旁瓣比(PSR):它评估响应图的清晰度。 (2)置信图的平滑约(SCCM):它评估响应图的平滑性。
每个部分的自适应权重 β i t \boldsymbol{\beta }_{\boldsymbol{i}}^{\boldsymbol{t}} βit定义为:
其中 γ \boldsymbol{\gamma } γ是响应图的清晰度和时间平滑度之间的折衷参数。
S C C M i t \boldsymbol{SCCM}_{\boldsymbol{i}}^{\boldsymbol{t}} SCCMit是第t个图像帧上第i个响应图的平滑度。
P S R i t \boldsymbol{PSR}_{\boldsymbol{i}}^{\boldsymbol{t}} PSRit是第t个图像帧上第i个响应图的清晰度。
将不同的本地响应图与相应的自适应权重相结合的联合响应图 f t \boldsymbol{f}^{\boldsymbol{t}} ft定义为:
接下来,是一种从粗到细策略的新方法来估计跟踪对象的位置和尺度变化。
具体而言,首先比较两个连续帧上的跟踪对象的结构,以估计初始位置和尺度变化,然后使用贝叶斯推理框架获取最终的对象位置和尺度变化。
结构比较:获得联合响应图后,根据局部响应图估计跟踪对象的粗略位置和尺度变化。 为了实现粗略估计,应用所有部分的位移矢量以获得对象平移的结果。 详细地,利用移位向量 v i t \boldsymbol{v}_{\boldsymbol{i}}^{\boldsymbol{t}} vit及其信任分数 w i t = β i t ∑ β j t \boldsymbol{w}_{\boldsymbol{i}}^{\boldsymbol{t}}=\frac{\boldsymbol{\beta }_{\boldsymbol{i}}^{\boldsymbol{t}}}{\sum{\boldsymbol{\beta }_{\boldsymbol{j}}^{\boldsymbol{t}}}} wit=∑βjtβit来计算转换。 跟踪对象 v t \boldsymbol{v}^{\boldsymbol{t}} vt的移动向量定义为:
在等式7中,较高的 w i t \boldsymbol{w}_{\boldsymbol{i}}^{\boldsymbol{t}} wit表示此部分的较高信任级别。 跟踪对象的平移由可靠部分的位移矢量确定。 减少了被遮挡部分的影响,以保持跟踪的鲁棒性。
为了估计尺度变化,作者提出了一种基于所有局部响应图的结构的方法。 在这种方法中,跟踪对象的比例变化可以参考其可靠的本地响应图的分布。
令 e i = ∣ ∣ v i t − v t ∣ ∣ \boldsymbol{e}_{\boldsymbol{i}}=||\boldsymbol{v}_{\boldsymbol{i}}^{\boldsymbol{t}}-\boldsymbol{v}^{\boldsymbol{t}}|| ei=∣∣vit−vt∣∣为误差。 计算这些误差的标准偏差 σ e \boldsymbol{\sigma }_{\boldsymbol{e}} σe代表向量 v i t \boldsymbol{v}_{\boldsymbol{i}}^{\boldsymbol{t}} vit分布的程度,作为选择可靠的局部响应图的阈值。 如果 e i > σ e \boldsymbol{e}_{\boldsymbol{i}}>\boldsymbol{\sigma }_{\boldsymbol{e}} ei>σe,则相应的本地响应图将不可靠并被丢弃。
令 σ s t \boldsymbol{\sigma }_{\boldsymbol{s}}^{\boldsymbol{t}} σst和 σ s t − 1 \boldsymbol{\sigma }_{\boldsymbol{s}}^{\boldsymbol{t}-1} σst−1表示在帧t和t-1处可靠局部响应图的峰值位置的标准偏差,跟踪对象的尺度变化的粗略估计为 σ s t \boldsymbol{\sigma }_{\boldsymbol{s}}^{\boldsymbol{t}} σst与 σ s t − 1 \boldsymbol{\sigma }_{\boldsymbol{s}}^{\boldsymbol{t}-1} σst−1的比,即 σ s t σ s t − 1 \frac{\boldsymbol{\sigma }_{\boldsymbol{s}}^{\boldsymbol{t}}}{\boldsymbol{\sigma }_{\boldsymbol{s}}^{\boldsymbol{t}-1}} σst−1σst。
在这项工作中,跟踪位置和尺度的变化首先通过位移矢量 v t \boldsymbol{v}^{\boldsymbol{t}} vt和比率 σ s t σ s t − 1 \frac{\boldsymbol{\sigma }_{\boldsymbol{s}}^{\boldsymbol{t}}}{\boldsymbol{\sigma }_{\boldsymbol{s}}^{\boldsymbol{t}-1}} σst−1σst进行更新。
贝叶斯推理框架:在此框架中,使用从结构比较中获得的初始结果来估计最终对象的位置和尺度变化。 对象的状态 s t \boldsymbol{s}^{\boldsymbol{t}} st用仿射运动表示,定义为:
其中 z 1 : t \boldsymbol{z}^{1:\boldsymbol{t}} z1:t是相对于联合置信度图的测量集,即 z 1 : t = { z i , i = 1 , ⋯ , k } \boldsymbol{z}^{1:\boldsymbol{t}}=\left\{ \boldsymbol{z}_{\boldsymbol{i}},\boldsymbol{i}=1,\cdots ,\boldsymbol{k} \right\} z1:t={zi,i=1,⋯,k}。 s j t \boldsymbol{s}_{\boldsymbol{j}}^{\boldsymbol{t}} sjt是第j个样本的状态。
为了模拟跟踪过程,使用了Chapman-Kolmogorov方程,即:
其中, p ( s t ∣ s t − 1 ) \boldsymbol{p}\left( \boldsymbol{s}^{\boldsymbol{t}}|\boldsymbol{s}^{\boldsymbol{t}-1} \right) p(st∣st−1)被定义为:
其中 s ~ t − 1 \boldsymbol{\tilde{s}}^{\boldsymbol{t}-1} s~t−1是基于上文的结构比较 的位置和尺度的粗略估计。 Ψ \boldsymbol{\varPsi } Ψ表示对角协方差矩阵,其元素是仿射参数的方差。
公式9中的测量模型 p ( z t ∣ s t ) \boldsymbol{p}\left( \boldsymbol{z}^{\boldsymbol{t}}|\boldsymbol{s}^{\boldsymbol{t}} \right) p(zt∣st)定义为:
其中 M t \boldsymbol{M}^{\boldsymbol{t}} Mt表示余弦窗口空间掩码,其峰值取决于局部响应图的最大值。 ∣ ⋅ ∣ |\cdot | ∣⋅∣是相应边界框中的像素数。 f t ( s j t ) \boldsymbol{f}^{\boldsymbol{t}}\left( \boldsymbol{s}_{\boldsymbol{j}}^{\boldsymbol{t}} \right) ft(sjt)是来自联合响应图的状态 s j t \boldsymbol{s}_{\boldsymbol{j}}^{\boldsymbol{t}} sjt的响应patch。
计算公式8中的最大后验 p ( s t ∣ z 1 : t ) \boldsymbol{p}\left( \boldsymbol{s}^{\boldsymbol{t}}|\boldsymbol{z}^{1:\boldsymbol{t}} \right) p(st∣z1:t)等于获得似然性 p ( z t ∣ s t ) \boldsymbol{p}\left( \boldsymbol{z}^{\boldsymbol{t}}|\boldsymbol{s}^{\boldsymbol{t}} \right) p(zt∣st)的最大值。 在工作中应用了响应图来计算似然性,从而大大简化了计算。 在图4中,直接针对每个采样候选者在边界框中计算响应分数的总和
提出了一种新颖的自适应阈值来更新每个局部外观模型,即分类器。 在这项工作中,我们使用高斯过程回归(GPR)对PSR和SCCM之间的关系进行建模,以实现自适应更新。 该关系被公式化为一组函数,即 g : a ∈ R → g ( u ) ∈ R \boldsymbol{g}:\boldsymbol{a}\in \mathbb{R}\rightarrow \boldsymbol{g}\left( \boldsymbol{u} \right) \in \mathbb{R} g:a∈R→g(u)∈R,其中 u = P S R i t \boldsymbol{u}=\boldsymbol{PSR}_{\boldsymbol{i}}^{\boldsymbol{t}} u=PSRit和 g ( u ) = S C C M i t \boldsymbol{g}\left( \boldsymbol{u} \right) =\boldsymbol{SCCM}_{\boldsymbol{i}}^{\boldsymbol{t}} g(u)=SCCMit 高斯过程(GP)模型描述了此功能集的分布:
其中 G P \mathcal{G}\mathcal{P} GP表示高斯过程。 m ( u ) \boldsymbol{m}\left( \boldsymbol{u} \right) m(u)和 G ( u , u ′ ) \boldsymbol{G}\left( \boldsymbol{u},\boldsymbol{u}' \right) G(u,u′)是这套函数的均值函数和协方差函数。 此协方差函数指定了 P S R i \boldsymbol{PSR}_{\boldsymbol{i}} PSRi对之间的协方差:
其中 σ f \boldsymbol{\sigma }_{\boldsymbol{f}} σf和 l \boldsymbol{l} l是超参数。 q \boldsymbol{q} q和 q ′ \boldsymbol{q}' q′是输入,即 P S R i \boldsymbol{PSR}_{\boldsymbol{i}} PSRi值。 在对原始输入 P S R i \boldsymbol{PSR}_{\boldsymbol{i}} PSRi和输出 S C C M i \boldsymbol{SCCM}_{\boldsymbol{i}} SCCMi进行归一化之后,对于帧t的每个跟踪部分i的函数的零均值分布由以下预测公式表示:
其中 y = g ( a ) + ϵ \boldsymbol{y}=\boldsymbol{g}\left( \boldsymbol{a} \right) +\boldsymbol{\epsilon } y=g(a)+ϵ是y的元素,是所有函数的有噪声的观测值。
ϵ \boldsymbol{\epsilon } ϵ是具有方差矩阵 σ n 2 I \boldsymbol{\sigma }_{\boldsymbol{n}}^{2}\boldsymbol{I} σn2I的高斯噪声。
a ∗ \boldsymbol{a}_* a∗是 P S R i t \boldsymbol{PSR}_{\boldsymbol{i}}^{\boldsymbol{t}} PSRit的归一化值,向量a的元素是先前 P S R i \boldsymbol{PSR}_{\boldsymbol{i}} PSRi的归一化值。
g ∗ \boldsymbol{g}_* g∗是 S C C M i t \boldsymbol{SCCM}_{\boldsymbol{i}}^{\boldsymbol{t}} SCCMit的归一化值。
为了提高更新性能,我们仅从 t − t r \boldsymbol{t}-\boldsymbol{t}_{\boldsymbol{r}} t−tr到 t − 1 \boldsymbol{t}-1 t−1帧中选择a和y,其中 t r \boldsymbol{t}_{\boldsymbol{r}} tr是输入存储器的长度。
这种方法使GP模型更多地关注于最近的输入,而舍弃了较远的输入。
K ( ⋅ , ⋅ ) \boldsymbol{K}\left( \cdot ,\cdot \right) K(⋅,⋅)和 k ( ⋅ , ⋅ ) \boldsymbol{k}\left( \cdot ,\cdot \right) k(⋅,⋅)分别表示输入的协方差矩阵和向量。
其中 g ˉ ∗ \boldsymbol{\bar{g}}_* gˉ∗和 V ( g ∗ ) \mathbb{V}\left( \boldsymbol{g}_* \right) V(g∗)分别是条件分布的均值和方差。
利用这些参数,构建了SCCM的有效区域。
此区域的上限为 g ˉ ∗ + 2 V ( g ∗ ) \boldsymbol{\bar{g}}_*+2\sqrt{\mathbb{V}\left( \boldsymbol{g}_* \right)} gˉ∗+2V(g∗),下限为零。
在此基础上,将帧t处的外观模型i的更新方案定义为:
其中, α \boldsymbol{\alpha } α是控制外观模型更新的学习率。
当计算的 S C C M i t \boldsymbol{SCCM}_{\boldsymbol{i}}^{\boldsymbol{t}} SCCMit位于有效区域中时, x ~ i t \boldsymbol{\tilde{x}}_{\boldsymbol{i}}^{\boldsymbol{t}} x~it将被更新。 否则,将不会更改。
提出的用于更新分类器的自适应阈值能够帮助我们的跟踪器获得更好的跟踪性能,中心位置误差(CLE为ground-truth与估计物体中心之间的欧几里得 距离,如图5所示。