【ECO】Efficient Convolution Operators for Tracking阅读笔记

Abstract:


基于DCF的方法在跟踪领域有着领先优势,但是对跟踪性能的追求,使得跟踪速度和实时能力下降。复杂的模型带来大量可训练的参数,增加了过拟合的风险。这篇论文的工作解决了计算复杂度与过拟合这个主要问题,目的是同时提高性能和速度。

引进了以下创新:

(1)因式分解卷积算子,减少了模型中的参数数量

(2)训练样本集的紧凑生成模型,降低了内存和时间复杂度,能提供更好的样本多样性

(3)一种保守的模型更新策略,提升鲁棒性,减小计算量

 

1. Introduction

(略)

 

1.1. Motivation

三个关键因素:

(1)model size :高维的特征图谱融合会使得表观模型参数急剧增加,会很容易带来过拟合,并且会增加计算放入复杂性,降低跟踪速度

(2)Training set size:先进的DCF跟踪器需要大量的训练集来进行迭代优化。然而内存容量是有限的,特别是使用高维的特征时,常用的方法是丢弃旧的样本,但会使得对最近的表观变化过拟合,从而带来模型漂移,同时也会增加计算的负担。

(3)model update:大多DCF方法采取连续的学习策略,最近的使用Siamese networks的方法不使用任何模型更新,带来了较好的跟踪效果。目前先进的DCF算法中采取的连续更新模式会对突如其来的变化过度敏感,例如:尺度变化、形变,出视野、旋转等。过度的更新策略会降低帧率,对最近的帧过拟合会使鲁棒性降低。

 

1.2. Contributions

(略,同Abstract)

 

2. Baseline Approach: C-COT

不同于其他的DCF方法,(C-COT作者)Danelljan提出了在连续空间域中学习滤波器。C-COT中有两点优势与我们的工作相关。

第一点是通过在连续空间域执行卷积,得到的多分辨率特征图的自然融合。这提供了在每一个视觉特性上可以独立的灵活选用cell的尺寸,而不再需要重新采样。第二点是,对目标预测的检测分数通过连续函数获得,可得到准确的子窗口的位置。

这里简单介绍一下C-COT的公式,C-COT基于M个训练样本集学习一个卷积滤波器,不像传统的DCF,每一个特征层有独立的解。特征图谱通过引入一个插值模型,转换到连续空间域,由运算符执行:

【ECO】Efficient Convolution Operators for Tracking阅读笔记_第1张图片

此处的插值内核,结果是个插值特则层,看作连续的T周期函数,我们用来表示整个插值特征图谱,此处

C-COT中,训练得到一个连续T-periodic多通道卷积滤波器,用以预测目标检测分数

【ECO】Efficient Convolution Operators for Tracking阅读笔记_第2张图片

分数定义在特征图谱对应的图像区域。上式中,单通道T周期函数的卷积定义为,多通道的卷积通过整合所有通道的结果得到,如(2)式所定义的。

最小化以下公式来学习得到滤波器:

【ECO】Efficient Convolution Operators for Tracking阅读笔记_第3张图片

样本xi的标记检测分数yi由周期性重复的高斯函数取得,数据项由加权分类误差构成,此处是样本xi的权重。正则化集合了空间处罚,减轻了周期性假设的缺点,能支持空间扩展。

转到傅里叶空间,Parseval公式表示等效损失:

【ECO】Efficient Convolution Operators for Tracking阅读笔记_第4张图片

此处,函数上有个小帽子表示傅里叶系数(下同),二次范数定义为

检测分数(2)式的傅里叶系数由公式给出,是样本d的傅里叶变换。实际中,滤波器假定有许多有限值得傅里叶系数,此处,(4)式也就变成了一个二次问题,通过求解下面正则方程优化:

矩阵A有稀疏结构,使用共轭梯度法求解上式,因为这个问题显示出能利用稀疏结构特性,对角块儿包含形式的元素。此外,是权重的对角矩阵,W是核的卷积矩阵。C-COT采用共轭梯度(CG)法迭代求解(5)式,因为它显示出能够有效利用这个问题的稀疏结构。

 

3. Our approach

针对存在的问题提出了‘联合治疗’的方案,旨在同时解决性能和速度

 

3.1 Factorized Convolution Operator

我们首先提出了因式分解卷积方法,用来减少模型中参数的数量。C-COT是对每一个特征通道都学习滤波器,很容易发现中的许多滤波器的能量微乎其微,对目标定位没有贡献,还好浪费计算时间。因此我们使用较少数量的滤波

特征层的滤波器通过对c个滤波器的线性组合得到,线性组合的系数:

我们可以的到因式分解的卷积算子:

【ECO】Efficient Convolution Operators for Tracking阅读笔记_第5张图片

(最后一个等号利用了卷积的线性性质)

通过最小化(6)式的分类误差(3)式,以不同的方式,同时学习到滤波器f和矩阵P。

为了简单起见,我们通过单个训练样本x来学习因式分解算子(6),为了简化符号,使用来表示插值特征图谱的傅里叶系数。在傅里叶空间中,(4)式的相应损失可以推导为:

此处加入了P的范数作为正则化,由权重系数控制。

(7)式是一个非线性最小二乘问题,由于的双线性,(7)类似于一个矩阵分解问题。对此类问题流行的优化策略例如交替最小二乘法不太可行,由于参数的size,以及我们问题中的在线(学习)特性。我们使用高斯牛顿法以及使用共轭梯度法来优化二次子问题。高斯牛顿法通过使用一阶泰勒级数展开线性化(7)式的残差得到。这相当于在当前估计的基础上近似双线性

【ECO】Efficient Convolution Operators for Tracking阅读笔记_第6张图片

其中:,最后一个等号处使用内积符号,是为了得到矩阵步长的向量化。

高斯牛顿法在第i次迭代的子问题,通过将8式的一阶近似代入(7)式中:

【ECO】Efficient Convolution Operators for Tracking阅读笔记_第7张图片

由于滤波器f被限制成许多受限定的非零傅里叶系数,(9)式是线性最小二乘问题。对应的标准方程与(5)式部分结构相似,增加的部分对应于矩阵增量的变化。使用共轭梯度法来优化每个高斯牛顿法的子问题,得到新的滤波器和新的矩阵增量,然后更新:

卷积分解运算的主要目的是减少跟踪器的计算和储存复杂度,由于滤波器的适应性,矩阵P只需在第一帧学习。着有两个重要的应用,首先,只需存储映射的特征图,能有效节约内存。第二点,滤波器可以使用映射的特征图在随后的帧进行更新,作为第二节提到的方法的输入。这在特征维数D到滤波器维数C减小了线性复杂度。

 

3.2. Generative Sample Space Model

 

(随手点保存真的是个好习惯,敲了两次都因为没有保存没了,不敲了,还是用印象笔记吧,恨!

 

 

 

          

你可能感兴趣的:(图像目标检测与跟踪基础学习)