DCFNET:用于视觉跟踪的判别相关滤波器网络

GitHub源码下载链接:https://github.com/foolwood/DCFNet

论文下载地址:https://arxiv.org/abs/1704.04057

DCFNET:用于视觉跟踪的判别相关滤波器网络

基于判别相关滤波器(DCF)的方法已经成为一种主要的在线目标跟踪方法。然而,这些方法中使用的特征都是基于手工制作的特征(如HoGs),或是独立于其他任务(如图像分类)训练的卷积特征。在这项工作中,我们提出了一种端到端轻量级网络体系结构,即DCFNet,以学习卷积特征并同时执行相关跟踪过程。具体来说,我们将DCF视为一个特殊的相关性过滤层添加到Siamese网络中,并通过将网络输出定义为目标位置的概率热图来仔细推导通过它的反向传播。由于推导仍在傅里叶频域中进行,因此保留了DCF的效率特性。与使用HoGs的KCF相比,这使得我们的跟踪器在测试时间内可以达到60fps以上的速度运行,同时获得显著的精度提升。对OTB-2013、OTB-2015和VOT2015基准的广泛评估表明,所提出的DCFNET跟踪器与几种最先进的跟踪器相比具有竞争力,同时更紧凑,速度更快。

关键词:相关滤波器,卷积神经网络,视觉跟踪。

1、导言

在诸如人机交互和辅助驱动系统等广泛应用中,目标跟踪是计算机视觉中的一个基本问题。这个问题的一个常见设置是使用边界框初始化第一帧中的关注对象,目的是估计后续帧中的对象轨迹[1、2、3]。在没有先验地了解目标类别的情况下,对任意目标的跟踪都需要在线学习判别信息以实现较高性能。尽管已经成功通过跟踪检测范式解决[4,5],但由于物体变形,外观变化和严重遮挡等因素,它仍然是一个具有挑战性的问题。保持实时速度对于视觉跟踪也至关重要,视觉跟踪通常是许多经过在线分类训练的先进跟踪器的瓶颈。最近,基于判别相关滤波器(DCF)的跟踪器[6,7,8]通过在傅立叶频域中有效解决岭回归问题,可以在精度和速度之间取得理想的平衡。

自从利用手工制作的多通道功能(例如HoGs[7])以来,DCF跟踪一直是社区最大的突破之一。朝此方向行驶的跟踪器始终分别配备特征提取器和相关滤波器。事实证明,良好的特征可以极大地提高跟踪性能[9]。后来,越来越多的工作[10、11、12]将重点放在用于DCF跟踪的多层深度特征的集成上。尽管改进了跟踪性能,但这些卷积层通常从预先训练的网络中选择图像分类任务[13、14、15]或目标检测任务[16、17],这些任务不仅是手工挑选的,而且也是重量级的。由于上述方法中采用的特征都是通过相关跟踪过程独立提取的,因此实现的跟踪性能可能不是最佳的。

DCFNET:用于视觉跟踪的判别相关滤波器网络_第1张图片

在本文中,我们将回顾基于DCF的跟踪器的特征提取。与采用已有功能的常见DCF方法不同,我们剖析了DCF的闭式解决方案,发现开发出一个网络来自动学习最适合DCF跟踪的端到端功能是很自然的,而且无需人工干预。通过将DCF视为Siamese网络中添加的特殊相关滤波器层,并仔细推导通过它的反向传播,可以令人惊奇地实现这一点。所提出的网络的体系结构(见图1)包含一些卷积层,这些卷积层对离线训练过程中的先验跟踪知识进行编码,并构成量身定制的特征提取器。这些卷积层的后面是相关滤波层,它可以通过将网络输出定义为目标位置的概率热图来有效地完成在线学习和跟踪。为了降低计算成本,我们仅将卷积层设置为轻量级。由于相关滤波器层的推导仍在傅立叶频域中进行,因此保留了DCF的效率特性。这使我们的跟踪器可以在测试时间内以超过60FPS的高速运行,同时仍可以通过几种最先进的重量级和慢速跟踪器来获得具有竞争力的跟踪精度。

2、相关工作

DCF跟踪的特征表示。长期以来一直鼓励DCF跟踪技术的发展。MOSSE[6]首先将DCF引入到视觉跟踪中,仅使用单通道灰度特性就可以以超过600FPS的高速运行。CSK[18]和KCF[7]是使用循环矩阵来解释相关滤波器并推广到多通道特征情况的后续算法。CN[19]结合了颜色名称功能,以提高CSK的性能。后来,越来越多的工作[10,11]专注于集成预训练的多层深层特征以进行DCF跟踪。HCF[10]学习每个分层卷积层上的相关滤波器以进行跟踪。DeepSRDCF[11]仅建立在单分辨率深度特征映射的第一层上。与上述使用手部干扰功能的方法不同,我们旨在自动学习最适合DCF跟踪的功能。此外,我们的特征学习网络是轻量级的。

其他基于DCF的跟踪器。一些工作致力于解决DCF跟踪的固有局限性。MUSTer[20]和LCT[21]添加了重新检测机制以实现长期DCF跟踪。Staple[22]结合了基于颜色统计的模型,以实现DCF跟踪的互补特征。DSST[8]增加了一个规模回归,以实现准确的规模估计。SRDCF[23]添加了空间正则项以惩罚靠近模板边界的滤波器系数。与它们不同的是,我们旨在弥合特征提取器和相关滤波器之间的差距。

其他基于CNN的跟踪器。深度学习的进展显着地扩展到了跟踪领域[24,25,26,10,27]。一些作品[24,26,25]遵循离线训练和在线微调范式,这在某种程度上是实时跟踪的时间消耗。我们网络中的相关滤波器层也需要在线更新。但是,由于它的推导是在傅立叶频域中进行的,因此保留了DCF的效率特性。一些作品[27,28]还使用Siamese网络来构建基于模板匹配的跟踪器,而无需在线更新,实现了很高的跟踪速度。与它们不同的是,我们的网络可以进行增量更新,因此本着这种精神可以被视为RNN网络(请参见第3.3节)。

 

3、拟议的网络

在本节中,我们首先介绍判别相关滤波器的初步知识。其次,我们详细介绍了反向传播的推导过程。最后,我们将介绍在线跟踪过程并本着RNN的思想对其进行解释。

3、1判别相关滤波器

在标准判别相关滤波器中,我们对目标补丁ϕ(x)∈RM×N×D和理想响应y∈RM×N的特征进行判别回归,该理想响应y∈RM×N是在中心处达到峰值的高斯函数。所需的滤波器w可以通过最小化输出脊损耗来获得:

其中wl表示滤波器w的信道l,*表示循环相关,常数λ≥0是正则化系数。可以通过[8]获得解决方案:

在此,表示离散傅里叶变换F(y),y∗表示复数y的复共轭,ʘ表示Hadamard积。

对于检测过程,我们裁剪搜索补丁并获得新帧中的特征ϕ(z),可以通过搜索相关响应图g的最大值来估计翻译,有关更多详细信息,请参见[8]:

3、2DCFNet推导:反向传播

传统的基于DCF的跟踪器只能对超参数进行启发式调整,而我们对超参数和特征提取参数可以同时进行调整。如图1所示,该网络是通过将特征提取器与DCF模块级联以获得目标位置的响应来实现的。考虑到搜索补丁ϕ(z)的特征,所期望的响应g应在真实位置处获得高响应。目标函数可以表述为:

DCFNET:用于视觉跟踪的判别相关滤波器网络_第2张图片

应该加入一个显式的正则化,否则目标将获得一个非收敛条件。我们在常规参数优化中使用权重衰减法来隐含此正则化。此外,为了限制特征映射值的大小并提高训练过程的稳定性,我们在卷积层的末尾添加了一个LRN层。

现在,让我们得出反向公式。为简单起见,我们从开始。链规则有点复杂,因为中间变量是复数值变量。根据[29],离散傅里叶变换和离散傅里叶逆变换的梯度表示为:

由于前向遍历中的操作仅包含Hadamard乘积和除法,因此我们可以计算派生每个元素:

对于检测分支的反向传播,

DCFNET:用于视觉跟踪的判别相关滤波器网络_第3张图片

对于学习分支的反向传播,将和视为自变量。

DCFNET:用于视觉跟踪的判别相关滤波器网络_第4张图片

一旦误差被反向传播到真实值特征映射,其余的反向传播可以作为传统的CNN优化进行处理。由于相关滤波层中反向传播的所有运算仍是傅立叶频域中的Hadamard运算,因此可以保留DCF的效率属性,并将离线训练应用于大规模数据集。离线训练完成后,我们将获得一个量身定制的特征提取器,用于在线DCF跟踪。

在线跟踪期间,我们只是随时间更新滤波器w。式(1)中的优化问题可以用增量方式表示为[19]。

DCFNET:用于视觉跟踪的判别相关滤波器网络_第5张图片

参数是样本的影响。

同时,等式(2)中的闭式解决方案可以扩展到时间序列。

此增量更新的优势在于,我们不必维护一个大的样本集,而只需要很小的内存。此外,在线跟踪过程中的DCFNet可以被视为RNN网络,如图2所示。

DCFNET:用于视觉跟踪的判别相关滤波器网络_第6张图片

图2:DCFNet的在线跟踪过程。的分子和分母被循环向前传播并更新为等式(13)。

4、实验内容

在本节中,我们对OTB[1,2]和VOT2015[3]上的网络架构进行了深入的分析,结果表明端到端学习可以显著提高性能以及我们的DCFNet可以在准确性和速度之间取得很好的平衡。

4、1实施细节

我们轻量级网络的卷积层(仅75KB)由VGG[14]的conv1组成,其中删除了所有池化层,并将输出强制为32个通道。我们的培训视频来自NUS-PRO[30],TempleColor128[31]和UAV123[32],但不包括与测试集重叠的视频,因此总共有166643帧。对于每个视频,我们在最近的10帧内选择每对帧,并将裁剪后的1.5倍填充大小的目标块对馈送到网络中,从而形成总共1,651,360对。裁剪后的输入尺寸调整为125×125。我们应用动量为0.9的随机梯度下降(SGD)从头开始训练网络,并将权重衰减γ设置为0.0005,学习率设置为1e-5。该模型以最小批量尺寸为16训练了20个时期。

对于相关滤波器层中的超参数,我们将在线学习率βt固定为0.008。对于在线跟踪和离线训练,正则化系数λ设置为1e-4,高斯空间带宽设置为0.1。类似于[33],我们使用带有比例因子的面锥金字塔。所提出的DCFNet是在MATLAB中使用MatConvNet[34]实现的。所有实验均在配备2.4GHz的IntelXeon2630和单个NVIDIAGeForceGTX1080GPU的工作站上进行。该代码可从以下网址获得:https://github.com/foolwood/DCFNet。

 

4、2实验分析

在本节中,我们首先根据网络体系结构和影响DCFNet的比例等级数量执行消融分析。然后,我们将DCFNet与其他基于相关滤波器的跟踪器和几种基于CNN的最新跟踪器进行比较。

数据集。OTB[1、2]是视觉跟踪的标准基准,其中包含100个带有11个不同属性的完全注释目标。我们遵循OTB协议,并根据成功图和精确图报告结果进行评估。成功图显示重叠分数超过阈值的帧的百分比;精度图显示中心位置误差在阈值内的帧的百分比。VOT挑战赛[3]是跟踪领域中最具影响力和规模最大的年度赛事之一。在VOT2015[3]中,引入了一种称为“预期平均重叠”(EAO)的新措施,可以定量分析短期跟踪的性能。

消融研究。我们在OTB2013上进行了消融研究。从网络架构的角度证明,随着卷积层的深入,训练参数的数量和接收场逐渐增加。从表2中可以看出,与更深层次的conv2相比,仅使用conv1的DCFNet获得了更好的性能,这可能不符合我们的直觉。可能是因为我们仅有274个对象的训练集不足以从头开始训练更深的conv2。为了更好地了解此观察结果,我们使用了膨胀卷积的conv1对DCFNET进行修正,使其近似更深的conv2接受场。这个带有少量参数的新变量还比更深的conv2更好,甚至在CLE指标下也优于原始的conv1。

就比例级别的数量而言,我们测试了另外3个设置(S=1、5、7),发现3层设计在性能和跟踪速度之间取得了很好的平衡。

你可能感兴趣的:(目标跟踪)