DCFnet - Discrimitive Correlation Filters Network for Visual Tracking 笔记

摘要

基于判别相关滤波器（DCF）的方法现在成为在线对象跟踪的主要方法。
在本文工作中，提出一个轻量级的端到端训练的网络，DCFnet，同时学习深度特征和执行滤波过程。体来说，作者将DCF视为在Siamese网络中添加的特殊相关滤波器层，并通过将网络输出定义为对象位置的概率热图来仔细地通过它来推导反向传播。
因为推导仍然在傅里叶域内进行，所以保留了DCF高效的特性。
在测试时，文中的tracker能达到60FPS。

1. 引入

在不知道目标类别的情况下，跟踪任意对象需要在线学习判别信息以实现高性能。尽管在跟踪检测范例[TLD^[1]，Stuck^[2]]中成功解决了问题，但由于物体变形，外观变化和严重遮挡等因素，它仍然是一个具有挑战性的问题。

利用多层手工特征，使用DCF的跟踪有了很大突破。在这个方向的trackers特征提取器和相关滤波器都是分离的。这证明了号的特征能够对下过起到作用。这之后的方法关注多层深度特征的的融合。尽管提高了跟踪性能，这些卷积网络通常是为了图像分类任务或者是目标检测预训练的网络，不仅是手工选择的，而且负担重。

因为之前提到的方法中采用的特征和相关滤波过程是独立的，跟踪效果可能不是最优的。

在本文中，作者重新审视了基于DCF的跟踪器的特征提取。与采用现有特点的常见DCF方法不同，我们剖析了DCF的封闭形式解，发现很容易得到一个最适应DCF跟踪的学习特征的网络，并且是用端到端的方式，不需要手工干扰。这是通过将DCF作为一个特殊相关滤波层加入到孪生网络中，并且通过DCF推导向后传播实现。

整体DCFNet架构

提出的网络中包括一些卷积层，用来在离线训练过程中编码先验跟踪信息，并构造一个专属的特征提取器。在这之后是一个相关滤波层，通过将网络输出定义为目标位置的概率热图，它能完成在线学习和跟踪。
为了降低计算成本，需要将卷积层设置为轻量级。

2. 相关工作

用于DCF跟踪的特征表示。不同于使用手工干扰的方法，本文的目标自动学习最适合DCF的特征。
基于DCF的trackers。本文的目标在于减小特征提取器和相关滤波器之间的差距。
基于CNN的tackers。一些工作实现的是离线训练和在线微调的模式，这样做不到实时。本文网络中的相关滤波也需要在线更新。但是因为它的推导实在傅里叶频域进行，仍然保留了DCF高效的特性。SiamFC^[3]也使用Siamese网络构建基于模板匹配的跟踪器而无需在线更新，并实现高跟踪速度。

与之不同的是，我们的网络可以渐进地更新，因此可以把它看作是一个RNN网络(see Sec. 3.3)。

3. 提出的网络

在本节中，作者（1）首先介绍了鉴别相关滤波器的基本原理。（2）其次，详细介绍了反向传播的推导过程。（3）最后，我们介绍了在线跟踪的过程，并基于RNN做出了解释。

3.1 判别式相关滤波器

使用传统判别式滤波器，在目标块特征上训练了有区别的回归，理想输出，是在中心位置突起的高斯函数。
理想滤波器可以通过最小化输出岭回归得到：

（1）

其中是滤波器的通道。指的是circular correlation。解为（2）^[4]:

（2）

这里表示离散傅里叶转换，表示复数值的共轭值，表示点积。

对于检测过程，裁剪一个搜索区域，然后在新的一帧中获得特征，通过搜索相关响应值的最大值来估计位移。参考[4]^[4]获得更多细节。

（3）

傅里叶逆转换到空间域，得到坐标位置。

3.2 DCF推导：反向传播

传统的DCF只能启发式的调超参，文中犯法可以同步的调整滤波器参数和特征提取器的参数。如图1所示，网络通过级联特征提取器和DCF模块来获得目标位置响应。给定搜索区域特征，目标响应需要在真实位置有一个高值。目标函数可以定义为：

（4）

正则化：权重衰减（weight decay）。
在卷积层最后添加LRN层，来限制特征图大小，并增加训练过程中的稳定性。

根据【5】^[5]，傅里叶转换和你傅里叶转换的梯度可以定义为：

（5）

因为向前传播过程中只包含点积和除法，所以可以对每个元素进行求导。

（6）

检测分支的后向传播：

（7）（8）

学习分支的后向传播：

（9）（10）（11）

一旦误差向后传播到实值特征图，其余的反向传播可以作为传统的CNN优化进行。
离线训练结束后，将为在线DCF跟踪制定一个专属的特征提取器。

3.3 在线模型更新

在线跟踪期间，随着时间的推移更新滤波器
等式（1）的优化问题可以以增量模式定义为下式^[6]：

（12）

参数是样本影响因子。
与此同时，等式（2）的封闭式解可以扩展到时间序列。

（13）

这种增量更新的优点是，我们不需要保留大量的样本，只需要占用很小的空间。另外，DCFNet在线学习过程可以看做RNN网络，如图2所示。

图2. DCFNet在线跟踪过程。

图2中，的分子和分母循环的用等式（13）的方式向前传播和更新。

4. 实验

DCFNet可以做到速度和准确度的平衡。

4.1 实验细节

这个轻量级网路的卷积层包括VGG的conv1，并去除池化层，强制输出俄日32个通道。训练视频来自 NUS-PRO ^[7], TempleColor128 ^[8]and UAV123 ^[9]，去处于测试集重叠的视频。裁剪后的输入大小设置为125x125。使用随机梯度下降开始来训练网络，动量设置为从零到0.9动量。

对于相关滤波器中的参数，固定在线学习率为0.008.

DCFNet使用MatConvNEt在Matlab 中实现。所有的实验在工作站上进行，配置为Intel Xeon 2630 ，2.4GHz；一个NVIDIA GeForce GTX 1080 GPU。

Zdenek Kalal, Krystian Mikolajczyk, and Jiri Matas,
“Trackinglearning-detection,” IEEE transactions on pattern analysis and machine intelligence, vol. 34, no. 7, pp. 1409–1422, 2012 ↩
Sam Hare, Stuart Golodetz, Amir Saffari, Vibhav Vineet, Ming-Ming Cheng, Stephen L Hicks, and Philip HS Torr, “Struck: Structured output tracking with kernels,” IEEE transactions on pattern analysis and machine intelligence, vol. 38, no. 10, pp. 2096–2109, 2016 ↩
Luca Bertinetto, Jack Valmadre, Joao F Henriques, Andrea Vedaldi, ˜ and Philip HS Torr,
“Fully-convolutional siamese networks for object tracking,” in proceedings of the European Conference on Computer Vision. Springer, 2016 ↩
Martin Danelljan, Gustav Hager, Fahad Khan, and Michael Felsberg, ¨
“Accurate scale estimation for robust visual tracking,” in British Machine Vision Conference, Nottingham, September 1-5, 2014, 2014. ↩ ↩
Christoph Boeddeker, Patrick Hanebrink, Lukas Drude, Jahn Heymann, and Reinhold Haeb-Umbach,
“On the computation of complexvalued gradients with application to statistically optimum beamforming,” arXiv preprint arXiv:1701.00392, 2017. ↩
Martin Danelljan, Fahad Shahbaz Khan, Michael Felsberg, and Joost Van de Weijer,
“Adaptive color attributes for real-time visual tracking,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014. ↩
Annan Li, Min Lin, Yi Wu, Ming-Hsuan Yang, and Shuicheng Yan,
“Nus-pro: A new visual tracking challenge,” IEEE transactions on pattern analysis and machine intelligence, vol. 38, no. 2, pp. 335–349, 2016 ↩
Pengpeng Liang, Erik Blasch, and Haibin Ling,
“Encoding color information for visual tracking: algorithms and benchmark,” IEEE Transactions on Image Processing, vol. 24, no. 12, pp. 5630–5644, 2015. ↩
Matthias Mueller, Neil Smith, and Bernard Ghanem,
“A benchmark and simulator for uav tracking,” in proceedings of the European Conference on Computer Vision, 2016. ↩