CREST: Convolutional Residual Learning for Visual Tracking

本文概览

  • 分析DCF系列跟踪算法的不足,并加以改进;

  • 本文核心一:将DCF作为CNN中的一个卷积层;

  • 本文核心二:将特征提取,响应图产生以及模型更新整合到CNN中进行端对端训练;

  • 本文核心三:将残差学习的思想用于深度目标跟踪网络的更新,可以更有效地应对目标外观的大变化和小变化;

  • 本文实验效果:在OTB100上获得了0.837的精度和0.623的覆盖率;

DCF算法分析

  • DCF算法优点一:可以在频域上进行快速模型学习和目标检测;

  • DCF算法优点二:在搜索域内响应密集,有益于高精度的目标跟踪;

  • DCF算法优点三:通过结合深度特征可以获得很好的跟踪效果;

  • DCF算法不足一:特征提取和模型学习分离的,难以从端对端的学习方式中受益;

  • DCF算法不足二:模型更新采用滑动加权平均的方式,不是最优的更新方式,因为一旦有噪声参与更新,很有可能导致模型的漂移,因此难以同时兼得模型的稳定性和适应性;

针对DCF算法进行改进

  • 改进一:将DCF算法中学习的模板看做深度卷积神经网络中的卷积滤波器;

  • 改进二:将从VGG16中进行特征提取以及响应图的产生和模型的更新统一整合成一个端对端的方式;

  • 改进三:从时域进行卷积计算,从而避免了DCF在频域求解中的边界效应问题;

  • 改进四:为了更加合适的更新模型,通过检测卷积层的输出(即响应图)和ground truth的差别,使用残差学习的方式捕获外观的改变,从而引导模型更新,从而不但可以有效地减轻噪声更新对模型的影响还,还可以使模型在目标外观发生大的变化时进行鲁邦的更新;

本文算法框架

CREST: Convolutional Residual Learning for Visual Tracking_第1张图片

  • 除了VGG作为前端进行特征提取外,另外设置三个并行层,分别为:基本的卷积层,时间残差层,空间残差层;

  • 基本卷积层:代替DCF的滤波器,损失函数同标准线性核DCF损失函数;

  • 残差学习层:原则上,基本卷基层的输出应该和ground truth label相同,但是实际上达不到,虽然可以通过增加基本卷积层数达到目的,但是这样会导致模型泛化能力下降,因此加入残差学习层,通过捕获基本卷积层和ground truth之间的差别进行学习更新;

CREST: Convolutional Residual Learning for Visual Tracking_第2张图片

  • 符号: H(X) 样本 X 的理想输出, FB(X) 卷积层输出, FR(X)=H(X)FB(X) 残差层输出目标;

  • 网络输出: F(X)=FB(X)+FR(X) ,卷积层和残差层共同产生最终的输出结果;

  • 卷积层配置:1层卷积层,大滤波器;残差层配置:3层残差层,小滤波器;

  • 第二残差层:为弥补加入第一残差层后可能仍然与ground truth之间存在偏差,因此引入第二残差层进行进一步ground truth label 拟合,但是与第一残差层不同,第二残差层仅使用第一帧图片的特征,第一残差层和卷积层使用当前帧的特征;

  • 最终网络输出: FR(Xt)=FR(Xt)+FSR(Xt)+FTR(X1)

  • 整个网络直接在当前目标跟踪视频上fine-tune,不需要额外跟踪数据预训练;

  • 运行机制:当目标外观发生小的变化的时候,base层输出和ground truth接近,这样残差层的结果对最终结果影响较小,当目标外观发生大的变化的时候,base层输出难以区分目标和背景,此时可以用残差层的输出进行弥补,残差层有助于减小最终响应图上的噪声响应,使得最终响应对目标外观变化大鲁棒性强;

目标跟踪流程

  • 模型初始化:使用VGG网络进行特征提取,随机初始化卷积层和残差学习层,给定第一帧图片后finu-tune卷积层和残差层使得输出接近ground truth;

  • 在线检测:提取搜索域特征,网络前传,得到相应图,最大值定位;

CREST: Convolutional Residual Learning for Visual Tracking_第3张图片

  • 尺度估计:多尺度采样,选最大值所对应的尺度后,进行平滑尺度更新;

  • 模型更新:在在线跟踪过程中产生训练数据用于跟踪模型更新;

实验

  • 实验配置1:5倍搜索域;

  • 实验配置2:使用VGG16中conv4-3经PCA降维到64通道后作为特征;

  • 实验配置3:标签为高斯分布;

  • 实验配置4:尺度平滑参数为0.6;

  • 实验配置5:使用MatConvNet框架实现;

  • 实验配置6:模型初始化时,训练学习率为5e-8,学习停止准则为loss小于0.02,几百次迭代后收敛;

  • 实验配置7:模型更新时,每两帧更新一次,更新时迭代2次,学习率为2e-9;

  • 实验数据集:OTB-2013,OTB-2015,VOT-2016;

CREST: Convolutional Residual Learning for Visual Tracking_第4张图片

你可能感兴趣的:(目标跟踪算法)