Good Features to Correlate for Visual Tracking 阅读笔记

Good Features to Correlate for Visual Tracking

本文效果

1, 速度:2fps,没有实时;
2,性能:0.922(PP-OTB2013),0.692(SP-OTB2013),0.899(PP-OTB2015),0.678(SP-OTB2015),在OTB2015上相比其他算法在PP和SP上相对OTB2013结果下降不多,OTB2013的SP上没有突破0.7大关,但是总体性能已达到当前最优水平,VOT2017性能第一名,在实时测试中名次很差;
3,本人评价:本文最大的贡献在于提出了如何学习适用于CF的特征,推导了一些关键的反传公式,但是从本文的思路和实验效果来看,并没有达到预期的效果(对C-COT特征进行改进,但是性能提升很小),而且速度也一如既往的慢,应该还有很大的改进空间;

本文贡献

1, 使用CNN,专门为基于相关滤波的目标跟踪算法学习特征表达方式;
2, 基于目标跟踪问题设计损失函数,推导出如何在CNN学习过程中进行反向传播;
3,结合DCF(模型学习方法)+CCOT(特征插值方法)+DSST(尺度估计方法)+CNN(特征提取方法);

DCF子模块(简单复习)

目的:基于样本循环假设,在频域快速求解目标跟踪模型(线性),对模型进行线性更新后,在频域进行快速目标定位。

1,目标优化表达式:这里写图片描述
2, 模型求解表达式(频域):这里写图片描述
3, 模型更新表达式:Good Features to Correlate for Visual Tracking 阅读笔记_第1张图片
4,目标定位表达式(频域->时域):Good Features to Correlate for Visual Tracking 阅读笔记_第2张图片

CCOT(简单复习)

目的:在DCF中将来自CNN的不同大小的特征插值到同一尺度,因为只有每个通道的特征尺度相同才能一起学习DCF模型

1, 插值函数:这里写图片描述
2,多通道目标定位函数:这里写图片描述
3,目标优化函数:这里写图片描述

本文方法

Good Features to Correlate for Visual Tracking 阅读笔记_第3张图片

1,目的:通过训练CNN,得到适合DCF的特征提取方式;
2, CNN特征与DCF:对于应用在DCF中的特征应该有平移不变性的能力,而CNN的计算原理正好满足这一需求;
3, 训练元组: τ={x,y,g} y ->目标在中心的图像块, x ->对目标进行随机移位的图像块(和y不在同一帧), g ->根据 x 的移动信息建立的目标响应图;
4, 训练损失函数:这里写图片描述这里写图片描述
5,反向传播推导过程:略;
6,计算复杂度分析和减小:一般来讲,CNN的最后一层输出通道数大概为64~512,在DCF计算过程中傅里叶变换占据了主要时间消耗,所以如此多的通道数用在DCF中是不现实的。本文通过在经典模型的最后一层加入D->L(L<< D)进行通道数缩减。以往的经验告诉我们,CNN特征用于DCF中,特征通道数越多往往定位越稳定准确。本文认为通过本文学习后每层特征的质量得到提高,所以可以在通道数较少的情况下得到鲁棒的目标跟踪效果。

训练数据制作

1,通过VOT2015得到200K训练数据 τ :截取目标周围两倍面积大小区域(正方形:为了保持缩放后目标的长宽比)并统一缩放到101*101大小,对于x则相对于中心位置随机移动 [0.3×(WH)0.3×(WH)] ,x和y帧数差异为以5为中心的高斯分布;
2,采取和上述相同的方法在ILSVRC上采样得到200K训练数据 τ

本文CNN结构

1,对于上述小训练集20K,本文采用如下两种CNN结构,均包含4个卷积层,并仅使用最后一层特征;
Good Features to Correlate for Visual Tracking 阅读笔记_第4张图片
2,对于上述大训练集200K,本文在VGG-M上进行fine-tune,并额外增加卷积层将VGG-M最后卷积层降维到32通道;

实验1

这里写图片描述
1,跟踪器配置:DSST算法+VOT2015训练得到的特征;
2,上表为了说明本文所学习特征的有效性,表中本文使用在VOT2015上训练得到的单通道和多通道特征,通过表中数据可知,在其他配置相同的条件下,基于本文的特征虽然通道数少但是效果却比手工特征要好;

实验2

Good Features to Correlate for Visual Tracking 阅读笔记_第5张图片
1,跟踪器配置:C-COT算法+VOT2015训练得到的特征;
1,与C-COT和deepSRDCF进行对比,C-COT中使用了611通道的特征,deepSRDCF中使用了96通道的特征,本文使用27通道特征(最后一层+第0层+第一层)用于C-COT架构中,在性能上超越了C-COT;

实验3

Good Features to Correlate for Visual Tracking 阅读笔记_第6张图片Good Features to Correlate for Visual Tracking 阅读笔记_第7张图片Good Features to Correlate for Visual Tracking 阅读笔记_第8张图片Good Features to Correlate for Visual Tracking 阅读笔记_第9张图片

1,跟踪器配置:C-COT算法+(ILSVRC微调的VGG-M特征+第0层+第1层);
2,由于使用了更好的特征,所以降低了C-COT的迭代次数,得到了三倍于C-COT的跟踪速度,但是~我感觉并没有相对C-COT在性能上提升多少~~~恕我直言~这种性能的提升在C-COT上调调参数估计也能达到;

你可能感兴趣的:(目标跟踪算法)