ICCV2017 Dsiam算法研究

声明:文中出现的名词以及图片、公式均来自于Dsiam

介绍,目前跟踪方法有两种策略,一是分类+在线更新,这种方法很慢。二是基于匹配的跟踪,不需要在现更新,这种方法速度快,可以达到实时,学习一个匹配函数去容忍目标的在线变化,并且保留实时的能力。缺点是不能抓住目标的临时变化,因此精度不高。

作者提出dynamic siamese network,网络包含了一个“通用的形变学习模型”可以从之前的帧中在线学习目标表观上的变化背景抑制。由于这个形变学习的过程可以通过FFT给出封闭解,因此不仅有在线自适应的能力,也可以将它作为网络的一层,可以和整个网络一起进行联合的微调。

作者还提出“元素级的多层融合”可以自适应的整合多水平的特征。

作者还提出了一个“联合训练(joint training)”的策略,因为之前的基于匹配的跟踪器都是用图片对训练的。联合训练就是可以用视频序列进行训练,这样可以学习到视频的空间相关性信息。

Siamese network based tracking

公式:计算的结果是一个相似性,corr(·)可以用其他度量函数替代,比如Euclidean distance。Siamese 方法很快,但是没有在线更新的能力,因此精度不高。

作者提出在两个分支分别学习一个在线可更新转换,然后把它扩展到被离线训练的多层。

ICCV2017 Dsiam算法研究_第1张图片

Deep correlation based tracking

相关滤波可以通过循环卷积实现快速跟踪,可以在频域中被快速计算。作者也使用循环卷积进行快速变形和参数学习,但是不同于KCF、DSST之类的相关滤波方法。首先,作者用循环卷积去回归一个深度特征到另一个深度特征,目的是抓住目标形变或者抑制背景干扰。相反,大多数相关滤波跟踪器使用循环卷积将特征回归到一个固定的高斯图上,直接获得目标位置。其次,HCF已经提供了从从多层深度特征得到的响应可以被融和并获得了更好地效果。然而它使用的是固定的参数去融合这些响应。作者想做的是离线学习这些融合权重。第三,作者用联合训练的方法训练网络(CNN)的权重,和模型(就是前面作者提出的响应融合)的参数,同时把这些权重和参数训练好。

Dynamic Siamese Network

Dsiam公式:于Siam的区别就在于多了两个变换矩阵,前一个变换矩阵作用在目标模板的卷积特征上,目的是使得第t时刻的模板的卷积特征近似等于第t-1时刻的模板卷积特征,这个变换矩阵是从第t-1帧学习到的,并认为它是目标的光滑形变。后一个变换矩阵作用在地t时刻候选区域的卷积特征上,目的是强调目标区域消除不相关的背景特征。

Fast transformation learning

使用正则化的线性回归方法(RLR)计算那两个变换矩阵。变换矩阵V比较简单,说一下W,W的目的是强调目标区域消除不相关的背景特征,得到的变换结果应当与目标加高斯模板后的效果一样,(为什么不直接加高斯模板呢,非要去学习一个变换,来达到这个效果)

Elementwise multi-layer fusion

,其中l是卷积层,总共为L层,并要求所有层的融合权重rl之和为1,好处:1、元素级融合使空间多样化融合更加有效 2、rl可以被离线训练,而不需要手动设置。

网络结构

ICCV2017 Dsiam算法研究_第2张图片

联合训练


你可能感兴趣的:(tech)