DSiam阅读笔记:Learning Dynamic Siamese Network for Visual Object Tracking

这篇是ICCV2017的文章 论文地址    GitHub

这篇文章的baseline是ECCV2016的SiamFC: 全卷积孪生网络for跟踪 Fully-convolutional siamese networks for object tracking

 

摘要

如何有效的学习跟踪目标的外观变化、排除嘈杂的背景干扰、同时保持实时性,是视觉目标跟踪的重要问题。最近孪生网络在基于匹配的跟踪器上已经表现出了很好的潜力,获得了精度和实时跟踪的平衡。然而,它们的精度依然与经典的基于更新的跟踪器有很大的差距。In this parer,①作者提出了动态孪生网络(dynamic Siamese network),通过一个快速的学习模型,这个模型能够有效的利用前几帧在线学习目标的外观变化和背景抑制(target appearance variation and background suppression)。②作者提出元素多层融合用来适应性的整合多层深度特征。③与别的优秀的跟踪器不一样,作者提出的方法可以利用任何一般或特别的训练好的特征,比如SiamFC和VGG,更重要是作者的提出的网络能够直接输入整个带标签的视频序列,用来联合训练,因此可以充分利用运动目标的丰富的时空信息。④作者提出的方法在OTB2013和VOT2015上都取得了优秀的性能,同时表现出比别的跟踪器好的性能。

引言

作者总结了目前深度学习解决目标跟踪有两种思路: 

(1)基于经典分类&更新的方法,这类方法充分利用深度特征,可以在线更新分类器或目标外观模型,跟踪性能优越,但是大多数这类算法的速度都很慢,大概在1~2fps; 比如MDNet, DeepSRDCF

(2)基于匹配的跟踪方法,用目标模板来匹配候选样本,这类方法不需要在线更新,所以特点是速度快,但是精度往往不是很高。比如SiameseFC和GOTURN

这篇文章的贡献:

①提出动态孪生网络,可以在线学习目标外观变化和背景抑制,提高跟踪性能。

②元素多层融合,即将多层特度特征元素融合

③相比于别的跟踪器是用一对图像训练,本文的方法用连续的视频序列训练

 

DSiam阅读笔记:Learning Dynamic Siamese Network for Visual Object Tracking_第1张图片

作者举了两个例子,上面是基于匹配的方法,红线代表本文方法,绿线和蓝线代表SiamFC和GOTURN,横坐标是帧数,纵坐标是跟踪结果与ground truth的IoU,即交并比;下面的图是基于分类&更新的方法,红线代表本文方法,绿线和蓝线表示MDNet和DeepSRDCF。可以看出随着帧数的增加,其他的跟踪器的目标慢慢就跟丢了。

DSiam阅读笔记:Learning Dynamic Siamese Network for Visual Object Tracking_第2张图片

这是作者的算法与这些算法总体的成功率、速度比较,值得一提的是,作者在ILSVRC数据集上重新训练了MDNet,取名R-MDNet,可以看出在别的数据集上重新训练后的MDNet上性能大幅下降(这样做有点怪怪,不过后面作者对此的解释也有其原因)。

相关工作

1,基于孪生网络跟踪的基本思想,这是核心公式:corr表示一种度量方式。略。

2,基于深度相关跟踪,也就是利用其循环卷积的特性,在频域进行快速计算。这部分略。

 

动态孪生网络

1,本文核心公式:

相比于(1)式,增加了,下图是整个跟踪过程:

DSiam阅读笔记:Learning Dynamic Siamese Network for Visual Object Tracking_第3张图片

图中虚线表示的是SiamFC的流程,可以看出很简单。O1表示第一帧得到的目标模板,Zt表示待搜索区域。fl是得到深度特征的过程,上下两个过程的网络是完全一样的。作者增加了代表前一帧跟踪结果与第一帧模板的变化,代表对当前帧背景的一种抑制。

那么它们俩怎么求呢?

通过Regularized linear regression (RLR)学习得来,也就是:λ是正则化系数。

它可以在频域里快速计算得到:

所以:

在这里,,O表示目标,大写均表示是矩阵,右上标表示是第l通道,右下标表示第几帧,也就是由上一帧的跟踪结果和第一帧目标求得。

在这里,是和上一帧搜索区域一样大小的图,是对图片中心点乘了一个高斯平滑,为的就是突出中心,抑制边缘。放张图

DSiam阅读笔记:Learning Dynamic Siamese Network for Visual Object Tracking_第4张图片

2,接下来是元素多层特征融合

公式很简单:

在这里是权重,继续放图:

DSiam阅读笔记:Learning Dynamic Siamese Network for Visual Object Tracking_第5张图片

浅层特征中心权重高(l2),深层特征(l1)的外围权重高,中心低,如果目标在搜索区域中心,浅层特征可以更好的定位目标,如果目标在搜索区域外围,深层特征也能有效确定目标位置。

3,联合训练

就是说,有N帧的视频序列(论文中固定为10帧,一种2000段视频序列),Jt是ground truth,|St|是响应图的个数。所有的参数都可以通过反向传播学习下来。

实验

网络初始化选择的是SiamFC的5层网络,训练数据集是ILSVC2015(80多G),输出特征只融合conv4和conv5两层。

实验结果在OTB2013和VOT2015上都非常好(除了MDNet),各项性能都很不多,另外作者也将结构的各部分进行了对比,证明了加上这些很不错,图就不贴了,有兴趣可以看论文。

 

 

 

 

你可能感兴趣的:(Object,Tracking,Paper,reading)