Fully-Convolutional Siamese Networks for Object Tracking--论文阅读

代码地址:https://github.com/bertinetto/siamese-fc
论文时间:2016年


摘要
目标跟踪问题一般是根据物体的外观来构建表观模型.虽然取得了不错的效果,但是他们这些 online-only approach(例如KCF采用的Hog) 限制了模型可以学到的模型的丰富性。最近,已经有几个尝试开始探索深度卷积网络的强大的表征能力。但是,跟踪的目标是未知的,需要在线的执行 SGD 来适应网络的权重,严重的影响了系统的速度。本文中,我们提出一种端到端的进行全卷积孪生网络的跟踪网络,在 ILSVRC15 video object detection dataset 上进行训练。我们的 tracker 速度超过了实时,尽管看起来很简单,但是仍然在VOT2015 bechmark 上取得了顶尖的效果。


跟踪阶段


跟踪网络结构如下图所示,图的上半部分是第一帧已知跟踪目标的情况下,以目标为中心裁剪了127×127大小的patch块,然后送入特征提取网络进行特征提取,得到6×6×128的feature map,这时完成第一帧的操作。从第二帧开始,以上一帧预测目标为中心提取255×255大小的patch块,然后送入同样的特征提取网络中进行特征提取,得到22×22×128的feature map,从而完成该帧的特征提取操作。
从第二帧开始,当完成特征提取操作后会使用该帧的feature map与第一帧的feature map计算相似度,以确定该帧目标位置。其中相似度计算本质是利用第一帧的feature map对当前帧的feature map进行卷积运算,得到一个相似度矩阵,取矩阵中的最大值作为目标位置,完成跟踪任务。
Fully-Convolutional Siamese Networks for Object Tracking--论文阅读_第1张图片
上述相似度求解代码如下

z = inputs{1}; % exemplar
x = inputs{2}; % instance (search region)

assert(ndims(z) == ndims(x), 'z and x have different number of dimensions');
assert(size(z,1) <= size(x,1), 'exemplar z has to be smaller than instance x');
            
[wx,hx,cx,bx] = size(x);
x = reshape(x, [wx,hx,cx*bx,1]);
o = vl_nnconv(x, z, []);
[wo,ho,co,bo] = size(o);
assert(co==bx);
outputs{1} = reshape(o, [wo,ho,bo,co]);

上述特征提取网络作者采用AlexNet模型,然后在ILSVRC15 video object detection dataset数据集上进行离线训练,由于在跟踪过程中无在线跟踪过程,且求解卷积运算过程速度非常快,所以该跟踪器的跟踪速度还是很快的。在特征提取中每层结构与输出feature map尺寸如下图所示

Fully-Convolutional Siamese Networks for Object Tracking--论文阅读_第2张图片
模型离线训练


模型的离线训练数据集是ILSVRC15 video object detection dataset,作者采用的基础网络是AlexNet。在训练过程中,提取同一视频不同帧的同一目标,使用Logist loss

其中v是相似度矩阵中的相似度取值,y是label,取值为-1或1。
因此可以推导出总Loss公式为
在这里插入图片描述
其中D表示相似度矩阵。
所以我们优化目标如下图所示
在这里插入图片描述
值得注意的是,y的取值是如何确定的,作者采用的方法如下图所示
在这里插入图片描述
其中在目标的一定范围内取值为1,也就是相似度矩阵中满足k||u-c||

你可能感兴趣的:(目标跟踪,Siamese-fc,目标跟踪,孪生网络)