CVPR 2016 SINT:《Siamese Instance Search for Tracking》论文笔记

  理解出错之处望不吝指正。

  本文模型叫做SINT,和Siamese-fc一样,通过相似学习解决跟踪问题(这篇论文的发表时间比Siamese-fc早)。模型的整体结构如下:

    CVPR 2016 SINT:《Siamese Instance Search for Tracking》论文笔记_第1张图片

  •   跟踪过程

  模型分为两路,左侧为“Query stream”(接收第一帧的bbox),右侧为“Search stream”(接收第t帧的candidate boxes),在跟踪的过程中,根据下式选出得分最高的candidate box作为跟踪结果。

   

   

  函数f(x)表示对于输入x进行特征提取、池化、l_2正则化之后得到的数据表示形式。

 

  •   训练过程

  模型的训练集和验证集选择的是ALOV。训练集合包括60000对帧,每一对帧中包括128对bbox。验证集包括2000对帧,每对包括128对bbox。

  训练过程就是最小化损失函数:

   

   

  式中y_{j,k}代表训练对(x_j,x_k)是正样本对or负样本对,如果是正样本对,则y_{j,k}=1,否则y_{j,k}=0

  论文中提到,跟踪问题作为一个定位问题,不应使用过多的max pooling,过多的max pooling会导致定位不准确。但是max pooling的优势在于对于输入的局部形变具有不变性,也不能弃之不用,故设计为两个max pooling层。

 

  •   实验

  首先是网络结构的选择,下图是在OTB-2013上的测试结果:

    CVPR 2016 SINT:《Siamese Instance Search for Tracking》论文笔记_第2张图片

  作者通过实验发现,max pooling对于Siamese Alexnet是不必要的:

    CVPR 2016 SINT:《Siamese Instance Search for Tracking》论文笔记_第3张图片

  下图是模型在OTB-2013上的测试结果(其中SINT+是基于SINT上使用更好的采样策略和光流附加模块的一个模型):

    CVPR 2016 SINT:《Siamese Instance Search for Tracking》论文笔记_第4张图片

    CVPR 2016 SINT:《Siamese Instance Search for Tracking》论文笔记_第5张图片

 

 

 

 

 

 

你可能感兴趣的:(目标跟踪,----,2016年论文)