SiamRPN++简述

因为项目和方向的改变,现在记录一下以前写过的一些论文阅读报告

本文贡献

  本文贡献主要主要四方面:
  1.对孪生跟踪器进行了深入的分析,并证明在使用深网络时,精度的降低是由于绝对平移不变性的破坏。
  2.提出了一种简单而有效的采样策略,以打破空间不变性限制,成功地训练了基于Resnet架构的孪生跟踪器。
  3.提出了一种基于层次的互相关操作特征聚集结构,该结构有助于跟踪器根据多层次学习的特征预测相似度图。
  4.提出了一个深度可分离的相关结构来增强互相关,从而产生与不同语义相关的多重相似度图。

本文工作

  首先对孪生追踪网络进行了深入的分析。认为阻止使用深度网络的暹罗跟踪器的主要原因与两个方面有关:具体而言,原因之一是深层网络中的padding会破坏严格的转换不变性;另一个是RPN需要非对称特征进行分类和回归。作者认为padding会导致spatial bias,为了证明这个结论,作者进行了偏移实验。
SiamRPN++简述_第1张图片
  图1表示,当没有偏移时,边界区域的概率为0,增加偏移到32的时候,分布更加均匀,为了避免对物体产生强烈的中心偏差,通过空间感知采样策略,使用ResNet-50主干训练SiamRPN,在VOT2018上实验,得到结果如下:

SiamRPN++简述_第2张图片
  结果表明随机偏移64个像素时,它的效果最好,这可能是因为增加随机扰动能够更接近目标的位置分布。

SiamRPN++简述_第3张图片
  主要的实验是在ResNet-50上做的。现代化网络一般都是stride32,但跟踪为了定位的准确性,一般stride都比较小(Siamese系列一般都为8),所以把ResNet最后两个block的stride去掉了,同时增加了dilated convolution,一是为了增加感受野,二是为了能利用到预训练参数。论文中提到的MobileNet等现代化网络也是进行了这样的改动。如上图所示,改过之后,后面三个block就一致了。

SiamRPN++简述_第4张图片
  在孪生网络中,存在不同的Cross Correlation,例如SiamFC使用的Cross Correlation如上图a所示,SiamRPN使用的Cross Correlation如上图b所示,本文使用的Cross Correlation如上图c所示。
  作者分析发现在RPN中,上述Cross Correlation方式约有20M参数,但是特征提取器中大概只有4M参数,这会导致参数分布不平衡,从而导致SiamRPN很难优化。
  为了解决这种分布不平衡,作者提出Depth-wise Cross Correlation。它按照通道卷积,大幅减少参数,提高算法速度。
  通过这种方式会使某一类别由特定的通道输出,而其余的通道会受到抑制

实验部分

(1)消融实验

SiamRPN++简述_第5张图片
  1)网络方面,从AlexNet换成了ResNet50以后,我们发现只有conv4的时候就取得了非常好的效果。虽然conv3和conv5效果没有那么好,但由于鲁棒性的提升,使得后续的提升变得有可能。同时对BackBone进行finetune也能带来接近两个点的提升。
  2)多支融合,可以从图中看出,同时使用三支的效果明显比单支的要高,VOT上比最好的conv4还要高4个多点。
  3)correlation方式,从表中也可以看出,无论是AlexNet还是ResNet,装备了新的correlation方式以后,都有接近两个点提升。
  同时,还用了不同的backbone验证了top1 acc和OTB性能的曲线,也证明了算法能够随着backbone的提升而提升。
SiamRPN++简述_第6张图片
(2)与最新技术的比较
  1)VOT2018
  在VOT2018上与10种最新方法对比,采用预期平均重叠(EAO),准确性(A)和鲁棒性(R)以及基于无重置的平均重叠(AO)来比较不同的FPS
在这里插入图片描述
SiamRPN++简述_第7张图片
  2)OTB-2015
SiamRPN++简述_第8张图片
  这是Siam跟踪器首次获得与OTB2015数据集上最新跟踪器相当的性能

  3)VOT2018 Long-term Dataset.
SiamRPN++简述_第9张图片
  在最新的VOT2018挑战赛中,新引入了一项长期实验。它由35个长序列组成,目标可能会长时间离开视野或被完全遮挡。绩效指标是精度,召回率和综合F分数。报告了所有这些指标,并与VOT2018-LT上的最新跟踪器进行了比较
  4)UAV123 Dataset
SiamRPN++简述_第10张图片

  包括123个序列,平均序列长度915帧,添加了ECO、ECO-HC、DaSiamRPN、SianRPN进行比较
  5)LaSOT Dataset
SiamRPN++简述_第11张图片

  为了在更大,更具挑战性的数据集上进一步验证所提出的框架,在LaSOT上进行了实验,数据集提供了大规模,高质量的密集注释,该注释总共包含1,400个视频,而测试集中包含280个视频。
  6)TrackingNet Dataset
SiamRPN++简述_第12张图片

  TrackingNet提供了大量数据以评估野外的跟踪器。

总结

  本文是在SiamRPN和DaSiamRPN的基础上做的,提出了一个称为SiamRPN ++的统一框架,以端到端训练深度的Siamese网络(孪生网络)进行视觉跟踪。通过引入空间感知采样策略(随机偏移)缓解平移不变性问题,增加网络深度,提升算法效果。网络由一个多层聚合模块和一个深度相关层组成,该模块将连接的层次结构组装在一起以聚合不同级别的表示形式,而深度相关层则使网络减少了计算成本和冗余参数,同时还带来了更好的收敛性。使用SiamRPN ++,在VOT2018上实时获得了最新的结果,显示了SiamRPN++的有效性。SiamRPN ++还在LaSOT和TrackingNet等大型数据集上获得了最新的结果,显示了其可推广性,这些数据集在以后实验时候或许也能使用。

你可能感兴趣的:(深度学习,神经网络,计算机视觉)