SiamDW:Deeper and Wider Siamese Networks for Real-Time Visual Tracking

摘要

Siamese网络由于具有良好的准确性和速度而引起视觉跟踪领域的广泛关注,但其使用的网络相对比较浅,比如AlexNet,难以充分发挥深度神经网络的优势。因此,作者对如何平衡卷积神经网络的深度和宽度从而实现跟踪的鲁棒性和准确性的问题进行研究。实验发现,直接将Siamese网络中的骨干网络换成深度更深的网络架构对跟踪效果没有提升。作者分析认为,一方面,大幅增大神经元感受野会降低特征判别性和定位精度;另一方面,卷积操作中padding操作会影响学习的准确性。为了解决上述问题,文中提出新的残差模块消除padding操作对跟踪效果的负面影响,并使用这些模块构造具有适宜感受野大小和网络步长的轻量级网络结构。实验结果表明,在Siamese网络中嵌入上述残差模块,能保证了跟踪的实时性。

背景

为了充分发挥深度神经网络的优势,作者直接将原Siamese网络中的浅层网络换成深度更深的网络,但实验效果不增反减,甚至随着深度加深,跟踪效果逐步下降。作者分析了Siamese网络的结构并得到影响网络跟踪性能的三个主要因素:神经元感受野的大小;网络步长;特征填充

  • 神经元感受野决定了计算特征时的图像区域大小,较大的感受野提供更丰富的上下文信息,较小的感受野可能难以完全捕捉目标对象的特征。
  • 网络步长影响了定位精度,对小目标物体影响更加显著;并控制着输出的特征图大小,影响特征判别性和跟踪准确性。
  • 对于一个全卷积网络结构,特征填充对模型的训练有一定的干扰,当目标靠近图像搜索边缘时很难被正确预测出来。(关于填充/padding对Siamese网络的影响在SiamRPN++一文中也有指出,但本文与该文处理方法不同)

贡献

(1)对影响骨干网络跟踪准确性的因素进行系统的研究,为Siamese跟踪网络架构的组建指明了设计方向——确立了影响Siamese网络跟踪性能的三个主要因素:神经元感受野的大小、网络步长、特征填充
(2)针对上述三个因素,作者设计了新的残差模块CIR单元(内部裁剪残差单元),这些CIR单元crop掉块内受padding操作影响的特征区域,防止卷积滤波器学习到误差,并通过堆叠CIR单元设计两种网络结构——更深的网络和更宽的网络,如下图所示。在这些网络中,网络步长和神经元的感受野都设定在一个合适的值,增加定位的准确性。最终将上述由CIR单元堆叠成的深度网络应用于两个具有代表性的Siamese跟踪器:SiamFC和SiamRPN。
SiamDW:Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第1张图片

你可能感兴趣的:(目标跟踪论文阅读)