目标跟踪论文(五):Deeper and Wider Siamese Networks for Real-Time Visual Tracking

Deeper and Wider Siamese Networks for Real-Time Visual Tracking

简述:

基于孪生网络的跟踪器通常使用AlxcNet作为backbone,而没有充分利用现在深层网络的优势(比如ResNet、Inception等)。作者发现,如果直接将backbone换成ResNet、Inception等网络,随着深度的增加,效果不升反降,如下图蓝线(红线为作者提出的网络)。产生这种现象的原因有两个:
  ① 神经元感受野的大量增加导致特征的可辩性和定位精度降低。
  ② 卷积网络的padding在学习中引起了位置偏差。
目标跟踪论文(五):Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第1张图片

问题Or主要工作:

问题:
  作者通过大量实验,发现阻止孪生跟踪算法从更深入,更复杂的网络架构中受益的原因,三个方面:感受野大小、网络步幅、特征填充。
  ① 合适的感受野大小很重要,较大的感受野提供更大的图像上下文信息、较小的感受野可能无法捕获对象的结构。
  ② 网络步幅影响定位精度。比如小尺寸物体,步幅太大,精度就差很多。
  ③ 特征填充(padding)会引起位置偏差,当对象在搜索范围边界附近移动时,难以进行准确的预测。
主要工作:
  ① 对影响控制精度的骨干网络研究后,在“瓶颈”残差块基础上提出自裁残差单元(cropping-inside residual Unit),CIR单元在块内部裁剪出受填充padding影响的特征(即,接收填充信号的特征),从而防止卷积滤波器学习位置偏差。
  ② 通过堆叠CIR单元设计了两种网络结构,更深、更宽(还设定了特定的步幅和感受野体高精度),将新的网络架构替换孪生网络的backbone,取得了State-of-the-Art的性能。

网络架构:

  1. 性能退化原因
    由图1,性能下降的直接原因在于网络结构,作者从步幅(STR),填充(PAD),最后一层神经元的感受野(RF)和输出特征尺寸(OFS)四个方面进行了实验,得出如下结论;
      ① 孪生类跟踪器的网络步长要小一点,不能太大,作者推荐4或者8。因为太大了,目标定位的准确性偏差也就大了。
      ② 最后一层感受野的的大小要与样例图片的大小有关,最好是样例图像的60%-80%。因为太大的感受野虽然增加了目标的上下文信息,但是减少了目标本身的局部信息和判别信息。
      ③ 当然,网络的步长、感受野大小要看做整体同时分析。可想而知,这些因素之间并不独立,一个改变,其他的也会随之改变。
      ④ 网络填充padding对最终性能有很大的负面影响,一种是删除填充的操作,还有一种是同时扩大模板帧和检测帧,然后剪裁掉收到padding影响的特征。
  2. 模型
      根据上面的分析,作者提出了CIR单元(cropping-inside residual units),以消除潜在的位置偏差。
    目标跟踪论文(五):Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第2张图片
      上图所示,CIR单元是基于残差块的,(a)(b)是原始的残差块的结构。先看(a’),CIR单元,作者在addition操作后面加入了crop操作,来去除掉0填充信号对特征计算所带来的影响。因为填充(padding)为1,所以在边界上最外层的特征被剔除掉。再来看(b’),下采样CIR(CIR-D)单元,将shortcut上的1x1卷积和bottleneck层上3x3卷积的步长都变为1,这样方便addition后的crop操作,然后加入最大池化来进行尺寸的减小。

注:如果我们只是在添加操作之后插入裁剪,如在所提出的CIR单元中所做的那样,在不改变下采样的位置的情况下,裁剪之后的特征将不会从输入图像中的最外面的像素接收任何信号。随着网络深度的增加,这将有效地导致更多的图像内容被移除,从而导致噪声/不完整的提取特征。


CIR-Inception和CIR-NeXt单元: 根据Inception和ResNeXt,通过多个特征变换扩展CIR单元,生成CIR-Inception和CIR-NeXt 模块,如下图(c-d)所示。具体来说,在CIR-Inception结构中,作者在shortcut connection中插入一个1x1卷积,并合并两个分支的特征。在CIR-ResNeXt中,我们将瓶颈层拆分为32个转换分支,并通过添加进行聚合。此外,对于CIR-Inception 和CIR-NeXt的下采样单元,修改与CIR-D(图 3(b’))中的修改相同,其中卷积步幅减小并且增加了最大池化层。
目标跟踪论文(五):Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第3张图片
  作者通过对以上提出的CIR单元的堆叠,构建了更深更宽的网络。首先确定stride,步幅8用于构建3级网络,而步幅4用于构建2级网络。制每个阶段的unit数量和下采样unit的位置。目标是确保最后一层神经元的感受野大小位于有效范围内(图像大小的 60%-80%),形成了六个主干网络结构:
目标跟踪论文(五):Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第4张图片
具体细节:
 CIResNet-22:有3个部分(stride=8),22个卷积层。除了第一个7×7卷积,其他都是CIR单位。在7×7卷积之后进行裁剪操作(大小为2)以移除受padding影响的特征。前两个阶段的特征下采样是通过原来ResNet的卷积和步幅2的最大池化来执行的。在第三阶段,通过所提出的CIR-D单元执行下采样,该CIR-D单元位于该阶段的第一个块(共四个)。当feature map大小被下采样时,卷积核的数量加倍以增加特征可辨别性。输出feature map大小是5×5,每个feature感受野的相应大小93×93。
  CIResNet-43:进一步将网络深度增加到43层,设计为2个阶段,在 CIResNet-43的第二阶段,有14个块,其中第四个块具有用于特征下采样的 CIR-D 单元。

实验:

下图是提出的六个网络作为SiamFC和SiamRPN的主干网络的表现,可以看到,最深的CIResNet-43和最宽的CIResNeXt-22并没有取得最好的效果,原因在于:1)网络步幅变为4,使得两个相邻特征的感受域之间的重叠很大。因此,它不像对象定位中具有8步幅的网络那样精确。2)与Tab3中的其他网络相比,输出要素通道的数量减半。(即256对512通道)。整体参数大小也较小。
目标跟踪论文(五):Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第5张图片
  在五个基准上与流行的跟踪器的比较:(SiamFC+和SiamRPN+的主干网络采用的是CIResNet-22版本),红色,绿色和蓝色字体分别表示前3名。
目标跟踪论文(五):Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第6张图片
  下图与列出的方法,如EBT,LDP,nSAMF,TCNN,MLDF,CFWCR和CFCF在VOT挑战中进行了比较。SiamRPN +运行速度为150 fps,比MDNet快得多。
目标跟踪论文(五):Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第7张图片
  表6 SiamFC上残差单元与CIR单元的对比。验证了CIR单元中消除padding的重要性,这基本上消除了学习中的位置偏差。表7:SiamFC中使用的不同下采样设置的对照。Setting1:直接使用原始下采样残差单元。Setting2:在下采样残差单元中插入裁剪操作。表7给出了结果表明我们的CIR-D单元有效。 目标跟踪论文(五):Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第8张图片

你可能感兴趣的:(目标跟踪,目标跟踪,孪生网络,深度学习,卷积神经网络)