Deeper and Wider Siamese Networks for Real-Time Visual Tracking 笔记

摘要

使用现有的强大架构直接替换主干,例如ResNet [14]和Inception [33],并没有带来改进。主要原因是1)神经元感受野的大幅增加导致特征可辨性和定位精度降低; 2)卷积的网络padding在学习中引起位置偏差。为了解决这些问题,我们提出了新的残差模块,以消除填充的负面影响,并进一步设计使用这些模块的新架构,具有受控的感受野大小和网络步幅。

1 introduction

我们用更深更广的网络代替了浅骨干,包括VGG [29], Inception[33]和ResNet[14]。出乎意料的是,这种简单的替换并没有带来太多的改进,甚至会在网络深度或宽度增加时导致性能大幅下降。

分析了Siamese网络结构,发现神经元的感受野大小、网络步长和特征填充是影响跟踪精度的三个重要因素。

  • 神经元的感受野的大小决定了特征图中的一个特征对应了原图的图像区域大小,太小了将无法覆盖目标,太大了将引入很多背景。
  • 网络步长决定了目标的定位精度,尤其是当目标较小的时候。
  • 特征填充将会破坏全卷积网络的平移等变性,当目标靠近边缘的时候,将会学习到一个位置的误差。但是不padding又会限制了网络的深度(因为每次卷积高和宽都会减小,特征图不能太小)。

首先,we propose a group of cropping-insider residual (CIR) units based on the “bottleneck” residual block [14]我们提出了一组基于“瓶颈”残差块的内部裁剪(CIR)单元[14]。其次,我们通过堆叠CIR单元设计了两种网络架构,即更深和更宽的网络。最后,我们将设计的骨干网应用于两个代表性的Siamese跟踪器:SiamFC [2]和SiamRPN [20]。

2. Background on Siamese Tracking

这一部分没啥说的就是简单介绍了一下SiamFC的流程

3. Analysis of Performance Degradation

3.1定性和定量的分析

3.2结论

  • 孪生类跟踪器的网络步长要小一点,不能太大,作者推荐4或者8。 因为太大了,目标定位的准确性偏差也就大了。
  • 最后一层感受野的的大小要与模板图片的大小有关,最好是模板图像的60%-80%。 因为太大的感受野虽然增加了目标的上下文信息,但是减少了目标本身的局部信息和判别信息。相反,太小则可能无法捕捉到对象的结构信息,因此在匹配时缺少判别性。
  • 当然,网络的步长、感受野大小要看做整体同时分析。可想而知,这些因素之间并不独立,一个改变,其他的也会随之改变。
  • 此外,对于全卷积的孪生网络结构,去除掉padding操作带来的位置定位偏差的影响也是至关重要的。 一种方法是直接去掉padding,另一种方法是增大搜索图像和模板图像,然后切除受padding影响的features.

4. Deeper and Wider Siamese Networks

4.1. Cropping-Inside Residual (CIR) Units

这部分主要介绍了几种CIR units内部裁剪残差单元。

Deeper and Wider Siamese Networks for Real-Time Visual Tracking 笔记_第1张图片
上图所示,CIR单元是基于残差块的,(a)(b)是原始的残差块的结构。先看(a’),作者在addition操作后面加入了crop操作,来去除掉0填充信号对特征计算所带来的影响。因为填充(padding)为1,所以在边界上最外层的特征被剔除掉。

再来看(b’),是对下采样的残差块的改变,将shortcut上的1x1卷积和bottleneck层上3x3卷积的步长都变为1,这样方便addition后的crop操作,然后加入最大池化来进行尺寸的减小。降采样操作需要放到最后,因为如果先降采样再裁剪的话,则图像的边缘特征将被彻底裁减掉无法体现在特征图中,使网络性能降低

此外,对Inception模块(c)和ResNeXt中残差块(d)的改变,都是在模块的输出处加上crop操作。这两个模块是为了创建更宽的网络,使用了多分支的结构(分别为2和32个分支)。Inception模块(c)中代替相加,是把两个分支的结果连接堆叠起来。

4.2. Network Architectures

对于三阶段的网络,stride为8;二阶段的网络,stride为4。感受野符合上文提出的策略。
如下图所示:
Deeper and Wider Siamese Networks for Real-Time Visual Tracking 笔记_第2张图片

  • Deeper Networks.
    CIResNet-16,19, 22 and 43.
    以CIResNet- 22为例。第一阶段的卷积后将跟着size 2 的裁剪。在前两个阶段降采样为max pooling,紧跟在卷积层后。第三阶段的降采样 使用CIR-D unit,紧跟在第一个block后(总共有四个block)。
    CIResNet-43因为网络太深,为了保证步长和感受野符合“指南”的要求,网络结构变为“二阶段”网络。此外,作者指出,这应该是所能达到的最深的孪生网络结构了。(因为要满足siamFC的实时性)

  • Wider Networks.
    CIResInception-22 and CIResNeXt-22,这两个网络分别将宽度提升了2和32倍。

你可能感兴趣的:(论文笔记)