【SiamDW(CVPR2019)oral】论文阅读Deeper and Wider Siamese Networks for Real-Time Visual Tracking

Deeper and Wider Siamese Networks for Real-Time Visual Tracking 论文地址 代码

写在前面

又是一篇关于SiamRPN的改进,加深了网络宽度与深度,优化特征提取过程,效果很好。

Motivation

  • 深度的网络如ResNet在其他视觉任务上都有很好的表现,然而却不能移植到目标跟踪领域中;
  • 网络太深导致最后特征的感受野太大,更加关注语义信息而缺少定位能力;
  • 网络的padding操作会使得模型产生漂移;
  • 网络的步长影响了网络定位的准确度,特别是在小物体上。

Contribution

  • 他们系统分析了深度的网络影响跟踪的因素,并且提出了一个网络结构设计的guideline for Siamese tracker;
  • 他们提出了一个no-padding-residual 单元来设计一个更加深和宽的Siamese tracker,实验表明他们的这种做法提升了网络的精度。

Algorithm

1、Analysis

在这个部分,他们详细分析了深度网络影响tracker的因素如下:
1.1 没有padding的网络的表现最好;
1.2 随着网络的步长变大,网络的表现越差,这个表明Siamese网络更多使用的四中层的特征,这些特征更加有利于目标的定位;
1.3 输出feature的感受野最好是模板的60%-80%左右。
【SiamDW(CVPR2019)oral】论文阅读Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第1张图片

2.Guideline

根据以上的分析,他们对网络的优化提出了一系列的准则:

2.1 Siamese的tracker应该使用小的网络步长;
2.2 输出特征的感受野应该根据模板图片的比例设定;
2.3 网络的步长、感受野和输出特征尺寸应该是一起设计的;
2.4 对于全卷积的Siamese网络,最好的方法应该是去掉padding操作。

Deeper and Wider Siamese Networks

这个部分,他们设计了一个新的模块,用来消除由于网络太深产生的漂移。
【SiamDW(CVPR2019)oral】论文阅读Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第2张图片
如上图,a和b是原始的残差单元和下采样单元,(a’)是本文提出的方法,在加和操作之后加了一个crop操作,这个操作可以移除被zero-padding影响的特征,因为padding一般处于feature map的边缘,所以这些影响很容易通过crop操作消除。

(b’)是对下采样操作的优化,因为这个操作会将网络的特征图变小,所以为了稍微控制一下,就把第二层的步长变成1,最后还是加了一个crop来消除padding的影响,最后用maxpooling来下采样特征图(这个maxpooling不懂干嘛的,可能是人家模型压缩领域常用的把)。d是将网络加宽,使得网络可以使用更多的信息。

值得注意的是,网络因为crop操作所以会使得feature map变小,文章就直接通过加大输入图像和减少网络步长来做

3、网络结构

【SiamDW(CVPR2019)oral】论文阅读Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第3张图片
以上CIResNet-43就是这篇文章提出的网络结构,(一脸懵逼的我)。

Experiment

在各大benchmark上效果都有提升
【SiamDW(CVPR2019)oral】论文阅读Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第4张图片
【SiamDW(CVPR2019)oral】论文阅读Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第5张图片
【SiamDW(CVPR2019)oral】论文阅读Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第6张图片
【SiamDW(CVPR2019)oral】论文阅读Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第7张图片

总结

感觉从ECCV UPDT出来后,商汤就开始研究ResNet了,怎么大家都没想到呢,果然人家就是有克服困难的意识和勇气啊。

优点

  • 分析了更加深的网络为什么不能在Siamese tracker上有用,并且给出了解决方案,是一个比较通用的方法;

缺点

找不出缺点(哭),要说缺点,就是Inception和ResNet我不熟,所以觉得人家在网络结构那边写的模棱两可吧。

你可能感兴趣的:(【SiamDW(CVPR2019)oral】论文阅读Deeper and Wider Siamese Networks for Real-Time Visual Tracking)