SiamDW阅读笔记:Deeper and Wider Siamese Networks for Real-Time Visual Tracking

2019年CVPR上的文章
论文原文地址:https://arxiv.org/abs/1901.01660?context=cs
跟踪部分的代码也放出来了:https://gitlab.com/MSRA_NLPR/deeper_wider_siamese_trackers/tree/master/

提出问题:

基于孪生网络的跟踪大部分的主干网络都是AlexNet,这个网络已经很久了,为什么不充分利用现在深度网络的优势呢。作者发现,如果直接将主干网络换成ResNet,Inception等网络,效果是不好的,而且随着深度的增加,效果更加不好。看下图蓝线(其中红线是作者提出的网络,暂且不说):
SiamDW阅读笔记:Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第1张图片

这篇文章的工作:

分为两部分:

  1. 作者通过系统的实验发现了主干网络影响孪生网络的三个重要因素,也就是最后一层感受野大小、网络总步长和特征的padding的有无,并且提出了一个孪生网络结构的设计指南。
  2. 在这个指南的帮助下,作者提出了一个新的网络结构,它能深能宽,替换了SiamFC和SiamRPN的主干网络,使之性能较之原来的跟踪器得到提升,并取得了State-of-the-Art

1. 性能降低分析 Analysis of Performance Degradation

这一部分主要定量分析和定性分析了网络的内在因素,为什么我加深网络,它效果反而不好呢?作者分析了AlexNet, VGGNet, ResNet, Inception四个网络,通过改变其步长、输出尺寸、有无padding,已经最后一层感受野大小。
实验结果的表格看着有些费劲,直接贴出作者给出的结论:

  • 孪生类跟踪器的网络步长要小一点,不能太大,作者推荐4或者8。因为太大了,目标定位的准确性偏差也就大了。
  • 最后一层感受野的的大小要与样例图片的大小有关,最好是样例图像的60%-80%。因为太大的感受野虽然增加了目标的上下文信息,但是减少了目标本身的局部信息和判别信息。
  • 当然,网络的步长、感受野大小要看做整体同时分析。可想而知,这些因素之间并不独立,一个改变,其他的也会随之改变。
  • 此外,对于全卷积的孪生网络结构,去除掉padding操作也是至关重要的。

2. Deeper and Wider Siamese Networks

基于以上的结论,作者提出了CIR单元,也就是cropping-inside residual units,用来减弱padding带来的偏差的影响
SiamDW阅读笔记:Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第2张图片
上图所示,CIR单元是基于残差块的,(a)(b)是原始的残差块的结构。先看(a),作者在addition操作后面加入了crop操作,来去除掉0填充信号对特征计算所带来的影响。因为填充(padding)为1,所以在边界上最外层的特征被剔除掉。很简单是吧。
再来看(b’),是对下采样的残差块的改变,将shortcut上的1x1卷积和bottleneck层上3x3卷积的步长都变为1,这样方便addition后的crop操作,然后加入最大池化来进行尺寸的减小。
此外,下图是对Inception模块©和ResNeXt中残差块(d)的改变,都是在模块的输出处加上crop操作:
SiamDW阅读笔记:Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第3张图片
作者通过对以上提出的CIR单元的堆叠,形成了六个主干网络结构:
SiamDW阅读笔记:Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第4张图片
前五个网络是“三阶段”网络,最后一个CIResNet-43因为网络太深,为了保证步长和感受野符合“指南”的要求,网络结构变为“二阶段”网络。此外,作者指出,这应该是所能达到的最深的孪生网络结构了。

3.实验

下图是提出的六个网络作为SiamFC和SiamRPN的主干网络的表现,需要指出的一点是,最深的CIResNet-43和最宽的CIResNeXt-22并没有取得最好的效果,作者在文章5.2节的第二段也做出了解释,感兴趣可以看原文。
SiamDW阅读笔记:Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第5张图片
在五个基准上与流行的跟踪器的比较:(SiamFC+和SiamRPN+的主干网络采用的是CIResNet-22版本)
SiamDW阅读笔记:Deeper and Wider Siamese Networks for Real-Time Visual Tracking_第6张图片
此外,还有一些消融分析证明提出的结构的有效性,就不在这一一贴出了。

最后想要分享出作者在讨论中所说的一段文字:Siamese trackers follow a tracking by similarity matching strategy…A large amount of follow-up work have been proposed, and they fall into two camps. One improves matching precision with high-level semantic information or a localization model [SA-Siam, GOTURN, StructSiam, SiamRPN]. The other enhances the offline Siamese model with online updates [DSiam, CFNet, DaSiamRPN].
感觉总结挺有道理的。

你可能感兴趣的:(Paper,reading)