CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记

论文和代码地址:SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks (bo-li.info)

一、 动机

孪生网络跟踪器与最先进的算法相比仍然有精度差距,由于缺乏严重的空间不变性,它们不能利用ResNet-50或更深的深度网络的功能。作者通过简单而有效的空间感知采样策略打破了这一限制,并成功地训练了一个ResNet驱动的孪生网络跟踪器,并获得了显著的性能增益。此外,作者还提出了一种新的模型架构来执行分层和深度聚合,这不仅进一步提高了精度,而且减小了模型大小。

二、 主要贡献

① 提供了对孪生网络跟踪器的深入分析,并证明了当使用深度网络时,准确性的降低来自于严格的空间不变性的破坏。
② 提出了一种简单而有效的采样策略来打破空间不变性的限制,成功地训练了由ResNet架构驱动的孪生网络跟踪器。
③ 为互相关操作提出了一种分层的特征聚合结构,这有助于跟踪器根据在多个级别学习的特征来预测相似性图。
④ 提出了一种深度可分离的相关结构,以增强互相关性,从而产生与不同语义相关的多个相似性图。

三、 主要内容

一个重要发现:
如果配备更深的网络,基于孪生网络的跟踪算法的性能可以显著提高。然而,简单地通过直接使用像ResNet这样的更深的网络来训练孪生网络跟踪器并不能获得预期的性能提高。

原因分析:
孪生网络跟踪器的本质是将目标追踪转化为相似性匹配问题,即目标是学习得到一个匹配函数:
在这里插入图片描述

其中Z代表目标图片,X代表搜索图片,b是一个偏移量。
而这个简单的匹配函数却也意味着孪生网络跟踪器存在两个内在限制,即,① 放缩部分和特征提取部分必须满足平移不变性;②放缩部分的结构应满足对称性。
① 平移不变性
在这里插入图片描述

[△τj] 是平移子窗口操作符。
简单来说就是一个物体在一张图中的不同位置所提取的特征应该是相同的。无论它如何平移,系统总能产生相同的输出。
Tips:
与平移不变性的相对的词为平移同变性,平移同变性意味着系统在不同的位置的工作原理相同,但它的响应(输出)随着目标位置的变化而变化。理解这来说也就是,一个物体在一张图片的前景部分和在背景部分时的响应是不同的。
② 对称性
CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记_第1张图片
而这两个内在的限制条件就是阻止孪生网络追踪器使用深度网络的核心原因。具体来说,一个原因是深度网络中的填充会破坏严格的平移不变性。另一个是RPN需要不对称的特征进行分类和回归。作者引入了空间感知采样策略来克服第一个问题,第二个问题通过引入深度互相关操作解决。为了对差异进行编码,模板分支和搜索分支通过两个非共享卷积层。然后两个通道数相同的特征图逐通道做相关运算。

空间感知采样策略:

CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记_第2张图片

空间感知采样策略可以避免对对象产生强烈的中心偏差。
SiamFC中在处理输入图片的时候会使用平均RGB对图片填充,并且最后的输入图片中,目标总是位于中心的。AlexNet因为没有填充满足空间不变性,因此SiamRPN、SiamFC、DSiam、SA-Siam、StructSiam等算法的网络骨架都采用的AlexNet。当人们想要使用更深的ResNet网络来提高算法精度的时候却发现,ResNet不满足空间不变性,利用ResNet获取实验结果存在强烈的中心偏差。但使用空间感知采样策略,让目标在一定范围内偏移后的实验结果便没有这种强烈的中心偏差了。这样一来就可以使用ResNet训练算法了,如SiamRPN++、SiamBAN、SiamCar等。

SiamRPN++网络架构:
CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记_第3张图片
网络结构详细内容:
采取空间感知采样策略消除了中心偏置后,作者修改了ResNet-50。
使原始的ResNet conv4和conv5块步长由2变为1,并通过扩大卷积增加其感受野。改过之后,后面三个block的分辨率就一致了。
具体修改细节如下图:
CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记_第4张图片
CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记_第5张图片
CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记_第6张图片
CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记_第7张图片
CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记_第8张图片
CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记_第9张图片

深度互相关:

在来自conv3、conv4、conv5的特征图输入RPN之前,首先要改变其通道数分别由512/1024/2048改为256。然后对15*15的模板特征进行裁剪(因为在修改的ResNet50加入并保留了很多padding,所以裁剪后仍能包含完整的模板图片。并且这样做可以减少计算量。)然后再进行DW_Corr_1和DW_Corr_2卷积操作(此卷积操作不特征图尺寸,k=3,s=1,p=1)。最后,结果分别馈入三个SiameseRPN模块。由于三个SiameseRPN模块的输出大小具有相同的空间分辨率,所以最终可以将来自三个SiameseRPN模块的输出加权求和。公式如下:

CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记_第10张图片

S:分类;B:回归。

使用三个RPN块的好处主要有两点:
1)可以通过多个SiamRPN来选择出多样化的样本或者具有判别性的样本块,第一个SiamRPN可以去除掉一些特别简单的样本块,而后面的网络进一步进行滤除,最终剩余一些复杂的负样本,这样其实有利于提升网络的判别能力。
2)由于使用了多级回归操作,因此可以获得一个更加准确的BBox。

四、 实验结果

CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记_第11张图片
CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记_第12张图片
CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记_第13张图片
CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记_第14张图片
CVPR-2018-SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 阅读笔记_第15张图片

五、 结论

SiamRPN++网络由一个多层聚合模块和一个深度相关层组成,前者组装连接层次以聚合不同级别的表示,后者允许网络降低计算成本和冗余参数,同时还导致更好的收敛。

参考:

https://zhuanlan.zhihu.com/p/56254712?from_voters_page=true
https://blog.csdn.net/weixin_43292354/article/details/90483111
https://blog.csdn.net/WZZ18191171661/article/details/88579348#SiamRPN_17
https://zhuanlan.zhihu.com/p/167948304

你可能感兴趣的:(目标跟踪之孪生网络文献阅读,计算机视觉,机器学习,深度学习,目标跟踪)