SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks

摘要

作者发现,目前基于Siamese系列算法大多使用类似AlexNet的浅层网络结果进行特征提取,而直接替换为类似ResNet-50等深层网络会导致跟踪性能下降,无法像目标识别等任务一样充分发挥深度网络的优势。这种现象的核心原因在于网络的padding会破坏Siamese系列网络的平移不变性,本文通过一个简单但有效的空间感知采样策略来打破Siamese系列所需的这一限制,此外还通过多层特征融合和depthwise cross-correlation来进一步提高跟踪准确性并降低模型参数。

背景

SiamFC中通过滑动窗口来计算模板帧和搜索帧每个位置的相似性,这会带来两个限制:

  • 网络需要满足严格的平移不变性,而加入padding会破坏这种性质。(因此,SiamFC使用浅层网络,不加padding)所谓平移不变性,通俗理解就是不管物体位于图片什么位置都要求输出相同的结果。

为什么SiamFC满足平移不变性?SiamFC网络在训练过程中,训练图像对(x,z)两张图片就是以目标为中心进行裁剪的,计算相似性得到的响应图最大值的位置也基本位于中心。也就是说,不管目标的位置在哪里,经过剪裁计算得到的响应图是中心位置得分高,边缘位置得分低。

  • 网络要有对称性,也就是如果将模板帧与搜索帧图像调换顺序进行相似性计算,输出的结果也应该不变。这一点会引导网络结构的设计,具体看paper。

贡献

1、由于padding的加入,破坏了平移不变性(带来了平移等变性,使得输出和输入有了空间上的对应关系),因此,本文通过施加位置偏移,使得网络扩大关注范围,也就是说,在训练过程中,我们不再把正样本块放在图像正中心,而是按照均匀分布的采样方式让目标在中心点附近进行偏移,从而缓解网络因为破坏了严格平移不变性带来的影响,从而使深层网络可以应用于跟踪算法中。
2、浅层特征和深层特征线性加权融合,学习更丰富的特征。
3、depthwise cross-correlation中一个卷积核独立负责一个特征通道,最终卷积得到的feature map数量与输入的通道数一致,从而可以得到一个通道数非1的输出,可以在后面添加一个普通的 1x1卷积就可以得到分类和回归的结果。

参考

[1] 解释平移不变性:https://zhuanlan.zhihu.com/p/126504785
[2] 论文解读:https://blog.csdn.net/WZZ18191171661/article/details/88579348

你可能感兴趣的:(目标跟踪论文阅读)