SiamRPN++阅读笔记

SiamRPN++

  • 动机
  • 解决方法
    • 1.均匀采样策略
    • 2.ResNet 驱动的孪生跟踪
    • 3. 多层特征融合
    • 4.深度互相关
  • 结果
  • 总结

动机

该论文主要解决的问题是将深层基准网络ResNet、Inception等网络应用到基于孪生网络的跟踪网络中。在SiameseFC算法之后,尽管已经有很多的基于孪生网络的跟踪算法,但是大家可能会注意到一个问题是,这些网络都使用浅层的类AlexNet做为基准特征提取器。其实在这之前,也有学者们尝试着使用深层的网络,但是发现直接使用预训练好的深层网络反而会导致跟踪算法精度的下降,因此,这成为了一个基于孪生网络的跟踪器需要解决的一个关键问题!

解决方法

经过详细分析,发现阻止Siamese tracker使用深度网络的核心原因与这两个方面有关。一个原因是深度网络中的填充会破坏严格的平移不变性。另一个是RPN需要不对称特征进行分类和回归。

1.均匀采样策略

针对第一个问题,提出了一种简单而有效的采样策略来打破空间不变性限制,该策略成功地训练了由 ResNet 架构驱动的连体跟踪器。
这种采样策略通过均匀分布的采样方式让目标在中心点附近进行偏移,可以缓解网络因为破坏了严格平移不变性带来的影响,即消除了位置偏见,让有padding的更深层网络可以应用于跟踪算法中。
"shift"是指由于数据扩充目标产生的最大平移范围。
SiamRPN++阅读笔记_第1张图片
具体的效果如上图所示:将shift设置为0时,网络只会关注图像中心的位置,对应到图中就是只有中心位置具有较大的响应值;而将shift设置为16时,网络开始关注更多的图像范围,对应到图中就是响应的范围会扩大,颜色由深变浅;而将shift设置为32时,网络会关注更大额图像范围,对应到图中就是响应的范围变得更大,颜色也更加多样化。
SiamRPN++阅读笔记_第2张图片
按照这个思想进行了实际的实验验证,在训练过程中,不再把正样本块放在图像正中心,而是按照均匀分布的采样方式让目标在中心点附近进行偏移。由上图可以看出,随着偏移的范围增大,深度网络可以由刚开始的完全没有效果逐渐变好。
所以说,通过均匀分布的采样方式让目标在中心点附近进行偏移,可以缓解网络因为破坏了严格平移不变性带来的影响,即消除了位置偏移,让更深层的网络可以应用于跟踪算法中。

2.ResNet 驱动的孪生跟踪

既然已经解决了平移不变性问题,那么就可以将深度网络应用到SiamRPN算法之中。
原始的 ResNet 有 32 个像素的大步幅,不适合密集的 Siamese 网络预测。
SiamRPN++阅读笔记_第3张图片
如上图所示,我们通过将 conv4 和 conv5 块修改为具有单位空间步幅,将最后两个块的有效步幅从 16 像素和 32 像素减少到 8 像素,并通过扩张卷积增加其感受野 。
在训练过程中采用了新的采样策略后,我们可以训练ResNet网络了,并且能够正常跟踪一些视频了。对backbone进行finetune以后,又能够进一步得到一些性能提升。

3. 多层特征融合

浅层特征主要集中在颜色、形状等低级信息上,对于定位是必不可少的,而缺乏语义信息;深层特征具有丰富的语义信息,在运动模糊、大变形等挑战场景中有利于定位。假设使用这种丰富的分层信息有助于跟踪。
在我们的网络中,提取多分支特征以协同推断目标定位。对于 ResNet50,我们探索从最后三个残差块中提取的多级特征,用于我们的逐层聚合。我们将这些输出分别称为 F3(z)、F4(z) 和 F5(z)。
conv3、conv4、conv5 的输出分别馈入三个 Siamese RPN 模块。由于三个 RPN 模块的输出大小具有相同的空间分辨率,因此在 RPN 输出上直接采用加权和。加权融合层结合了所有输出。
SiamRPN++阅读笔记_第4张图片

因为它们的域是不同的,组合权重被分开用于分类和回归。权重与网络一起进行端到端优化离线。

4.深度互相关

针对第二个问题引入了深度互相关
SiamRPN++阅读笔记_第5张图片
(a) 互相关 (XCorr) 层预测 SiamFC [1] 中目标模板和搜索补丁之间的单通道相似度图。
(b) 上行通道互相关 (UP-XCorr) 层通过在 SiamRPN [25] 中将重卷积层与几个独立的 XCorr 层级联来输出多通道相关特征。
© 深度互相关 (DW-XCorr) 层预测模板和搜索补丁之间的多通道相关特征。

沉重的上通道模块导致参数分布严重不平衡(即 RPN 模块包含 20M 参数,而特征提取器仅包含 4M 参数在 [25] 中),这使得 SiamRPN 中的训练优化变得困难。
我们提出了一个名为 Depthwise Cross Correlation的轻量级互相关层,以实现高效的信息关联。DW-XCorr 层包含的参数比 SiamRPN 中使用的 UP-XCorr 少 10 倍,而性能与之相当。

结果

在这里插入图片描述
SiamRPN++阅读笔记_第6张图片
SiamRPN++阅读笔记_第7张图片
SiamRPN++阅读笔记_第8张图片

总结

论文提出了一种名为SiamRPN++的框架,相比于其他Siamese系列框架,该框架可以使用深度神经网络作为backbone,可以使用较深的网络进行特征提取。也得益于使用较深的网络,则不同层可以表现出不同的语义特征,该框架将不同层的语义特征进行融合,共同作用得出了建议区域。同时,使用Depthwise Conv的方法,缩小了不同分支之间参数数据不平衡的问题,有效的提升了训练过程的稳定性,提高了收敛速度。在多个数据集上测试,取得了较好的效果,具备一定的泛化性。

你可能感兴趣的:(深度学习,计算机视觉,人工智能)