论文笔记SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks

Siamese Instance Search for Tracking论文笔记

  • 1. 论文标题及来源
  • 2. 拟解决问题
  • 3. 解决方法
    • 3.1 算法流程
    • 3.2 孪生网络存在问题及解决
    • 3.3 Depth-wise Cross Correlation
    • 3.4 主要公式说明
  • 4. 实验结果
    • 4.1 消融实验
    • 4.2 VOT2018
    • 4.3 OTB2015
    • 4.4 VOT2018 long-term
    • 4.5 UAV123
    • 4.6 LaSOT
    • 4.7 TrackingNet
  • 5. 总结

1. 论文标题及来源

SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks, CVPR, 2019.
下载地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Li_SiamRPN_Evolution_of_Siamese_Visual_Tracking_With_Very_Deep_Networks_CVPR_2019_paper.pdf

2. 拟解决问题

a. 网络加深,缺少平移等变性
b. SiamRPN中存在的中心偏移问题

3. 解决方法

3.1 算法流程

论文笔记SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks_第1张图片
该算法的骨干网络是ResNet,作者使用来自Conv3-3,Conv4-6和Conv5_3的特征。左图是算法网络结构,右图是SirameseRPN的网络结构。
算法流程
a. 从数据集中提取target和search region
b. 将target和search region分别输入到骨干网络中提取特征
c. 将conv3-3,conv4-6,conv5_3的特征分别输入到SiameseRPN中进行分类和回归,得到分类得分和回归偏移量
d. 将三个SiameseRPN输出的分类得分和回归偏移通过赋予一定的权重,并相加,得到最终的分类得分和回归偏移
d. 根据最终的分类得分和回归偏移得到下一帧target的位置

SiameseRPN
此处可以参考SiameseRPN,和SiameseRPN 不同的是:
a. 此处的adj_1, adj_2, adj_3, adj_4不共享权重
b. 将SiameseRPN中的Up-Channel Cross Correlation Layer换成Depth-wise Cross Correlation
Up-Channel Cross Correlation Layer和Depth-wise Cross Correlation将在后章节介绍

3.2 孪生网络存在问题及解决

a. 根据卷积的定义,卷积过程具有平移不变性,但实际上,每次卷积都会增加padding,而增加的padding会破坏卷积平移不变性;然而如果不增加padding,随着网络深度的加深,特征图的大小会逐渐趋向0。
b. 分类分支和回归分支需要非对称特征

作者认为增加padding会导致spatial bias,为了证明这个结论,作者进行了偏移实验,结果如下
论文笔记SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks_第2张图片
shit表示偏移。
a. 当没有偏移时,边界区域的置信度会突变为0
b. 当增加偏移时,会阻止模型陷入这种情况
为了解决上述问题a,作者提出spatial aware sampling strategy,并通过如下实验证明其效果
论文笔记SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks_第3张图片
从上图可以发现,当随机偏移64个像素时,它的效果最好,这可能是因为增加随机扰动能够更接近目标的位置分布。

对于问题b,作者使用非共享权重的conv解决

3.3 Depth-wise Cross Correlation

论文笔记SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks_第4张图片
在孪生网络中,存在不同的Cross Correlation,例如SiamFC使用的Cross Correlation如上图a所示,SiamRPN使用的Cross Correlation如上图b所示,本文使用的Cross Correlation如上图c所示。
作者分析发现在RPN中,上述Cross Correlation方式约有20M参数,但是特征提取器中大概只有4M参数,这会导致参数分布不平衡,从而导致SiamRPN很难优化。
为了解决这种分布不平衡,作者提出Depth-wise Cross Correlation。它按照通道卷积,大幅减少参数,提高算法速度。
通过这种方式会使某一类别由特定的通道输出,而其余的通道会受到抑制

3.4 主要公式说明

a. 特征融合
S a l l = ∑ l = 3 5 α i ∗ S l ,     B a l l = ∑ l = 3 5 β i ∗ B l S_{all} = \sum^5_{l = 3} \alpha_i * S_l, \ \ \ B_{all} = \sum^5_{l = 3} \beta_i * B_l Sall=l=35αiSl,   Ball=l=35βiBl
S a l l S_{all} Sall表示融合后的分类得分, B a l l B_{all} Ball表示融合后的回归偏移

4. 实验结果

4.1 消融实验

论文笔记SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks_第5张图片
论文笔记SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks_第6张图片

4.2 VOT2018

论文笔记SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks_第7张图片
论文笔记SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks_第8张图片
论文笔记SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks_第9张图片

4.3 OTB2015

论文笔记SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks_第10张图片

4.4 VOT2018 long-term

论文笔记SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks_第11张图片

4.5 UAV123

论文笔记SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks_第12张图片

4.6 LaSOT

论文笔记SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks_第13张图片

4.7 TrackingNet

论文笔记SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks_第14张图片

5. 总结

该算法在SiamRPN的基础上,通过引入spatial aware采样策略(随机偏移)缓解平移不变性问题,增加网络深度,提升算法效果。OTB2015的AUC和Precision分别是0.696和0.914;VOT2018的EAO, Accuracy, Robustness, AO分别是0.414,0.6, 0.234,0.498;VOT2018(long term)的F-score是0.629;UAV123的AUC和Precision分别是0.613和0.807;LaSOT的AUC和 P n o r m P_{norm} Pnorm分别是0.496和0.569;TrackingNet的AUC,P和 P n o r m P_{norm} Pnorm分别是0733,0.694,0.8

你可能感兴趣的:(#,目标跟踪,论文笔记,目标跟踪,孪生网络)