【论文笔记】CVPR2019_SiamDW

概述

本文是CVPR2019的一篇Oral文章,关注点主要在于跟踪网络的backbone不能加深的问题,与SiamRPN++想法如出一辙。

https://blog.csdn.net/fzp95/article/details/88313752
知乎上看到的一个链接 https://zhuanlan.zhihu.com/p/61099402

作者在实验中发现,这几个参数对跟踪结果的影响,非常巨大: the receptive field size of neurons; network stride; feature padding 。
【论文笔记】CVPR2019_SiamDW_第1张图片

分析padding对结果的影响:

(ppt来源与极市平台 张志鹏 直播链接 )
【论文笔记】CVPR2019_SiamDW_第2张图片
上图是没有padding的情况,中间是Examplar Image,左边是search Image,蓝色网格代表的是cross correlation操作操作后产生的response map(响应图)。
把模板部分的E和检测部分的A,分别经过 φ \varphi φ去提取特征,得到 φ ( A ) \varphi(A) φ(A) φ ( E ) \varphi(E) φ(E),然后对这两个特征图进行cross correlation操作,产生的响应图叫R1。
如果search image中的目标进行一定的偏移,这时输入进search分支的是B,Exemplar分支输入的还是E不变,B和E分别经过神经网络后获得feature,然后在做cross correlation,产生的响应图为R2.

可以看出,对于没有padding的网络,如果目标发生了一定的偏移,相应图中的响应点对应的也应该发生一定的偏移,偏移的距离与stride有关。但是响应本身是不发生改变的。

【论文笔记】CVPR2019_SiamDW_第3张图片

有padding的时候,相当于在原图中映射出了一块更大的区域(在原图中的感受野更大),此时完整的感受野变得更大了,变成了上图中的灰色框。
此时Examplar分支的感受野由原来的E变成了E’,输入search分支对应的感受野由A变成了A’,所以此时变成了:对E’和A’分别通过神经网络提取特征,然后做cross correlation操作,得到的响应图记为R1.
如果对search image中的目标进行偏移,如果加了padding的话,在原图中的感受野会变成B’,所以此时变成了:对E’和B’分别通过神经网络提取特征,然后做cross correlation操作,得到的响应图记为R2.

可以看出,E’是一样的,但是A’不等于B’(如果灰色区域没有超出原图,那么是一样的,但是由于网络加深,感受野会急剧增大,很容易就超出边界),所以R1不等于R2,不满足平移不变性。因为padding的影响,在R2处点的大小不再等于R1。特征不能Align。

你可能感兴趣的:(论文笔记)