Siamese跟踪系列文章汇总

参考链接

https://zhuanlan.zhihu.com/p/66757733
https://zhuanlan.zhihu.com/p/42546692

Siam FC

Siamese跟踪系列文章汇总_第1张图片
模板图像大小1271273(目标区域加上padding),通过卷积神经网络,得到66128的特征图,
检测图像resize到 255255,通过卷积神经网络,得到2222128的特征图,模板66128的特征图相当于卷积核,与检测图像特征图卷积,只有一个卷积核,因此输出是一通道的,最后得到1717*1的分数图,经过三线性插值,使其和检测图像尺寸一样大,得分最大的地方为目标中心。
Siam FC没有在线更新的过程,需要特征的鲁棒性很高,以应对各种挑战。不会出现更新错误污染样本的情况。

SiamRPN

Siamese跟踪系列文章汇总_第2张图片
引进了Region Proposal Network,模板和检测图像通过Siamese网络分别获得66256和2222256的特征图,在分类分支,对模板特征图通过卷积层增加维度到2k256,即生成2k个卷积核,k为RPN生成anchor的个数,检测图像特征图维度不变,两个特征图进行卷积,即可得到2k个1717的特征图,表示每个anchor的类别分数(目标和背景)。
同理,在坐标回归分支,对模板特征图通过卷积层增加维度到4k256,即生成4k个卷积核,k为RPN生成anchor的个数,检测图像特征图维度不变,两个特征图进行卷积,即可得到4k个1717的特征图,表示每个anchor的坐标。

DaSianRPN

在做完SiamRPN之后,我们发现虽然跟踪的框已经回归地比较好了,但是响应的分数仍然相当不可靠,具体表现为在丢失目标的时候,分类的分数仍然比较高(例如0.8+)(也就是响应分数和跟踪状态不对应),换句话说,其实SiamRPN只是学习到了目标、背景的区分,对于同类目标之间或者不同类目标之间的区分效果不好。
Siamese跟踪系列文章汇总_第3张图片
原因分析:负样本太多,正样本太少,泛华能力不强,其次,很多负样本都是背景,不含语义信息,过于简单,作者通过引入检测图像对,包括同类目标中正负样本对构建、不同类目标中正负样本对构建以及原来的目标背景对构建。
Siamese跟踪系列文章汇总_第4张图片
通过这样的训练,跟踪的分数会随着目标的状态发生变化,可以直接根据跟踪分数判断是否发生失败,失败之后通过扩大搜索区域寻找目标。

SiamRPN ++

CVPR2019 oral。发现了问题的本质然后解决问题。
建议大家看看这篇文章,写得很好。解释的很清楚
https://zhuanlan.zhihu.com/p/66757733
1.RestNet中的padding使网络失去平移等价性, 学习过程中会学到位置偏好,正样本(目标)都位于图像的中心,那么当该神经网络在检测图像上预测目标时,会由于训练样本中目标的分布特性,学习到对图像中心位置的预测偏好。不管目标移动到图像中的哪一处,网络都只会预测中心区域的位置。相当于跟踪器已经失去跟踪能力,作者用正样本均匀分布在图像中各个位置的数据作为训练集,让网络对各个位置都学习到一定的偏好(相当于没有偏好)。
2.解决了siamRPN的不对称结构,卷积求相关本身是一种对称的操作,当检测图像和模板图像交换位置后,得到的结果应该是一样的(网络要保证对称性),但是SiamRPN失去了这种对称性,这种非对称性会给网络的训练优化带来困难,不利于训练的稳定性和网络的整体性能。作者提出depthwise cross-correlation的方式解决非对称问题。得到模板和检测图像的特征图之后,通过conv层,获得相同的维度,此时的conv层参数不共享(结构相同,参数不同),为了学到检测图片模板图片的不同语义特性,卷积求积分,后续介入不同的卷积核,分别求的类别得分和位置。
Siamese跟踪系列文章汇总_第5张图片
3.利用Resnet不同层级得到多个score map,进行融合。

你可能感兴趣的:(目标跟踪)