SiamFC++,90 fps的单目标跟踪SOTA

点击我爱计算机视觉标星,更快获取CVML新技术


本文源自知乎,经作者授权转载。

https://zhuanlan.zhihu.com/p/93888180

AAAI 2020的审稿刚刚出炉,本文讨论一篇入选AAAI的Poster,来自浙江大学的一篇单目标追踪文章。从名字可以看出是一篇基于SiamFC的改进文章,主要亮点是清晰地阐明了之前的孪生网络追踪器存在的不合理性问题,以及自己定义了一套基于anchor-free的目标估计的回归线路,论文未开源。

本文指出,当前的一些tracking方法,虽然利用各种trick挖掘到了目标状态的潜在可能性,但是很少考虑到视觉跟踪问题本身存在的特性。本文的改进主要存在于4个方面:1、分类分类与状态估计的分支,并且融合形成SIamFC++,2、使得分类分支取消歧义性,3、使得追踪不再依赖于类似于长宽比等先验知识,4、增加了估计质量分数分支。本文在实验方面做得非常充分,几乎涉及到了当前所有可以对比的数据集,其对比实验、消融实验都做得的科学合理,在效果方面,以90FPS实现了当前的SOTA水平,因此非常值得借鉴。

追踪任务可以分解为分类任务与状态估计任务的结合。分类任务的目的是精确定位目标的位置,而状态估计是要以bounding box的形式找到目标的姿态。对于状态估计来说,当前的追踪器主要存在三个方法:

1、以DCF、SIamFC为主的追踪器,在原图上以多尺度为划分,将搜索区域缩放多个比例进行组装,并选择最高分类得分对应的量表;

2、以ATOM为主的追踪器,受到IOU-NET的启发,以迭代训练的方式多重随机初始化帧与背面边框的数量,带来了较多的超参数以及时间上的消耗;

3、以SiamRPN为主的追踪器,以RPN回归的思想,预先定义锚点之间的位移偏移与大小的差异,此类方法基于目标检测,虽然能够找到优秀的精确的状态值,但是对于较大的尺度变化等困难样例来说,锚点与框的先验因素限制了追踪器的鲁棒性,容易产生lost。

因此,作者在结合上述工作的优缺点,对追踪器有了如下的改进:

G1:分解分类与状态估计:分类器专攻将目标物体与背景分离,而状态估计则是为了产生更准确的BB,那些多尺度的方法忽略了后项,因此精度低下;

G2:明确分类得分:分类得到应该直接表示为目标在视野中存在的置信度分数,而不是像预定义的anchor一样设置,对于RPN的思想极其容易产生假阳性样本。

G3:去除先验知识:追踪应该符合通用的精神,即比例等因素不该成为搜索或者检测的因素,RPN的思想阻碍了追踪器的泛化能力;

G4:作者借鉴了2019年另一篇论文,增加了评估质量的分支,边界框进行分类置信度会导致性能的下降。

SiamFC++,90 fps的单目标跟踪SOTA_第1张图片

论文的结果如上图所示,可以看到还是非常规整的Siamese网络结构。绿色的部分是传统的SiamFC分支,后面的红色部分加入了质量评估分支,而蓝色部分则是新加入的回归分支。中间的部分还是用一个cross-correlation的操作,和之前的Siamtracker都是一致的,回归与分类的分支的结合是用了一个argmax。

之前没听过的质量分支,其实就是借鉴了如下的一个PSS评分,代表了在滑动窗中心的像素点具有高评分,远离中心点像素的评分会降低,做了一个像素的级的加权。

SiamFC++,90 fps的单目标跟踪SOTA_第2张图片

最终的LOSS是一个可以端对端训练的集成,质量评分的分支采用的二项交叉熵损失,而回归的部分采用的是一个IOU-LOSS。

SiamFC++,90 fps的单目标跟踪SOTA_第3张图片

这个和SiamFC的消融实验做的很科学。因为本身tracker的训练集就大,因此首先尝试了SiamFC的训练集扩充到同样水平,再逐步调整BackBone和其他的一些策略。可以看到分数提升最明显的还是回归分支。

SiamFC++,90 fps的单目标跟踪SOTA_第4张图片

这个表格总结了最先进的几种tracker和SiamFC++的对比,可以看到SiamFC++无论从速度、评分上,在各个数据集的表现与当前SOTA得追踪器相比都是更加出色的,这也就反向印证了作者当初的分析是正确的。

论文地址:

https://arxiv.org/abs/1911.06188

目前还未发现该文有开源代码。

在我爱计算机视觉公众号后台回复“SiamFC++”(建议复制),即可收到论文下载。


目标跟踪交流群

关注最新最前沿的单目标、多目标跟踪技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

请务必注明:跟踪

喜欢在QQ交流的童鞋,可以加52CV官方QQ群805388940

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

你可能感兴趣的:(SiamFC++,90 fps的单目标跟踪SOTA)