VOT 2017结果显示,目前跟踪算法的主流方法主要分为三种,一是传统的相关滤波方法,二是基于卷积神经网络方法,三是深度卷积特征和传统的协同滤波相结合的方法。
其中,使用深度卷积特征和协同滤波结合的方法效果最好。例如今年VOT第一名,大连理工大学卢老师的LSART,他们提出的追踪器以一种新的方式结合了CNN和相关滤波,通过设计算法让CNN专注于特定区域的回归,相关滤波专注于全局的回归,在最后对回归的结果进行组合,以互补的方式得到物体的精确定位。
今年VOT的51个tracker中,深度特征和相关滤波结合的方法共9种,采用如VGG网络提取特征再输入到相关滤波框架内,以非端到端线上更新滤波参数,达到准确追踪的效果。这9种深度特征和相关滤波结合的方法在VOT2017种表现均较为出色,包揽了前四名。
VOT 2017视觉跟踪第二名技术:单卷积特征的相关滤波解决方案
北京飞搜科技&北京邮电大学代表队提交的结果(CFWCR)获得VOT 2017竞赛公开的60个评测序列中第二名。
我们的方法基于业界流行的相关滤波的框架。我们使用了单CNN特征的多尺度追踪方案。现有很多追踪器融合了CNN特征和传统的机器学习特征,如hog特征,CN颜色特征等。在我们的实验中,我们发现CNN的浅层特征具有物体轮廓的信息,高层的深度特征具有物体的语义信息,将CNN的浅层和高层特征进行融合,能使追踪器具有很好的性能。
CNN的特征和传统特征的融合会使得特征的冗余太多,容易导致参数更新的时候模型过拟合,解决过拟合的一种方法是用PCA对特征进行降维。但是,过于复杂的特征组合方式不太利于超参数的精调,我们摒弃了传统的特征,只使用了CNN的特征。这一做法,减少了我们的特征冗余,模型过拟合的情况得到很大的缓解,使得我们的追踪器无论是在速度上还是精度上都有了不小的提高。
使用相关滤波框架的一大困难是具有很多的超参数,这和目前主流的端到端深度学习训练框架有很大的不同。我们发现用PCA对特征进行压缩,能使得追踪器在追踪速度上有很大的提高,但是性能会略有下降。因此,我们在评测上没有使用PCA,而在实用的追踪系统中用PCA能更好地均衡速度和精度。
此外,我们发现,在评测中,增加候选尺度的数量能使我们的追踪器更好地适应物体在时间序列中形状的变化。最后,我们对CNN的轮廓信息和语义信息进行了加权融合,以最优的方法对特征进行组合。
下面是我们的追踪器在不同的序列长度下的表现曲线。可以看到,我们的算法在短视频序列的表现明显优于其他主流的算法。
视觉跟踪未来展望:充分利用CNN
连续两年的VOT比赛中,基于相关滤波和CNN结合的追踪器表现突出,在性能指标上遥遥领先于其他算法。然而,非端到端的训练框架拥有很多的超参数,线上更新的方式也使得在实际算法部署的过程中,目前性能最优的一些追踪器难以满足实时性的要求。
视觉追踪方向和物体检测、物体分割方向不同的一点,在于CNN并没有完全发挥它的强大作用。未来的视觉追踪方向应该会更加关注实时性和训练的便捷性,端到端训练的追踪器会更多涌现,让CNN能够完全在视觉追踪领域发挥功效。我们也将继续在视觉跟踪领域深入研究,希望能给学术界和工业界做一些小小的贡献!
代码分享链接:https://github.com/he010103/CFWCR.git
参考资料
[1]http://www.votchallenge.net
[2]http://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w28/Kristan_The_Visual_Object_ICCV_2017_paper.pdf
[3]http://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w28/He_Correlation_Filters_With_ICCV_2017_paper.pdf