转自知乎:YaqiLYU:https://zhuanlan.zhihu.com/p/46669238
感觉作者总结的很到位,转过来供自己和大家学习,加油鸭!
以下为正文:
VOT2018 paper: http://prints.vicos.si/publications/files/365
VOT2018 presentation: http://data.votchallenge.net/vot2018/presentations/vot2018_presentation.pdf
计算机视觉两大盛会CVPR 2018和ECCV 2018,与Visual Object Tracking领域一年一度最权威竞赛VOT2018 VOT2018 Challenge 随着ECCV落下帷幕,一起来看看今年单目标跟踪方向又有什么重大突破,寻找高含金量的好paper,发现速度性能双高的实用算法。
(看点:DCF是否依然是中流砥柱,未来之星SiamNet发展到了什么程度)
Short-term tracking challenge
短期跟踪竞赛依然是VOT2017的60个public dataset公开序列(公测)和60个sequestered dataset隐藏序列(内测),序列和评价指标完全相同。今年共有72个算法参赛,下面是前50名的公测结果(高亮标出了一些baseline):
72个参赛算法中占比最高的是DCF(discriminative correlation filter)类和SiamNet(Siamese network)类,其中38个是DCF类方法占比51%,feature以来自VGGNet的深度特征为主;14个是SiamNet类占比18%,backbone以SiamFC中的AlexNet为主,今年SiamNet类占比大幅提高。
EAO:两个baseline,VOT2016和VOT2017的神话CCOT,和2017年最好算法ECO都只能排在20左右,已经被大幅超越,甚至前几名都与ECO拉开了0.1以上的差距。
R鲁棒性前四名:MFT, LADCF, RCO, UPDT,都是DCF类方法,CNN特征提取的backbone都是ResNet-50。
A准确性前两名:SiamRPN, SA-Siam-R, 都是SiamNet类方法,这两个算法都表现出准确性奇高,而鲁棒性前十最差的特点。
(准确性奇高而鲁棒性较差,这是算法设计的缺陷,还是SiamNet类别天生的劣势?)
VOT竞赛是各新算法的试金石,在前20名中我们也能看到2018年CVPR和ECCV的一些论文:
CVPR 2018:SiamRPN, DRT, STRCF, SA-Siam, LSART
ECCV 2018:DaSiamRPN, UPDT
以上就是性能比较突出的2018年顶会了,好文推荐!其中SiamRPN, SA-Siam, DaSiamRPN三篇是Siamese Net类方法,DRT, STRCF, UPDT三篇是DCF类方法。
俗话说得好,公测看热闹,内测看门道,恭喜公测前十名进入决赛。前十里面除了排第3的SiamRPN和排第9的SA-Siam-R,其他都是DCF+CNN类方法,说明DCF+CNN依然是刷榜主流,但SiamNet也可以有一席之地了,尤其SiamRPN说明SiamNet的性能已经不是问题。
接下来一起来看内测结果,举办方说DRT和SA-Siam-R跑不了,这两个不是results re-production-ready去掉了,所以下面是只有前八名的内测结果:
可以看到,除了LADCF下降了3名排第四,SiamRPN下降了4名排第7,其他算法的顺序保持不变,北邮的MFT是Short-term tracking challenge的冠军,Martin大神的UPDT是第二名。MFT公测和内测都是鲁棒性第一,商汤的SiamRPN公测和内测都是准确性第一,但SiamRPN的鲁棒性在公测和内测中都是前十里面最差的。
MFT是去年CFWCR的发展,在DCF框架中加multi-resolution和multi-solution,多种特征Res50, SE-Res50, Hog, 和CN组合,暴力刷榜很无敌,方法介绍 VOT2018 主赛冠军(MFT)算法分享。
UPDT是Martin大神ECCV 2018最新工作,在ECO的基础上特征网络换成了ResNet-50,并加入Data Augmentation提取特征,浅层特征和深度特征分治,两部分自适应融合,是SRDCF到C-COT到ECO之后的又一次飞跃,论文介绍 目标跟踪新高度UPDT:解除深度特征被封印的力量。
公测第一名的LADCF和内测第一名的MFT,都采用了类似UPDT的做法,backbone都是ResNet-50为主,都用了Data Augmentation技术,UPDT代码应该会在VOT公布,可以看作明年算法的标杆。
Short-term real-time sub-challenge
实时竞赛是在公测60个序列上进行的,不论CPU还是GPU,要求算法速度超过~20fps后比性能,帧率不够会受到性能惩罚,结果如下:
商汤的SiamRPN是Short-term real-time sub-challenge冠军。结果和上面正好相反,这次SiamNet类方法顺序保持不变,DCF+CNN都不见了,前十名里面除了第5名cdrtpp和第8名CSTEM,两个都是CSRDCF改进方法 (CPU速度),其他8个都是SiamNet类方法 (GPU速度)。内测前十里面SiamRPN和SA-Siam-R的EAO完全不受影响,SiamNet类方法GPU速度快的优势非常明显。
(CSRDCF没有CNN特征应该是CPU速度,但VOT2017和VOT2018表格中都是G,代表是GPU速度,是笔误还是GPU优化了?)
SiamRPN是商汤CVPR 2018论文,在SiamFC基础上加入了RPN,采用类似目标检测的方法检测目标同时回归边框,anchor技术避免了多尺度检测,边框回归避免了响应图插值,用更大的训练集YouTubeBB离线训练,性能超过了C-COT,SiamRPN的Titan Xp上速度240FPS,是SiamFC的86FPS的三倍,论文介绍:CVPR2018视觉目标跟踪之 SiameseRPN。
DaSiamRPN是商汤ECCV 2018论文,在SiamRPN的基础上,继续扩展训练集解决样本不均衡问题,Distractor抑制干扰提升性能,速度稍微降低Titan Xp上190FPS,但性能超过了ECO,论文介绍:ECCV视觉目标跟踪之DaSiamRPN。VOT2018中的SiamRPN其实是DaSiamRPN的优化版本,“采用了更大的backbone和自适应的搜索策略”,性能进一步提升的同时速度仍然有90FPS,模型和测试代码已开源:foolwood/DaSiamRPN。
性价比来说SiamRPN非常高。UPDT类方法ResNet-50再加上Data Augmentation,GPU肯定都远不能实时的,SiamRPN公测第三性能强,real-time第一速度快,推荐,强烈推荐!
The VOT2018 long-term challenge
今年新增了long-term tracking (长期跟踪)的比赛,与short-term tracking相比,long-term新增两个难点:full occlusion完全遮挡和out-of-view出视野,这时候目标在帧图像中完全消失,需要tracker能判断目标是否消失并在出现时重新检测,或tracker在丢失目标时需要能重新检测目标。
今年long-term的竞赛库LTB35共35个序列,平均每个序列目标消失12次,平均每40帧目标消失一次。评价指标准确度Pr,召回率Re,以及主指标F-measure是Pr和Re的综合。共15个算法参赛,下面是结果:
15个算法中9个是SiamNet类占比60%,仅4个DCF类,可见SiamNet在long-term tracking方面是具有统治力的。前两名MBMD和DaSiam_LT的F-score遥遥领先,都是SiamNet类方法,而且都是SiamRPN的改进算法,再次证明SiamRPN潜力巨大。
Long-term目前没有内测,也没有real-time sub-challenge。
MBMD结构包括“一个基于匹配的回归网络和一个基于分类的验证网络”,回归网络类似SiamRPN产生proposal,验证网络类似MDNet分类前背景,有点R-CNN的感觉,但验证网络VGGM太大导致速度很慢,速度只有2FPS,论文介绍:VOT 2018 长时跟踪第一名算法,代码也已经完全开源(良心):https://github.com/xiaobai1217/MBMD。
DaSiam_LT是DaSiamRPN的long-term版本,用SiamRPN产生proposal,同时建模Distractor抑制干扰目标的响应,与MBMD优化SiamRPN的思路不同,但速度更快。目标丢失检测的思路非常直接:一旦判断到目标丢失,就扩大检测区域,进行一次全图检测。论文版本DaSiamRPN有110FPS,性能仅比MBMD低了0.003,性价比高很多。
总结
DCF依然领跑性能,short-term榜依旧以DCF+CNN为主,尤其UPDT贡献巨大,对前几名算法都有影响,但速度越来越慢看不到边,KCF不堪回首。
SiamNet速度快性能也不差,real-time榜和long-term榜都是SiamNet登顶,尤其SiamRPN潜力巨大,打通了目标跟踪和目标检测,性价比很高,接下来会快速发展壮大,希望速度优势能保得住。