TrackingNet阅读笔记:A Large-Scale Dataset and Benchmark for Object Tracking in the Wild

最近论文精读的少了,就不太在博客发表
TrackingNet是发表在ECCV2018上的一篇目标跟踪方面的论文,由题目可以看出来,提出了一个大规模的目标跟踪数据集和一个评测的Benchmark,数据集的内容针对的是in the Wild
现在数据集已经开放下载,详情可以看官方网站https://tracking-net.org/,未来我可能也会跟进这个数据集的使用。
总结下来,这篇文章有三方面内容:

  • 提出了一个针对于单目标跟踪数据集,其中训练集和测试集是分开的,但是其中的类别分布是相似
  • 提出了一套评价跟踪器好坏的标准,并用此测评了20个跟踪算法
  • 在文本提出的数据集上训练的跟踪器的性能会比原跟踪算法的性能高,表明了提出的数据集质量很好

1.A Large-Scale Dataset

TrackingNet阅读笔记:A Large-Scale Dataset and Benchmark for Object Tracking in the Wild_第1张图片
文章中列出了一些常用的跟踪数据集,可以发现规模都很小,所以很多基于深度的跟踪器如果要学习到优秀的性能,就只能利用ImageNet Video或者Youtube-BB等目标检测或目标分类方面的数据集,这些视频数据集并不是每一帧都有标注的,对于目标跟踪来说,会学习不到帧与帧之间丰富的变化信息。另外,有的跟踪器会拿benchmark的测试集做训练,这就显得很不公平。
TrackingNet阅读笔记:A Large-Scale Dataset and Benchmark for Object Tracking in the Wild_第2张图片
横坐标是视频序列的数量,纵坐标是每个序列的平均帧数,平均时长为16.6s,圆的面积表示标注的bounding box的多少。可以看出,这个数据集针对的是短时间的目标跟踪。
数据集中一共有15个属性:上面的五个是自动识别的,下面的是用人工识别的属性
TrackingNet阅读笔记:A Large-Scale Dataset and Benchmark for Object Tracking in the Wild_第3张图片

1.1 From YT-BB to TrackingNet Training Set

训练集是从YT-BB中得到的,YT-BB是每隔2s标注一次,共有23个类别。作者过滤了一些类别,细分了一些类别,之后得到了下面的27个类别:
TrackingNet阅读笔记:A Large-Scale Dataset and Benchmark for Object Tracking in the Wild_第4张图片
红色的是原来YT-BB的类别分类,蓝色的是TrackingNet训练集中的。
大家或许还有个问题,这么多视频不会是手工标注的吧。。其实不然,作者认为,大多数跟踪器在非常短的时间内的跟踪结果都是非常好的,作者也选取了12个跟踪器,做了实验,评测在30帧内的跟踪效果,可以看出除了MOSSE其它的结果都是非常接近的。
TrackingNet阅读笔记:A Large-Scale Dataset and Benchmark for Object Tracking in the Wild_第5张图片
作者最终选取了DCF跟踪器来标注YT-BB中缺失的标注框,至于为什么选这个跟踪器,我想是因为速度非常快吧。

1.1 From YT-CC to TrackingNet Testing Set

测试集中的511个视频是来自于YouTube with Creative Commons licence,我也不太懂这个是什么,简称YT-CC。测试集里的序列是用人工+VATIC tool(一个利用光流法的视频标注工具)标注的。当然这里面作者会制定一些标准,使得和训练集里的视频标注差不多。
测试集和训练集虽然是分开的,但是它们的属性、类别分布都是相似。
TrackingNet阅读笔记:A Large-Scale Dataset and Benchmark for Object Tracking in the Wild_第6张图片

2.Benchmark

我刚开始有这么个疑惑,测试集直接从训练集中分一部分出来不就好了,为什么还要单独标注出来。是因为这部分测试集也要供Benchmark使用,就像OTB VOT一样,有一套标准的评测序列,供别人测试自己的算法的好坏。
这里面,有三个评价标准:precision, success and normalized precision.前两个和OTB的一样,作者加入normalized precision是为了因为精度的度量对图像尺度的大小和bounding box的大小比较敏感,归一化后可以更加准确的体现精度。三个公式如下:
TrackingNet阅读笔记:A Large-Scale Dataset and Benchmark for Object Tracking in the Wild_第7张图片
实验中作者评测了20个跟踪算法,包括了四个基于深度学习的算法:
TrackingNet阅读笔记:A Large-Scale Dataset and Benchmark for Object Tracking in the Wild_第8张图片
作者用他提出的一套标准,分别在OTB100上和自己的测试集上进行测试,结果如下:
TrackingNet阅读笔记:A Large-Scale Dataset and Benchmark for Object Tracking in the Wild_第9张图片
上面是OTB,下面是TrackingNetTest,从左到右为precision, normalized precision and success.可以看出,排名分布大致是相同的,证明了测试集的可靠性,TrackingNetTest上的分数不太高,表明了现在很多的跟踪器的性能还是有很大的提升空间。

3.Retraining on TrainingNet

基于深度学习的跟踪器很依赖于训练的好坏,尤其是siam类方法,此方法跟踪快速,但是在跟踪当前序列时模型基本不更新,更加依赖于训练。
作者在自己的训练集上,只用了12分之一的视频,重新训练了SiameseFC,并在OTB上和TrackingNetTest测试了一番,就可以看到重新训练的SiameseFC比原来的提高了
TrackingNet阅读笔记:A Large-Scale Dataset and Benchmark for Object Tracking in the Wild_第10张图片

4.总结

数据的增加明显可以提升训练的结果,对于研究基于深度学习跟踪的人来说,确实是一种鼓舞。文章中还有很多小细节没能一一笔记下来,有兴趣的可以看看原文:原文

你可能感兴趣的:(Paper,reading,Object,Tracking)