GOT-10k

GOT-10k: A Large High-Diversity Benchmark for Generic Object Tracking in the Wild

INTRODUCTION

GOT-10k包含了超过10000条视频,人工标注边界框超过150万个。分为563个目标类别,87种运动模式。

Purpose:

⋅ \cdot provide a unified platform for deep trackers;

⋅ \cdot make tracking data and evaluation metrics more general.

1546167697316

Contribution:

Dataset. GOT-10k包含了超过10000条视频,人工标注边界框超过150万个。分为563个目标类别,87种运动模式。目标均为真实世界中的运动物体。

Benchmark. 在GOT-10k上测试了多个现今算法并评估了他们的表现。讨论了现有工作的限制以及未来工作的可能方向。

Evaluation Protocol. 引入了one-shot principle以达到对deep trackers的无偏差评估;进行了一系列实验来选择紧凑而具有高度代表性的测试子集,从而实现高效评估。

Dataset construction

1546243223681

Collection of videos:

使用了WordNet作为骨干来筛选目标和运动类别。

每个视频包含两个标签:object和motion。四个名词作为initial pool: animal, person, artifact, natural object and part。motion class延伸为locomotion, action and sport。生成出来的字典先淘汰掉不常见的/静态的/重复的词组,然后根据Youtube搜索数量进行排序,选择rank高的标签。

Annotation of trajectories:

⋅ \cdot 按照目标检测的标准来设计标定框,即标定框为正矩形;

⋅ \cdot 提供可见比率的注释,
可见比率是指目标可见部分的百分比,分为0,15%,30%,45%,60%,75%,90%,100%七种情况。

1546243012647

Dataset splitting:

数据集分为训练,验证,测试三个子集。

训练集和测试集之间需要有明确的隔离以验证模型的泛化能力:

​ ——one-shot principle,训练集和测试集不重叠;

设计紧凑的测试集以减少模型测试耗时:

​ ——通过研究视频数量/目标类别/运动类别/重复时间的影响,最终的测试子集包含180个视频,84类移动物体和32种运动形式;除了person类之外,训练视频和测试视频之间的所有对象类都是不重叠的;而对于人而言,训练和测试之间的运动类别并不重叠。每个跟踪器进行3次实验并平均得分以确保可靠的评估。

1546256935374

EXPERIMENTS

Baseline models

⋅ \cdot Deep learning based trackers.
​ ——MDNet, GOTURN, CF2, SiamFC, CFNet, SiamFCv2, CFNetc2.

⋅ \cdot Correlation filters based trackers.

​ ——CSK, KCF, DAT, LCT, SAMF, DSST, Staple, SRDCF, SRDCFdecon, CCOT, BACF, ECO.

⋅ \cdot Traditional trackers.

​ ——LK, IVT, L1APG, MEEM.

Evaluation Methodology

⋅ \cdot Average overlap (AO)

    ——GT和算法预测的目标框的overlap的平均值(AUC)。

⋅ \cdot Success rate (SR)

​ ——ovelap超过50%的帧数的百分比。

Performance

1546253061084

Evaluation by Challenges

⋅ \cdot Occlusion. 可见部分 v ≤ 0.6 v\le0.6 v0.6

⋅ ​ \cdot​ Scale variation. 尺度变化定义为 m a x i s i / m i n i s i ​ max_i s_i /min_i s_i​ maxisi/minisi,其中 s i = w i h i ​ s_i=\sqrt{w_i h_i}​ si=wihi 为目标的size。

⋅ \cdot Aspect ratio variation. 目标宽高比变化(形变和旋转)程度定义为 m a x i r i / m i n i r i max_i r_i /min_i r_i maxiri/miniri,其中 r i = h i / w i r_i=h_i/w_i ri=hi/wi

⋅ \cdot Fast motion. d i = ∣ ∣ p i − p i − 1 ∣ ∣ 2 s i s i − 1 d_i=\frac{||p_i-p_{i-1}||_2}{\sqrt{s_i s_{i-1}}} di=sisi1 pipi12,其中 p i p_i pi表示目标的中心位置。

⋅ \cdot Illumination variation. 光照变化由所有像素平均颜色的变化来定义: u i = ∣ ∣ c i − c i − 1 ∣ ∣ 1 u_i=||c_i - c{i-1}||_1 ui=cici11

⋅ \cdot Small/Largs objects. 用 s m e d i a n s_{median} smedian表示同一视频中全部 s s s的平均值,对小目标/大目标的定义如下:
f ( x ) = { s / s m e d i a n   i f   s > s m e d i a n s m e d i a n / s   o t h e r w i s e . f(x)=\left\{ \begin{aligned} s/s_{median} \ & if \ s>s_{median} &\\ s_{median}/s \ & otherwise.& \end{aligned} \right. f(x)={s/smedian smedian/s if s>smedianotherwise.
GOTURN对Aspect ratio variation和occlusion效果较好;

ECO对fast motion, illumination variation and small/large
objects效果较好。

Impact of Training Data

1546255184436

你可能感兴趣的:(tracking)