GOT-10k包含了超过10000条视频,人工标注边界框超过150万个。分为563个目标类别,87种运动模式。
Purpose:
⋅ \cdot ⋅ provide a unified platform for deep trackers;
⋅ \cdot ⋅ make tracking data and evaluation metrics more general.
Contribution:
Dataset. GOT-10k包含了超过10000条视频,人工标注边界框超过150万个。分为563个目标类别,87种运动模式。目标均为真实世界中的运动物体。
Benchmark. 在GOT-10k上测试了多个现今算法并评估了他们的表现。讨论了现有工作的限制以及未来工作的可能方向。
Evaluation Protocol. 引入了one-shot principle以达到对deep trackers的无偏差评估;进行了一系列实验来选择紧凑而具有高度代表性的测试子集,从而实现高效评估。
Collection of videos:
使用了WordNet作为骨干来筛选目标和运动类别。
每个视频包含两个标签:object和motion。四个名词作为initial pool: animal, person, artifact, natural object and part。motion class延伸为locomotion, action and sport。生成出来的字典先淘汰掉不常见的/静态的/重复的词组,然后根据Youtube搜索数量进行排序,选择rank高的标签。
Annotation of trajectories:
⋅ \cdot ⋅ 按照目标检测的标准来设计标定框,即标定框为正矩形;
⋅ \cdot ⋅ 提供可见比率的注释,
可见比率是指目标可见部分的百分比,分为0,15%,30%,45%,60%,75%,90%,100%七种情况。
Dataset splitting:
数据集分为训练,验证,测试三个子集。
训练集和测试集之间需要有明确的隔离以验证模型的泛化能力:
——one-shot principle,训练集和测试集不重叠;
设计紧凑的测试集以减少模型测试耗时:
——通过研究视频数量/目标类别/运动类别/重复时间的影响,最终的测试子集包含180个视频,84类移动物体和32种运动形式;除了person类之外,训练视频和测试视频之间的所有对象类都是不重叠的;而对于人而言,训练和测试之间的运动类别并不重叠。每个跟踪器进行3次实验并平均得分以确保可靠的评估。
Baseline models
⋅ \cdot ⋅ Deep learning based trackers.
——MDNet, GOTURN, CF2, SiamFC, CFNet, SiamFCv2, CFNetc2.
⋅ \cdot ⋅ Correlation filters based trackers.
——CSK, KCF, DAT, LCT, SAMF, DSST, Staple, SRDCF, SRDCFdecon, CCOT, BACF, ECO.
⋅ \cdot ⋅ Traditional trackers.
——LK, IVT, L1APG, MEEM.
Evaluation Methodology
⋅ \cdot ⋅ Average overlap (AO)
——GT和算法预测的目标框的overlap的平均值(AUC)。
⋅ \cdot ⋅ Success rate (SR)
——ovelap超过50%的帧数的百分比。
Performance
Evaluation by Challenges
⋅ \cdot ⋅ Occlusion. 可见部分 v ≤ 0.6 v\le0.6 v≤0.6
⋅ \cdot ⋅ Scale variation. 尺度变化定义为 m a x i s i / m i n i s i max_i s_i /min_i s_i maxisi/minisi,其中 s i = w i h i s_i=\sqrt{w_i h_i} si=wihi为目标的size。
⋅ \cdot ⋅ Aspect ratio variation. 目标宽高比变化(形变和旋转)程度定义为 m a x i r i / m i n i r i max_i r_i /min_i r_i maxiri/miniri,其中 r i = h i / w i r_i=h_i/w_i ri=hi/wi。
⋅ \cdot ⋅ Fast motion. d i = ∣ ∣ p i − p i − 1 ∣ ∣ 2 s i s i − 1 d_i=\frac{||p_i-p_{i-1}||_2}{\sqrt{s_i s_{i-1}}} di=sisi−1∣∣pi−pi−1∣∣2,其中 p i p_i pi表示目标的中心位置。
⋅ \cdot ⋅ Illumination variation. 光照变化由所有像素平均颜色的变化来定义: u i = ∣ ∣ c i − c i − 1 ∣ ∣ 1 u_i=||c_i - c{i-1}||_1 ui=∣∣ci−ci−1∣∣1。
⋅ \cdot ⋅ Small/Largs objects. 用 s m e d i a n s_{median} smedian表示同一视频中全部 s s s的平均值,对小目标/大目标的定义如下:
f ( x ) = { s / s m e d i a n i f s > s m e d i a n s m e d i a n / s o t h e r w i s e . f(x)=\left\{ \begin{aligned} s/s_{median} \ & if \ s>s_{median} &\\ s_{median}/s \ & otherwise.& \end{aligned} \right. f(x)={s/smedian smedian/s if s>smedianotherwise.
GOTURN对Aspect ratio variation和occlusion效果较好;
ECO对fast motion, illumination variation and small/large
objects效果较好。
Impact of Training Data