MOT Benchmark官方网站:https://motchallenge.net/
论文:MOT16:A Benchmark for Multi-Object Tracking
论文下载:https://arxiv.org/abs/1603.00831
附MOT数据集百度网盘下载地址:
多目标跟踪MOT_2DMOT2015数据集下载链接
多目标跟踪MOT16_Benchmark数据集下载链接
MOT16是2016年提出的多目标跟踪MOT Challenge系列的一个衡量多目标检测跟踪方法标准的数据集。
MOT16主要标注目标为移动的行人与车辆,是基于MOT15添加了细化的标注、更多bounding-box的数据集,MOT16拥有更加丰富的画面、不同拍摄视角和相机运动,也包含了不同天气状况的视频,是由一批合格的研究人员严格遵从相应的标注准则进行标注的,最后通过双重检测的方法来保证标注信息的高精确度。MOT16标注的运动轨迹为2D。
一、MOT16数据集的信息
MOT16数据集共有14个视频序列,其中7个为带有标注信息的训练集,另外7个为测试集。下图第一行为训练集,第二行为测试集。
下图为MOT16数据集的数据统计表,第一个表为训练集,第二个表为测试集,表格信息包含视频帧率(帧/秒),每帧图像的尺寸,时长,标注box数量,平均每一帧出现的行人数,相机运动情况和拍摄视角以及天气状况。
MOT16采用了一些较领先的目标检测算法来测试数据集的标注框,其中目标检测算法表现的准确率与召回率曲线如下图所示:
其中第三种方法DPM能保证在准确率较高的情况下保持最高的召回率,MOT16选择了DPM作为目标检测的基准来评价数据集的标注情况,上图最右边是DPM算法的检测结果。
下图显示了用DPM方法检测MOT16数据中目标的统计结果:14个视频序列,表格包含每个视频的目标检测总数(检测出的box),平均每帧目标检测数,检测出的bounding box在画面中的最高、最低的位置。
MOT16数据集的文档组织格式,所有视频被按帧分为图像,图像统一采用jpeg格式,命名方式为6位数字如:000001.jpg,目标和轨迹信息标注文件为CSV格式,目标信息文件和轨迹信息文件每行都代表一个目标的相关信息,每行都包含9个数值。目标检测文件中内容见下图,第一个值表示目标出现在第几帧,第二个值表示目标运动轨迹的ID号,在目标信息文件中都为-1,第三到第六个值为标注bounding box的坐标尺寸值,第七个值为目标检测表示的confidence score,第八、九个值在目标信息文件中不作标注(都设为-1)。
下图为目标的轨迹标注文件,第一个值同上,第二个值为目标运动轨迹的ID号,第三个到第六个值的同上,第七个值为目标轨迹是否进入考虑范围内的标志,0表示忽略,1表示active。第八个值为该轨迹对应的目标种类(种类见下面的表格中的label-ID对应情况),第九个值为box的visibility ratio,表示目标运动时被其他目标box包含/覆盖或者目标之间box边缘裁剪情况。
上面表格中的第12类表示目标检测评价体系考虑到的但是不作为真正例和真反例考虑的类别(原文:which is to be considered by the evaluation script and will neither count as a false negative, nor as a true positive, independent of whether it is correctly recovered or not),第8类表示错检(诱导答案),9-11类表示被遮挡的类别。
每个(图像序列)视频对应一个‘Sequence-Name.txt’ 包含刚才所有CSV文件的内容。整个数据集为1.9G,训练集中多提供了ground truth.txt作为训练参考。
二、MOT16数据集的标注规则(Annotation Rules)
MOT16标注的主要是移动中的目标,将所有目标简要分为以下三类:
第一种类别中,由观察者标注所有出现在视野中移动或直立的人,包括在自行车或者滑板上的人,处于弯腰、深蹲、与小孩对话、捡东西状态的行人也同样被考虑在该类别内。
第二种类别中,包括people-like的目标(模特,出现人的picture,反射的人影),被划分为模糊目标(不同viewer之间的意见变化较大的),不处于直立状态的静态的人(坐着或躺着的)。带着墨镜的人被划分为distractors。
第三种类别中,标注所有移动的车辆和非机动车(如婴儿车)和其他存在潜在包含/遮挡关系的物体。这个类别中的标注信息仅提供给参赛者训练使用,不算在评价目标检测方法的准则中,静态的车辆或者自行车若没有包含行人则不考虑在内。
Bounding box在尽可能紧凑的情况下要包含所标记目标的所有像素点。这意味着一个正在移动的行人的bounding box是长宽不断变化的,如果这个人局部被遮挡,box的尺寸可以参考其他的信息,如影子,反射,上/下一帧的尺寸等。如果一个人正好在图像的边缘部分(被裁剪掉一部分),那么bounding box可以超出该帧图像的大小来标记完整的行人。如果一个物体被部分遮挡或者存在包含问题(e.g.一棵树有很多树枝,如果box把树枝标注进来会过大而把其他无关物体包含进来),那么就用多个box来近似表示该物体。在自行车上的人仅标注该人,不考虑包含他的车,在汽车内的人不做标注。
在标注者确认该物体不属于ambiguous 类别时:Start as early as possible, end as late as possible.
虽然有时图像中的行人占很小的尺寸,但是这里要求标注者在人眼可分辨范围内尽可能地标注。(In other words, all targets independent of their size on the image shall be annotated)。
主要体现在跟踪标注时,在物体能够被识别无误的情况下尽可能标记,若物体运动时被完全遮挡或者消失,则该物体再次出现时重新设置轨迹ID号。
当所有视频被标注完成之后,采用高精度的行人/车辆检测方法来判断标注是否有遗漏、错误,同时人工协助进行审查。
三、MOT16数据集对于各个检测识别算法的评价方法
数据集旨在提供符合标准的ground truth数据、评价算法指标和训练的脚本内容,一方面能够理想地以数字来反应各个目标检测跟踪算法的精确度,另一方面挖掘各个检测识别方法产生的识别错误信息。
下面是评价方法(简单概括):
四、Baseline Method
用当下一些公开的目标跟踪的方法来测试MOT16数据集。
上面是对MOT16数据集的详细介绍,下面介绍MOT方法的性能评估指标。
对于给定的MOT方法,使用度量指标和数据集来定量地评估性能。这有两个重要的原因。一方面,测量不同成分和参数对整体性能的影响对设计最佳系统至关重要;另一方面,需要直接比较到其他方法。MOT的性能评估不是直截了当,我们将在本节中看到。
1、度量指标
MOT方法的评估指标至关重要,因其作为公平的定量化比较提供了一种途径。这一节提供不同的MOT评估指标的简要介绍。由于许多MOT方法采用tracking-by-detection策略,这些方法通常会测量检测性能以及跟踪性能。目标检测的度量指标也因此在MOT方法中采用。基于此,MOT指标可以大致分为两组,分为检测评估和跟踪评估,如下表所示。
MOT度量指标综述(向上箭头表示值越大,性能越好,向下箭头表示值越小,性能越好)
1.1 Detection指标
我们进一步将检测指标分为两个子集。一类测量准确度,另一类测量精度。
1.2 Tracking指标
根据不同的属性分为四类:
2、多目标跟踪经典测试数据集
测试集的使用及其特点:
1. PETS09-S2L1:该视频主要挑战在于目标移动在高速非线性模式下,目标遮挡频繁。
B. Yang and R. Nevatia, “Multi-target tracking by online learning of non-linear motion patterns and robust appearance models,” in Proc. IEEE Conf. CVPR, Jun. 2012, pp. 1918–1925.
2. PETS09-S2L2:存在严重遮挡。
A. Milan, S. Roth, and K. Schindler, “Continuous energy minimization for multitarget tracking,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 36, no. 1, pp. 58–72, Jan. 2014.
3. TUD-Stadtmitte:视角低,相互遮挡严重,出现完全遮挡
B. Yang and R. Nevatia, “An online learned CRF model for multi-target tracking,” in Proc. IEEE Conf. CVPR, Jun. 2012, pp. 2034–2041.
4. ParkingLot:相互遮挡比TUD还要严重
A. R. Zamir, A. Dehghan, and M. Shah, “GMCP-tracker: Global multiobject tracking using generalized minimum cliquegraphs,” in Proc. 12th ECCV, 2012, pp. 343–356.
5. TownCenter:16个人形随时可见导致了频繁遮挡,由于静态背景中存在沙滩导致部分目标不能被检测出。
B. Benfold and I. Reid, “Stable multi-target tracking in real-time surveillance video,” in Proc. IEEE Conf. CVPR, Jun. 2011, pp. 3457–3464.
多目标跟踪评价指标小结
评价测量的指标
标准CLEAR-MOT测量,包括Multi-Object Tracking Accuracy(MOTA) and Multi-Object Tracking Precision(MOTP)这两个评价标准。此外,额外引入了若干指标来进行评价(↑:表示得分越高越好,反之亦然)。
- Recall(↑):正确匹配的检测目标数/ground truth给出的目标数;
- Precision(↑):正确匹配的检测目标数/检测出的目标数;
- FAF/FPPI(↓):每帧的平均误报警数;
- MODA(↑):检测准确率;
- MODP(↑):检测精度;
- FP(↓):误报总数;
- FN(↓):未命中目标总数;
- MT(↑):命中的轨道假设占ground truth总轨迹的比例(目标的大部分被跟踪到的轨迹占比)(大于百分之八十);
- ML(↓):丢失的目标轨迹占ground truth总轨迹的比例(目标的大部分跟丢的轨迹占比)(小于百分之二十);
- PT(↓):目标部分跟踪到的轨迹占比(1 - MT – ML);
- FM(↓) or Frag(↓):真实轨迹被打断的次数;
- RS():略
- RL():略
- TDE():略
- OSPA():略
- IDS(↓) or ID sw(↓):一条跟踪轨迹改变目标标号的次数;
- MOTA(↑):跟踪准确度(结合了丢失目标,虚警率,标号转换之后的准确性);
- MOTP(↑)::跟踪精度(标注和预测的bounding box的不匹配度),也就是说,所有跟踪目标的平均边框重叠率。