MOT和MTMC指标总结及详细计算方法

MOT和MTMC指标总结及详细计算方法

MOT和MTMC指标总结及详细计算方法_第1张图片
MOT和MTMC指标总结及详细计算方法_第2张图片

1、MOTA:多目标跟踪准确度 (Multiple Object Tracking Accuracy)
衡量单摄像头多目标跟踪准确度的一个指标

在这里插入图片描述MOT和MTMC指标总结及详细计算方法_第3张图片
FN 为 False Negative(漏报),整个视频漏报数量之和。
FP 为 False Positve(误报),整个视频误报数量之和。
IDSW 为 ID Switch(ID 切换总数,误配):上图图 (a),从红色的切换到了蓝色,记为一个 IDSW,整个视频误配数量之和,其值越小越好。
GT 是 Ground Truth 物体的数量,整个视频 GT 数量之和。
MOTA 越接近于 1 表示跟踪器性能越好,由于有跳变数的存在,当看到 MOTA 可能存在小于 0 的情况。MOTA 主要考虑的是 tracking 中所有对象匹配错误,主要是 FP、FN、IDs、MOTA 给出的是非常直观的衡量跟踪其在检测物体和保持轨迹时的性能,与目标检测精度无关。

2、MOTP:多目标跟踪精确度 (Multiple Object Tracking Precision)
衡量单摄像头多目标跟踪位置误差的一个指标
在这里插入图片描述
注:MOTP实际上有两套不同的计算方法,一套是在python上引用的motmetric这个包,它的计算标准来自于2008年·卡尔斯鲁厄大学《CLEAR Metrics-MOTA&MOTP》,另一套是MOT16中提出的计算方法(见参考文献【3】)。网上的很多总结都沿用了2008年的计算方法进行介绍,但是与上面两张总结图是MOT16的,对应不上,这里将两种方法都列出来对比。

①、Motmetric中方法:
ct表示第t帧的匹配个数,对每对匹配计算匹配误差dti表示第t帧下的检测框的中心点与GT的中心点之间的距离。
MOTP越接近与0,表示跟踪器的定位精度越高。

②、MOT16中方法:
ct表示第t帧的匹配个数,对每对匹配计算匹配误差dti表示第t帧下的检测框与GT的iou,如果跟踪的匹配完美,则为100%,如果完全偏离,则为0。
MOTP越接近与1,表示跟踪器的定位精度越高。

3、MT 大多数跟踪(Mostly Tracked)
一条轨迹被跟踪到 80% 以上就可以认为是 MT
这里需要注意的一点是:不管这条轨迹上 ID 如何的变化(比如预测的时候发生了变化),但只要还是这条轨迹占到真实轨迹的 80% 以上就可以认为是 MT。(下面这张图希望可以帮助理解)
MOT和MTMC指标总结及详细计算方法_第4张图片
4、ML 大部分缺失跟踪(Mostly Lost)
一条轨迹只被跟踪到 20% 以下就可以认为是 ML
MOT和MTMC指标总结及详细计算方法_第5张图片

5、Frag 或者称 FM(Fragmentation)
就是一条轨迹被切断的次数,我的理解是在轨迹还存在的情况下,跟踪器确不再跟踪这个轨迹了,这可能是漏检或者idswitch的情况,则记录轨迹碎片,在gt的轨迹结束后跟踪器还继续跟踪的这种情况也会记录轨迹碎片,IDS是FM中的一种特殊情况,所以一般FM的值比IDS大,可以看回这张图方便理解。
MOT和MTMC指标总结及详细计算方法_第6张图片

6、FAF
每一帧的平均误报率,FP/总帧数。

7、Recall(召回率)和Precision(准确率)
这个指标是检测中比较常用的两个指标。
四个概念:TP,FP,TN,FN
TP(True Positive):在判定为positive的样本中,判断正确的数目。
FP(False Positive):在判定为positive的样本中,判断错误的数目。
TN(True Negative):在判定为negative的样本中,判断正确的数目。
FN(False Negative):在判定为negative的样本中,判断错误的数目。
精确率(precision):
在这里插入图片描述
召回率(recall):
在这里插入图片描述

8、IDR、IDP、IDF1
IDP:识别精确度 (Identification Precision) 是指每个行人框中行人 ID 识别的精确度。
在这里插入图片描述IDTP、IDFP 分别代表真正 ID 数和假正 ID 数,类似于混淆矩阵中的 P,只不过现在是计算 ID 的识别精确度

IDR:识别回召率 (Identification Recall) 是指每个行人框中行人 ID 识别的回召率。
其中 IDFN 是假负 ID 数。
在这里插入图片描述
IDF1:识别 F 值 (Identification F-Score) 是指每个行人框中行人 ID 识别的 F 值。
在这里插入图片描述

以上式子并没有说明清楚IDTP、IDFP、IDFN是怎么获得的,具体的计算方法如下:
这些指标的提出是为了解决按匹配最大频率来评价所带来的问题(详见论文),文中建议测量性能,不是通过错误匹配发生的频率,而是通过跟踪器正确识别目标的时间。将轨迹匹配问题变成同一时刻点的匹配问题,这个二分匹配问题的最小成本解决方案决定了一对一的匹配,使累积的假阳性和假阴性误差最小化,总体成本是数字所有类型错误的错误分配检测。

首先了解要匹配的两个轨迹的错误评价指标,当两个同时检测τ(T)和γ(T)如果在t时刻它们在空间上不重叠,就是一个错误,错误评价指标为:
在这里插入图片描述
其中不重叠的判断是通过交集面积判断的,当两个检测盒的交集面积小于∆(0<∆<1)时,我们声明错过了两个检测盒的结合面积。
MOT和MTMC指标总结及详细计算方法_第7张图片
我的理解是AT表示GT的轨迹点集合,Tτ则指的是GT的轨迹所出现的所有时间点集合,AC表示与GT匹配计算的轨迹的轨迹点集合,Tγ则指的是GT匹配计算的轨迹所出现的所有时间点集合。每个(τ,γ)匹配都是一个真正ID(IDTP)。每个(fγ,γ)匹配都是假阳性ID(IDFP)。 每个(τ,fτ)匹配都是假阴性ID(IDFN)。

IDF1,IDP、IDR越接近于1,说明id匹配的效果越好。这个指标也常用于MTMC中来评定多个摄像头下的id匹配情况。

*9、MCTA:跨摄像头跟踪准确度(Multi-camera Tracking Accuracy)
MCTA是衡量多个摄像头下跟踪的准确度是目前少有的专门用来衡量多摄像头跟踪性能的评价指标。公式为:
在这里插入图片描述
其中P,R为检测中的精准度和回召率,Mw是单相机内行人ID的错误匹配数,Tw是单相机内(标注)正确检测数,GT,Mh是跨相机行人ID的错误匹配数,Th是指跨相机(标注)正确检测数(即某个目标从某个相机中消失而下次再出现在另外一个相机的情况)。同样MCTA的值约接近与1,性能越好。

参考文献:
[1] https://zhuanlan.zhihu.com/p/132578992
[2] MOT16: A Benchmark for Multi-Object Tracking: https://arxiv.org/pdf/1603.0083
[3] Ristani, E., Solera, F., Zou, R., Cucchiara, R. & Tomasi, C. “Performance Measures and a Data Set for Multi-Target, Multi-Camera Tracking” https://users.cs.duke.edu/~rist
[4] Evaluating Multiple Object Tracking Performance: The CLEAR MOT Metrics
https://publikationen.bibliothek.kit.edu/1000026323/2020897
[5] https://zhuanlan.zhihu.com/p/35391826

你可能感兴趣的:(MTMC,目标跟踪,深度学习,算法,计算机视觉)