目标跟踪的评价指标

目标跟踪的评价指标

一、单目标跟踪的评价指标

1.Precision plot

追踪算法估计的目标位置(bounding box)的中心点与人工标注(ground-truth)的目标的中心点,这两者的欧式距离小于给定阈值的视频帧的百分比。不同的阈值,得到的百分比不一样,因此可以获得一条曲线。一般阈值设定为20个像素点。

缺点: 没有考虑到目标的大小,导致小目标即使预测框与Ground Truth框相距较远,但它们的欧式距离仍在20像素内。(需要归一化

KCF追踪算法论文中给出的曲线如下:
目标跟踪的评价指标_第1张图片

2.Success Plot

首先定义重合率得分(overlap score,OS),追踪算法得到的bounding box(记为a),与ground-truth给的box(记为b),重合率定义:
O S = ∣ a ∩ b ∣ ∣ a ∪ b ∣ OS ={|a∩b|\over|a∪b|} OS=abab
|·|表示区域的像素数目。当某一帧的OS大于设定的阈值时,则该帧被视为成功的(Success),总的成功的帧占所有帧的百分比即为成功率(Success rate)。OS的取值范围为0~1,因此可以绘制出一条曲线。一般阈值设定为0.5。

MDNet追踪算法中precision plots和Success plots如下:
目标跟踪的评价指标_第2张图片
以上两种常见的评估方式一般都是用ground-truth中目标的位置初始化第一帧,然后运行跟踪算法得到平均精度和成功率。这种方法被称为one-pass evaluation (OPE)。这种方法有2个缺点:

  1. 一个跟踪算法可能对第一帧给定的初始位置比较敏感,在不同位置或者帧初始会造成比较大的影响。
  2. 大多数算法遇到跟踪失败后没有重新初始化的机制。

针对上述两个问题,又提出以下几种评估方法。

鲁棒性评估

通过从时间(temporally,从不同帧起始)和空间(spatially,不同的bounding box)上打乱,然后进行评估。可以分为:temporal robustness evaluation (TRE) 和 spatial robustness evaluation (SRE)。

TRE(Temporal robustness evaluation)

在一个图片/视频序列中,每个跟踪算法从不同的帧作为起始进行追踪(比如分别从第一帧开始进行跟踪,从第十帧开始进行跟踪等),初始化采用的bounding box即为对应帧标注的ground-truth。最后对这些结果取平均值,得到TRE score。

SRE(Spatial robustness evaluation)

由于有些算法对初始化时给定的bounding box比较敏感,而目前测评用的ground-truth都是人工标注的,因此可能会对某些跟踪算法产生影响。因此为了评估这些跟踪算法是否对初始化敏感,作者通过将ground-truth轻微的平移和尺度的扩大与缩小来产生bounding box。平移的大小为目标物体大小的10%,尺度变化范围为ground-truth的80%到120%,每10%依次增加。最后取这些结果的平均值作为SRE score。
C-COT跟踪算法中针对 Overlap 的 TRE 和 SRE plot 如下:
目标跟踪的评价指标_第3张图片

二、多目标跟踪的评价指标

1.MOTA(Multi-Object Tracking Accuracy)

首先需要了解的是:

  • fragmentation是在第t帧当中发生的ID分配错误(ID switch)。也就是说,如果在ground truth第j个轨迹的第t帧之前,跟踪器(tracker)把该轨迹的ID都预测正确了,但是第t+1帧预测错误了,那么ID switch的个数+1,值得注意的是,即使第t+1帧之后跟踪器仍然把该轨迹的ID预测错误了,但是错误的ID为同一个,那么ID switch个数不会增加。举个直观一点的例子,假设周杰伦在第1帧的时候走入镜头,在第100帧的时候走出镜头,跟踪器的boungding box一直能够跟上,但是在第50帧的时候把周杰伦识别成了彭于晏,那么这100帧内ID switch的个数为1。假设第t帧中ID switch的个数为Φt,那么所有帧的个数为Φ = ∑t Φ t
  • false positive 指的是在第t帧中,跟踪器检测到了的bounding box但是在ground truth中却不存在bounding box的个数。
  • false negative 指的是在第t帧中,跟踪器漏检了的bounding box但是在ground truth中存在bounding box的个数。
  • true positive 指的是在第t帧中,跟踪器和ground truth同时都有的bounding box。
  • 大写的TP , FP , FN 就是true positive, false positive, false negative在所有帧中的总和(注意,只考虑bounding box,没有考虑bounding box的ID,也就是说,只要框住了就算TP,ID错了也算TP)。
    M O T A = 1 − F N + F P + Φ T MOTA={1-{FN+FP+Φ\over{T}}} MOTA=1TFN+FP+Φ
    其中T指的是ground truth中bounding box的数量。可以看出,MOTA其实是对FN、FP、Φ进行了惩罚,然后又利用T进行正则。

2.IDF1

I D P = I D T P I D T P + I D F P IDP = {IDTP\over{IDTP+IDFP}} IDP=IDTP+IDFPIDTP
I D R = I D T P I D T P + I D F N IDR={IDTP\over{IDTP+IDFN}} IDR=IDTP+IDFNIDTP
I D F 1 = 2 I D T P 2 I D T P + I D F P + I D F N IDF1={2IDTP\over{2IDTP+IDFP+IDFN}} IDF1=2IDTP+IDFP+IDFN2IDTP
IDP其实就是ID+Precision,这里的IDP其实就是把每个ID当作单独的一类去计算Precision,同理,IDR则对应ID+Recall,IDF1则对应ID+F1 score,IDF1本质上没有什么实际物理含义,只是对IDP和IDR的一个调和平均。

你可能感兴趣的:(目标跟踪,计算机视觉,算法)