OTB和VOT的评估指标

  1. OTB跟踪评价指标
    OTB:online object tracking Benchmark,其中主要使用两类评价指标,一类是平均像素误差average pixel error(APE),第二类是平均重叠率average overlap rate(AOR)。
    (1)ARE average pixel error
    平均像素误差是根据预测目标中心位置和真实位置的像素距离作为误差值,该值越大说明误差越大。最后结果是对视频序列所有帧取平均值。
    (2)AOR average overlap rate
    平均重叠率是用面积比率来衡量的
    O=At⋂Agt/At⋃Agt
    (3)Precision plot: percentages of frames whose estimated locations lie in a given threshold distance to ground-truth centers.
    像素误差率(ARE)和平均重叠率(AOR)都可以叫做成功率图。还有一种成功率图,也就是鲁棒性成功率图,又分为时间鲁棒性和空间鲁棒性,不过都没有不测试鲁棒性厉害,即叫做一遍成功率。
    OTB对时间鲁棒性的测试是通过视频序列在时间轴上平均找出20个点作为起点,终点还是原来的最后一帧,这样通过对20段视频序列运行算法,绘制平均的重叠率图或者像素误差图,即完成了空间鲁棒性的测试。
    空间鲁棒性:
    空间鲁棒性和时间鲁棒性一样,取一段视频的第一帧,以真实位置稍作偏移,就是说测试初始化位置有偏差的目标序列,这样测试12段(8个方向,四个尺度),这样就可以得到12和视频序列的评价成功率曲线,也就是空间鲁棒性曲线。

追踪算法估计的目标位置(bounding box)的中心点与人工标注(ground-truth)的目标的中心点,这两者的距离小于给定阈值的视频帧的百分比。不同的阈值,得到的百分比不一样,因此可以获得一条曲线。一般阈值设定为20个像素点。
该评估方法的缺点:无法反映目标物体大小与尺度的变化。
比如一个视频有101帧,追踪算法预测的bounding box中心点与ground-truth中心点距离小于20像素有60帧,其余40帧两者距离均大于20个像素,则当阈值为20像素时,精度为0.6。
KCF追踪算法论文中给出的曲线如下:
OTB和VOT的评估指标_第1张图片
(4)Success Plot: Let rt denote the area of tracked bounding box and ra denote the ground truth. An Overlap Score (OS) can be defined by S = |rt∩ra| |rt∪ra| where ∩ and ∩ are the intersection and union of two regions, and | · | counts the number of pixels in the corresponding area. Afterwards, a frame whose OS is larger than a threshold is termed as a successful frame, and the ratios of successful frames at the thresholds ranged from 0 to 1 are plotted in success plots.
首先定义重合率得分(overlap score,OS),追踪算法得到的bounding box(记为a),与ground-truth给的box(记为b),重合率定义为:OS = |a∩b|/|a∪b|,|·|表示区域的像素数目。当某一帧的OS大于设定的阈值时,则该帧被视为成功的(Success),总的成功的帧占所有帧的百分比即为成功率(Success rate)。OS的取值范围为0~1,因此可以绘制出一条曲线。一般阈值设定为0.5。
MDNet追踪算法中precision plots和Success plots如下:
在这里插入图片描述
(5)鲁棒性评估
时间鲁棒性评估temporal robustness evaluation (TRE)
空间鲁棒性评估spatial robustness evaluation (SRE)

1)Temporal robustness evaluation:Each tracking algorithm is evaluated numerous times from different starting frames across an image sequence. In each test, an algorithm is evaluated from a particular starting frame, with the initialization of the corresponding ground-truth object state, until the end of an image sequence. The tracking results of all the tests are averaged to generate the TRE score.
在一个图片/视频序列中,每个跟踪算法从不同的帧作为起始进行追踪(比如分别从第一帧开始进行跟踪,从第十帧开始进行跟踪,从第二十帧开始进行跟踪等),初始化采用的bounding box即为对应帧标注的ground-truth。最后对这些结果取平均值,得到TRE score。
2)Spatial robustness evaluation: To evaluate whether a tracking method is sensitive to initialization errors, we generate the object states by slightly shifting or scaling the ground-truth bounding box of a target object. In this work, we use eight spatial shifts (four center shifts and four corner shifts), and four scale variations (see Fig. 2). The amount for shift is 10 percent of the target size, and the scale ratio varies from 80 to 120 percent of the ground truth at the increment of 10 percent. The SRE score is the average of these 12 evaluations.
由于有些算法对初始化时给定的bounding box比较敏感,而目前测评用的ground-truth都是人工标注的,因此可能会对某些跟踪算法产生影响。因此为了评估这些跟踪算法是否对初始化敏感,作者通过将ground-truth轻微的平移和尺度的扩大与缩小来产生bounding box。平移的大小为目标物体大小的10%,尺度变化范围为ground-truth的80%到120%,每10%依次增加。最后取这些结果的平均值作为SRE score。
(3)One-pass evaluation with restart (OPER)。在跟踪期间,如果跟踪失败,那么就在下一帧重新初始化然后再跟踪,其余与OPE一样。
(4)Spatial robustness evaluation with restart (SRER)。同理。
跟踪失败后重新初始化再跟踪的原因就是为了方便更好的评估、分析跟踪算法的优缺点,跟踪算法在什么情况下会失败等特点。
2.VOT跟踪评价指标
(1)中心误差:Center Error
中心误差标准值考虑目标中心位置的误差,该方法具有明显的缺点,就是无法衡量目标尺度变化的影响。另外,目标中心的意义有时候不是很明确(如下图)。
(2)区域重叠:Region Overlap
区域的重叠率是使用重叠面积的比例进行衡量的。在区域重叠指标上,我们一般使用有效帧的重叠率做平均。除此之外,我们还可以使用重叠率阈值以上帧的比例作为标准。
(3)跟踪长度:Tracking Length
这一指标是基于中心位置误差的,从跟踪开始到中心像素误差下降到阈值以下的(帧数)长度定义为跟踪长度。
(4)VOT评价指标EAO
EAO评价指标,即期望平均覆盖率。A指精度计算。具体来说就是统计每帧预测的bbox,并计算bbox和ground truth之间的交并比,然后计算整个视频序列交并比的平均值。
A是Accuracy用来评价tracker的跟踪目标的准确度,数值越大,准确度越高。因为其值表示第t帧bbox对应的gt。其中第t帧上准确率的计算和第i个跟踪器在第t帧上重复跑的次数有关。如果跑的次数越少则值就越大,因为这表示跟踪器还比较准确,如果重复跑很多次,则表明跟踪精度不高(A值当然也较小)。
R指的是每个视频跟踪跟丢的次数,然后计算失败率,R被认为与A相关性最小的一个度量,失败率与跟丢次数正相关。失败次数即每帧预测的bbox和gt的交并比为0,则判定为跟踪帧失败。在VOT 中VOT tool会在5帧之后重新初始化跟踪器。EAO则不是直接用A和R计算的。
R就是robustness,用来评价跟踪器的稳定性,数值越大,稳定性越差。因为R值表示跟丢次数。
(5)VOT评价指标EFO
EFO评价指标得到了减少平台和编程语言等外在因素对跟踪器的外在影响。在利用VOT toolkit评价tracker之前,先计算在600600的灰度图像上用3030的最大值滤波器进行滤波所用的时间,以此得出一个基准单位,再用这个基础单位衡量跟踪器的速度。
(6)VOT特色评价指标–排名机制(rank-based)
tracker在不同属性序列上的表现安装accuracy和robustness分别进行排名,再进行平均,得到tracker的综合排名,根据这个综合排名的数字大小对tracker进行排序得出最后排名。
具体操作是:
首先是跟踪器在同一属性的视频序列下进行测试,对得到的数据进行加权平均,每个数据的权重为对应序列的长度,由此得到单个tracker在该属性下视频序列的数据,然后对不同跟踪器在该属性序列下进行排名,得到单个tracker在所有属性序列下的排名后,求其平均值得到AR rank。

---------多目标跟踪评价指标-------------
多目标跟踪,设置的的是一种比较客观的评价指标。假设当

前帧是第t帧,则多个跟踪器输出一系列位置假设h1、h2、h3、h4、h5…,当前跟踪目标还有O2、O3、O4、O5…:
实现跟踪目标和当前帧的位置假设的匹配,找到hi和Oj之间的对应;然后依次找到每个目标的对应,然后计算假设位置和真实位置之间的误差;最后计算所有的匹配误差。(误差分为三种:统计丢失目标丢失的个数/又称缺失数:即在当前帧中没有该目标的假设位置,也就是对于目标i没有找到该目标的假设位置;
统计假设位置未匹配个数/又称误判数:即 给出的位置假设没有跟踪目标可以与之对应;
统计匹配误差数/又称误配数:该问题多发生在多目标位置过近导致遮挡的情况)

跟踪精度:用于衡量目标位置确定的精确程度;
跟踪准确度,用于统计在目标跟踪中的误差累计情况,包括缺失数、误判数、误配数等。

你可能感兴趣的:(目标跟踪知识点)