融合算法性能评价指标

前言

    多目标跟踪器的性能需要某些指标来进行度量,目前使用比较广泛的评测指标主要有 Bernardin 等人定义的 CLEAR MOT 指标、Ristani 等人定义的 ID scores 指标以及最新的 Luiten 等人定义的HOTA 指标。

一、基础的评测指标

1.1 ID Switches (ID Sw.)

    被跟踪目标身份发生错误地更改时被称为身份跳变。在对视频序列的跟踪过程当中,ID Sw.表示所有跟踪目标身份交换的次数。

1.2 Frames Per Second (FPS)

    多目标跟踪器的跟踪速度。

1.3 False Positives (FP)

    在视频序列中不能与真实轨迹的边界框相匹配的假设边界框被称为假阳性;即本来是假的,预测认为是真的。FP 表示整个视频序列中假阳性的数量。

1.4 False Negatives (FN)

    在视频序列中不能与假设边界框相匹配的真实轨迹的边界框被称为假阴性;即本来是真的,预测认为是假的。FN 表示整个视频序列中假阴性的数量。

1.5 Mostly Tracked tracklets (MT)

    在跟踪过程中各个目标至少有 80%的视频帧都能被正确地跟踪的跟踪轨迹数量。

1.6 Mostly Lost tracklets (ML)

    在跟踪过程中各个目标至多有 20%的视频帧能被正确地跟踪的跟踪轨迹数量。

1.7 Fragments (Frag)

    真实跟踪轨迹由于某种原因发生中断并在后来又继续被准确跟踪上被称为跟踪碎片。Frag 表示整个视频序列中碎片的总数。

    以上 7 种评测指标主要度量多目标跟踪器的基础性能,其中加粗的比较常用;为了进一步评判多目标跟踪器的综合性能,出现了其他指标。

二、MOTA 和 MOTP

    CLEAR MOT 指标提出了多目标跟踪精度MOTA和多目标跟踪准确度MOTP 两个综合性的指标,这两个指标能够衡量多目标跟踪器在整体上的性能好坏。

2.1 MOTA:多目标跟踪准确度

    MOTA除了误报(FP)、丢失目标(FN)、ID异常切换(ID Sw.)情况以外的正确预测样本占所有样本的比率,衡量了跟踪器在检测目标和保持轨迹时的性能,与目标位置的估计精度无关。多目标跟踪准确度的分数 MOTA如下计算:

融合算法性能评价指标_第1张图片

    mt表示整个视频序列中假阳性的数量(FN),fpt表示整个视频序列中假阴性的数量(FP),mme t表示跟踪过程中身份交换的数量(ID Sw.),gt表示整个视频序列当中真实目标的数量。

    这里 MOTA的分数可能为负数,因为假阴性、假阳性和身份跳变的数量可能会大于视频序列中真实目标的数量。

2.2 MOTP:多目标跟踪精度

    MOTP默认检测框重合度阈值下正确预测的目标与预测目标总数之比,衡量检测器的定位精度。.多目标跟踪精确度的分数 MOTP 如下计算:

融合算法性能评价指标_第2张图片

    ct 表示为在第 t 帧时候总共匹配的数量,d 表示假设边界框与真实边界框之间的距离值。

三、IDP、IDR、IDF

    为了判断多目标跟踪器是否能够长时间地对某个目标进行准确地跟踪,ID scores 指标引入了 IDF  (Identification  F1) , IDP  (Identification  Precision) 和 IDR (Identification Recall)指标并添加到多目标跟踪中,以衡量跟踪器的身份维持能力。

3.1 IDP:识别精确度

    整体评价跟踪器的好坏,识别精确度 IDP 的分数如下进行计算:

融合算法性能评价指标_第3张图片 

3.2 IDR:识别召回率

    它是当IDF1-score最高时正确预测的目标数与真实目标数之比,识别召回率 IDR 的分数如下进行计算:

融合算法性能评价指标_第4张图片

3.3 IDF1:平均数比率

    IDF1是指正确的目标检测数与真实数和计算检测数和的平均数比率,这里, IDF1的分数如下进行计算:

融合算法性能评价指标_第5张图片

      上述公式中,IDTP 可以看作是在整个视频中检测目标被正确分配的数量,IDFN 在整个视频中检测目标被漏分配的数量,IDFP 在整个视频中检测目标被错误分配的数量。

四、HOTA 更高维跟踪精度

    基于多目标跟踪准确度(MOTA)的基础上,HOTA 指标引入了更高维跟踪精度指标,能够更加全面、更加均衡地衡量多目标跟踪器的性能。

    HOTA:更高维跟踪精度;HOTA的分数计算过程由多个部分组成,更加重视目标检测和数据关联精度的平均性衡量。主要计算如下:

融合算法性能评价指标_第6张图片

      A表示数据关联分数。TP 则表示在整个视频中检测目标被正确跟踪的数量。

五、MOT Challenge 多目标跟踪

    官网地址:https://motchallenge.net/

    这里有多目标跟踪的竞赛,可以看看有哪些评价指标,以及评价指标是如何计算的。这里有多个数据集,比如MOT2017。

融合算法性能评价指标_第7张图片

 

    MOT Challenge 是应用在多目标跟踪中最常见的数据集,它专门用于行人跟踪的场景,这些数据集目前已公开提供。对于每个数据集都提供了训练数据和测试数据,其中训练数据提供了目标检测结果和真实的跟踪结果,而测试数据只提供目标检测的结果。截至目前,MOT Challenge 数据集包含了MOT15,MOT16/MOT17,MOT20等子数据集。

六、KITTI多目标跟踪

    官网地址:http://www.cvlibs.net/datasets/kitti/eval_tracking.php

    这里也有多目标跟踪的竞赛,可以看看有哪些评价指标,以及评价指标是如何计算的。

融合算法性能评价指标_第8张图片

 

七、综合评价指标

    综上,融合算法的评价指标可以分为三类,第一类为基本性能,主要为时间复杂度和空间复杂度;第二类为准确性,可分别用MOTA和MOTP表示;第三类为响应速度,为目标出现后发现目标的时间和目标消失后删除目标的时间,。

    从工程应用角度,还有第四类指标,对环境、天气的适应能力,比如在光线昏暗和下雨时目标跟踪的性能,以此测评融合算法综合性能。

八、场景数据集和测试方法

    类似KITTI等数据集,MOTA 指标可通过采集数据并标注的方法进行统计分析,但MOTP则必须获取目标真值数据,需要特定真值设备。考虑到数据采集和标注等具体工作情况,提出如下方法:

8.1 外场数据采集和目标标注

    采集典型外场数据,并对数据进行目标级标注,标注内容包括目标出现时间、目标ID、目标数量、目标消失时间等。

    考虑到标注工作量,应当选择多目标场景,目标清晰可分辨且数量有限,覆盖多种场景和多种天气。

融合算法性能评价指标_第9张图片

不同天气情况下的道路场景

8.2 内场数据采集和真值标注

    设计典型场景,可参考iVISTA测评场景,选取合适场地和真值设备,采集内场数据,同时记录真值数据。将融合结果和真值数据对比可评价跟踪精度能力。

融合算法性能评价指标_第10张图片

iVista定义的典型场景

参考资料

3D Multi-Object Tracking:A Baseline and New Evaluation Metrics

MOT16:A Benchmark for Multi-Object Tracking

HOTA:A Higher Order Metric for Evaluating Multi-object Tracking

Evaluating Multiple Object Tracking Performance: The CLEAR MOT Metrics

https://blog.csdn.net/qq_41204464/article/details/122664366

多目标跟踪的评价指标 - 一只有恒心的小菜鸟 - 博客园

GitHub - cheind/py-motmetrics: Benchmark multiple object trackers (MOT) in Python

多目标跟踪评价指标 - 知乎

https://github.com/hailanyi/3D-Multi-Object-Tracker/tree/master/evaluation_HOTA

你可能感兴趣的:(算法,目标跟踪,人工智能)