论文地址:https://arxiv.org/abs/1409.7618
参考中文翻译:https://blog.csdn.net/yuhq3/article/details/78742658
多目标跟踪(MOT)是一个重要的计算机视觉问题,由于其巨大的学术和商业潜力,引起了越来越多的关注。尽管已经有许多不同的方法来解决这个问题,但是由于诸如突然的外观变化和严重的物体遮挡等因素,这个问题仍然具有巨大的挑战性。在这项工作中,我们对这个问题进行了第一次全面和最新的回顾。我们从各个方面考察了最近的进展,并提出了一些有趣的研究方向。据我们所知,在多目标跟踪领域内没有对其进行任何广泛的评论。我们努力对多目标跟踪问题近几十年来的发展进行彻底的回顾。
本综述的主要内容分为以下四个方面:1)多目标跟踪系统的关键环节,包括构想、类别、核心算法、对多目标跟踪的性能评估。2)我们依据不同的方面来讨论现有的方法,每一种方法都被分组,每组都要对算法、优点和缺点进行详细讨论。3)我们对已发布的放进进行实验测试,并对其在流行数据集上运行的结果进行总结,以得到定量比较。我们还通过分析这些结果来得出一些有趣的发现。4)我们对多目标跟踪研究的问题进行讨论,并提出一些可能成为未来研究工作的有趣方向。
本综述主要对行人跟踪进行总结讨论,主要原因有三:1)相比于自然界中的其他物体,行人是典型的非刚性物体,是理想的多目标跟踪研究对象;2)以行人为主要关注对象的视频视觉应用具有更大的商业潜力;3)目前至少有70%的多目标研究工作都致力于行人跟踪问题。
除了单目标跟踪SOT主要设计复杂的外观模型、运动模型来解决诸如尺度变化、旋转扭曲和光照变化等问题,多目标跟踪额外还要两个问题,一是确定目标的个数,这是随着时间变化的,二是维护目标的ID。
1.1 与其他相关综述文献的区别
与多目标跟踪相关的文献综述有很多,主要分为以下几类:
类型1:跟踪作为整个系统一个独立的部分,这样的系统有群体建模分析、行为识别、视频监控等;
类型2:通用视觉跟踪技术,综述范围更宽,本文更加注重于多目标跟踪;
类型3:讨论通用视觉跟踪和多目标跟踪的基准,重点在于实验研究而不是文献综述。
1.2 我们的贡献
(1)联合现有的多目标跟踪方法,我们总结得到了一个多目标跟踪问题统一的解决程式,并将其分为两大类不同的方法;
(2)我们研究了多目标跟踪问题不同的关键环节,深入讨论其中每个环节的不同方面,详细总结了它们的方法和优缺点;
(3)列出了不同方法在流行数据集上的实验结果对比,通过研究实验结果发现了一些有趣的结论;
(4)通过总结多目标跟踪综述文献,总结了当前多目标跟踪研究中存在的问题,讨论了一些可行的未来研究方向。
2.1 问题流程
通常,多目标跟踪可以被看作是一个多变量估计问题。多目标跟踪的目标是找出所有目标的最优状态序列,通过所有观测基础上的状态序列条件分布进行MAP(maximal a posteriori)估计获得。不同的方法可以被看作是设计不同的方法解决MAP问题,或者是基于概率预测的,或者是基于决策优化的。
2.2 多目标跟踪方法分类
根据以下三方面的不同对跟踪方法进行分类:1)初始化方法;2)处理模式;3)输出类型。
2.2.1 初始化方法
根据目标是如何初始化可将多目标跟踪分为两类:Detection-Based Tracking (DBT) and Detection-Free Tracking (DFT)。
Detection-Based Tracking (DBT):目标首先被检测出来然后连接得到轨迹。给定一个视频序列,每一帧进行特定类型的目标检测或运动检测(基于背景建模)得到目标假设,将检测假设连接得到的轨迹完成跟踪过程。有两个问题需要明确,一是由于目标检测器需要提前训练,大部分DBT跟踪算法只关注特定类型的目标如行人、车辆或人脸,二是DBT跟踪算法的性能主要依赖于所使用的目标检测器的性能。
Detection-Free Tracking (DFT):在视频的第一帧手动初始化一定数量的待跟踪目标,然后在后续的视频帧中定位并锁定这些目标。
DBT是目前更流行的跟踪策略,跟踪场景中的新目标出现和消失均可以被自动检测到。DFT不能解决目标消失的问题,但是可以省去目标检测器的预训练过程。
2.2.2 处理模式
根据处理模式不同可以将多目标跟踪分为在线跟踪 Online tracking 和离线跟踪 Offline tracking。主要区别是,当在处理当前帧时,其后几帧能否被利用到,在线模式只能利用直到当前帧的信息,离线模式还可以使用未来帧的信息。离线跟踪利用了一组帧来处理数据。
2.2.3 输出类型
根据输出的随机性,可将多目标跟踪方法分为基于决策的方法和基于概率的方法。无论运行该方法多少次,基于决策的跟踪输出是恒定不变的,而基于概率的跟踪则会产生不同的结果输出。
在设计MOT算法时,两个主要问题需要考虑,一是如何衡量帧内不同目标间的相似度,二是基于帧间目标间的相似度衡量如何进行目标匹配。前者主要包括外观、运动、交叉、排斥和碰撞的建模问题,后者主要和数据关联有关。
3.1 外观模型
与单目标跟踪主要关注构建一个复杂的外观模型将目标与背景区分开来不同,多目标跟踪并不将外观建模作为算法的核心部分。
外观模型包括两部分:视觉表示和统计度量,前者通过单一特征或多特征描述一个物体的视觉特征,后者是不同目标间的相似度计算。
3.1.1 视觉表示
如图3为各种利用不同特征的视觉描述方法。
Local features:
Region features,主要提取自 bounding box 中,按照计算时像素值被计算的次数进行划分:
Others:深度特征、概率占据图POM(Probabilistic Occupancy Map)。
Discussion
3.1.2 统计度量
基于上一步的视觉表示,统计度量计算两个目标间的相似度(affinity),其中又可分为单线索 single cue 和多线索 multiple cues 方法。
Single cue:或者将距离转换为相似度,或者直接计算相似度。
Multiple cues:
3.2 运动模型
运动模型捕获目标的动态行为,可以估计目标在未来帧中的潜在位置,缩小搜索的范围。我们认为现实中的目标是平缓移动的。
3.2.1 线性运动模型
线性运动模型是目前最流行的模型,通常假设目标是匀速运动的:
3.2.2 非线性运动模型
3.3 交互模型
3.3.1 社会力模型
3.3.2 人群运动模式模型
3.4 排斥模型
3.4.1 检测层面的排斥
3.4.2 轨迹层面的排斥
3.5 遮挡处理
3.5.1 部分到整体
该策略是建立在目标的一部分仍是可见这个假设上的。流行的方法是将目标整体分割成若干部分,依据各个部分计算相似度。当发生目标遮挡时,跟踪器使用未遮挡的部分进行估计。
3.5.2 假设与测试
该策略并不正面处理这档问题,而是通过假设然后根据观测目标去验证假设。
3.5.3 缓冲与恢复
3.6 预测
3.6.1 概率预测 - 适用于在线跟踪
概率预测模型:卡尔曼滤波、扩展卡尔曼滤波、粒子滤波。
卡尔曼滤波主要适用于线性系统和服从高斯分布的目标状态;扩展卡尔曼滤波通过泰勒展开进行估计,进一步适用于非线性系统;粒子滤波(Particle filter)。
3.6.2 确定性优化 - 适用于离线跟踪
Bipartite graph matching:将MOT问题建模成偶图匹配。贪心偶匹配算法、匈牙利优化算法。
Dynamic Programming:扩展动态规划、线性规划、二次布尔规划、最短K路径、集合覆盖等,都是用于解决检测目标与轨迹之间关联问题的方法。
Min-cost max-flow network flow
Conditional random field
MWIS
3.6.3 讨论
尽管概率预测方法通常是更直观完整的解决方案,确定性优化或能量最小化方法比概率预测方法更加常用。能量最小化方法可以在合理的时间内得到足够好的结果。
4.1 评价指标
4.2 数据集
4.3 开源算法
4.4 基准结果