多目标追踪综述阅读(2021)

主要对腾讯近期发表的多目标追踪文献综述进行一个阅读和总结,文章链接如下:

https://doi.org/10.1016/j.artint.2020.103448

(只对重点部分进行翻译和总结)

Multiple object tracking: A literature review

摘要

        本文的主要工作有以下四方面:1)讨论了MOT体系的制定、分类、关键原则、评价等关键问题;2)我们不是列举单个的作品,而是从各个方面来讨论现有的方法,每一种方法都分为不同的组,并详细讨论每一组的原理、优缺点;3)我们检查了现有出版物的实验,并总结了流行数据集的结果,以提供定量和全面的比较。通过从不同角度分析结果,验证了该领域的一些基本共识;4)对MOT研究中存在的问题进行了讨论,并提出了一些值得关注的研究方向。

1 Introdution

        多目标跟踪(MOT)或多目标跟踪(MTT)在计算机视觉中起着重要的作用。MOT的任务在很大程度上被划分为多个目标的定位,保持他们的身份,并根据一个输入视频给出他们的个人轨迹。本文的研究主要针对行人追踪,原因有三:首先行人是非刚性物体,是研究MOT的理想例子。第二,行人视频的大量实际应用,拥有巨大的商业潜力。第三,行人数据集容易获取。

        多目标跟踪是计算机视觉中的一种中级任务,是基于姿态估计、动作识别、行为分析等高级任务的。它有许多实际应用,如视觉监控,人机交互和虚拟现实。这些实际需求引起了人们对这个话题的极大兴趣。单目标跟踪(Single Object Tracking, SOT)主要是设计复杂的外观模型和/或运动模型,以应对缩放变化、出平面旋转和光照变化等具有挑战性的因素。与此相比,多目标跟踪还需要解决两个任务:确定对象的数量(通常随时间变化),并维持它们的身份(ID)。除了SOT和MOT共同面临的挑战外,使MOT复杂化的其他关键问题包括:1)频繁遮挡,2)轨迹初始化和终止,3)外观相似,4)多目标之间的相互作用。为了处理所有这些问题,在过去的几十年里,人们提出了各种各样的解决办法。这些解决方案集中在MOT系统的不同方面,这使得MOT研究人员,特别是新手,很难获得对这个问题的全面理解。因此,在本工作中,我们提供了一个综述来讨论多目标跟踪问题的各个方面。

目录

(只对重点部分进行翻译和总结)

Multiple object tracking: A literature review

摘要

1 Introdution

2 MOT问题

2.1 问题表述

2.2 MOT分类

3 MOT组成

3.1 外观模型

3.2 运动模型

 3.3 交互模型

3.4 排斥模型

3.5 遮挡处理

3.6 推断

3.7 总结

 4 MOT评估

4.1 指标

4.2 数据集

 4.3 开源算法

 4.4 基准结果

 5 总结

5.1 存在的问题

5.2 未来方向


2 MOT问题

        我们首先努力给出MOT的一般数学公式。然后,我们讨论了基于不同方面的可能分类。

2.1 问题表述

        在这里,我们提供了一个通用的公式,并认为现有的方法可以统一在这个公式下。

         (公式部分太长不看,可以去原文中细读)

2.2 MOT分类

        根据多个标准对MOT方法进行分类:a)初始化方法;b)处理模式;c)输出类型

2.1.1 根据初始化方法的分类

         分为检测追踪无检测追踪

         (1)检测追踪

        首先检测对象,然后将其链接成轨迹。这种策略通常也被称为“检测跟踪”。给定一个序列,在每个帧中应用特定类型的目标检测或运动检测(基于背景建模)以获取目标,然后进行(顺序或批量)跟踪,将检测假设链接到轨迹中。目标检测器是预先训练好的,大多数DBT都聚焦于特定类型的目标,例如行人、车辆或人脸。其次,DBT的性能在很大程度上取决于所使用的目标检测器的性能。

        (2)无检测追踪

        无检测跟踪。如图1(底部)所示,DFT在第一帧中手动初始化固定数量的对象,然后在后续帧中定位这些对象。

多目标追踪综述阅读(2021)_第1张图片

         显然,DBT更受欢迎,因为新对象被发现,消失的对象被自动终止。DFT无法处理对象出现的情况。表3列出了DBT和DFT之间的主要区别。

多目标追踪综述阅读(2021)_第2张图片

 2.1.2 根据处理模式的分类

        MOT也可以分为在线追踪离线追踪。区别在于在处理当前帧时是否使用来自未来帧的观测。在线跟踪(也称为因果跟踪)方法仅依赖于当前帧之前可用的过去信息,而离线跟踪或批量跟踪方法则利用过去和未来的观察结果。

        (1)在线追踪

        在线跟踪中,图像序列以逐步方式处理,因此在线跟踪也称为顺序跟踪。图2显示了三个物体(不同的圆圈)a、b和c。绿色箭头表示过去的观察结果。结果由物体的位置和ID表示。根据最新的观测结果,动态生成轨迹。

        (2)离线追踪

            离线跟踪]使用一批帧来处理数据。如图2所示,需要提前获得所有帧的观测值,并进行联合分析以估计最终输出。注意,由于计算和内存的限制,不可能一次处理所有帧。另一种解决方案是将数据分割成较短的视频片段,并按层次或顺序推断每个批次的结果。表4列出了两种处理模式之间的差异。

多目标追踪综述阅读(2021)_第3张图片​ Fig. 2. An illustration of online (left) and offline (right) tracking.

2.2.3. 输出类型

        根据输出的随机性,该准则将MOT方法分为确定性方法和概率方法。

        (1)随机跟踪

        随机跟踪的输出结果随时间的变化而变化。例如,在无检测跟踪的情况下,如果我们使用粒子滤波器进行推理,包围盒的结果是不同的。这种差异是由于加工过程中粒子产生的随机性造成的。甚至在基于检测的跟踪中,也有一些研究还采用了最先进的单目标跟踪器来细化检测包围盒。这种方法在不同的运行时间也会导致不同的跟踪结果。

        (2)确定跟踪

        在多次运行时,确定性跟踪的输出是恒定的。例如,在逐检测跟踪的情况下,匈牙利算法等数据关联方法将产生确定性的跟踪结果。确定性跟踪通常与确定性优化相关联,以获得最终的输出。

多目标追踪综述阅读(2021)_第4张图片

3 MOT组成

        在本节中,我们将介绍MOT方法的主要组成部分。如上所述,MOT的目标是在单个帧中发现多个对象,并从给定序列中恢复连续帧(即轨迹)的身份信息。在制定MOT方法时,应考虑两个主要问题。一个是如何度量帧内对象之间的相似性,另一个是如何基于跨帧对象之间的相似性度量来恢复身份信息。粗略地说,第一个问题涉及外观、运动、交互、排斥和遮挡的建模。第二个问题涉及推理问题。我们在下文中回顾了这两个项目的最新进展。

3.1 外观模型

        外观是MOT中相似度计算的一个重要线索。然而,不同于单目标跟踪主要是构建复杂的外观模型来从背景中识别目标,大多数MOT方法并不把外观建模作为核心部分。

        在技术上,外观模型包括两个部分:视觉表示和统计测量。视觉表示是利用某些特征描述物体的视觉特征,这些特征可以基于单个线索,也可以基于多个线索。另一方面,统计度量是计算不同观察值之间的相似性。

3.1.1 视觉表征

        视觉表征根据不同的特征来描述一个对象,我们将特征分为以下不同的类别。

        (1)局部特征

        KLT是搜索“良好”局部特征和跟踪的一个例子。SOT和MOT都成功地采用了该方法。为了获得易于跟踪的特征,我们可以利用它们生成短轨迹,估计摄像机运动,运动聚类等等。如果我们将图像像素视为最精细的局部范围,光流也可以视为局部特征。MOT的一组解决方案利用光流在数据关联之前将检测响应链接成短轨迹。由于它与运动有关,因此被用来编码运动信息。光流的一个特殊应用是发现拥挤场景中的人群运动模式,在这些场景中,普通特征不可靠。

        (2)区域特征

        与局部特征相比,区域特征的提取范围更广(例如边界框)。我们将其分为三种类型:a)零阶型,b)一阶型c)二阶型。在这里,阶是指计算表示时的差异顺序。例如,零阶意味着不比较像素的值,而一阶意味着只计算一次像素之间的差异值。

多目标追踪综述阅读(2021)_第5张图片 各种视觉特征的图示。(a) 光流(b)协方差矩阵(c)点特征(d)基于梯度的特征(HOG)
(e)深度(f)颜色特征

        (3)其他特征

         除了局部和区域特征,还有一些其他类型的表示。以深度为例,它通常用于完善检测假设。概率占用图(POM)用于估计一个物体在特定网格单元中出现的可能性。另一个例子是步态特征,这是个人独有的。DCNN[94]p l a y是一个类似于单词包(BoW)的码本角色。颜色名称描述符用于外观表示。有些研究中采用了卷积神经网络(CNN)的深层特征进行视觉表示。在[99]中,点云特征首次被引入MOT中进行特征融合。

        (4)总结

        一般来说,颜色直方图是一种研究得很好的相似性度量,但它忽略了目标区域的空间布局。局部特征是有效的,但对遮挡和平面外旋转等问题敏感。基于梯度的特征(如HOG)可以描述对象的形状,并对某些变换(如照明变化)具有鲁棒性,但它们不能很好地处理遮挡和变形。区域协方差矩阵特征在考虑更多信息时更加稳健,但这一优势是以更多计算为代价的。深度特征使亲和性的计算更加精确,但它们需要相同景物的多个视图或额外的算法来获得深度测量。

3.1.2 统计测量

       基于视觉表征信息,统计度量计算两个观测值之间的相似度。有些方法仅依赖于一种特征,一些方法基于多种特征。

        (1)单一特征

        用单一线索进行外观建模要么将距离转换为相似性,要么直接计算相似性。例如,基于上述原始像素模板的表示,通常采用归一化互相关(NCC)来计算两个对应像素之间的相似性。对于颜色直方图,Bhattacharyya距离B(·,·)用于计算两个颜色直方图ci和Cj之间的距离。该距离被转换为相似性S,或将距离拟合为高斯分布,如[40]。将相异性转化为似然也应用于协方差矩阵的表示。一些研究中使用了神经网络深度特征之间的余弦相似性。除了这些典型模型外,还有人采用了基于点特征表示的词袋模型。

        (2)多种特征

        不同类型的特征可以相互补充,使外观模型更加健壮。主要有以下五种:Boosting, Concatenating, Summation, Product, 和 Cascading。

        Boosting:通常通过基于Boosting的算法从特征库中依次选择一部分特征。例如,分别使用颜色直方图、HOG和协方差矩阵描述符、AdaBoost、RealBoost和HybridBoost算法来选择最具代表性的特征,以区分同一对象和不同对象的轨迹。

        Concatenation:不同类型的特征可以连接起来进行计算。比如:颜色、HOG和光流被连接起来用于外观建模。

        Summation:该策略从不同的功能中获取相似性值,并用权重来平衡这些值。

         Product:与上述策略不同的是,将值相乘以产生综合相似性。注意,在应用此策略时,通常会做出独立性假设。

        Cascading:这是一种级联方式,使用各种类型的视觉表示,或缩小搜索空间或以从粗到细的方式显示模型。

多目标追踪综述阅读(2021)_第6张图片

 

3.2 运动模型

        运动模型捕捉对象的动态行为。它估计对象在未来帧中的潜在位置,从而减少搜索空间。在大多数情况下,假定对象在世界中平滑移动。我们将在下面讨论线性运动模型和非线性运动模型。

3.2.1 线性模型

        这是迄今为止最受欢迎的模型。在这个模型中做了一个等速假设。基于这个假设,有三种不同的方法来构建模型。

        (1)速度平滑是通过在连续帧中假定一个物体的速度值来平滑改变的。

        (2)位置平滑直接导致观测位置与估计位置之间的差异。

        (3)加速度平滑。除了考虑位置和速度的平滑外,还考虑了加速度。

3.2.2 非线性运动模型

        线性运动模型是解释物体动力学的常用方法。然而,在某些情况下,线性运动模型是无法处理的。为此,提出了非线性运动模型,以产生更精确的运动追踪。

多目标追踪综述阅读(2021)_第7张图片 线性运动模型(a)与非线性运动模型(b) 

 

多目标追踪综述阅读(2021)_第8张图片

 3.3 交互模型

        交互模型,也称为相互运动模型,捕捉一个对象对其他对象的影响。在人群场景中,一个物体会经历来自其他主体和物体的某种“力”。例如,当一个行人在街上行走时,他会调整他的速度,方向和目的地,以避免与他人碰撞。另一个例子是,当一群人穿过街道时,他们每个人都跟着其他人,同时引导其他人。事实上,这是两个典型的交互模型的例子,即社会力模型和人群运动模式模型。

3.3.1 社会力模型

        社会力模型也被称为群体模型。在这些模型中,每个对象都被认为依赖于其他对象和环境因素。这类信息可以缓解拥挤场景下的性能下降。在社会力模型中,目标被认为是根据对其他物体和环境的观察来决定其速度、加速度和目的地的智能体。更具体地说,在社会力模型中,目标行为是基于个人力量和群体力量两个方面来建模的。

3.3.2 人群运动模式模型

        受人群模拟文献的启发,引入运动模式来缓解人群中单个物体的跟踪难度。一般来说,这类模型通常应用于目标密度相当高的过拥挤场景。在如此拥挤的场景中,物体通常都非常小,诸如外形和个人运动等线索都是模糊的。在这种情况下,来自人群的运动是一个相对可靠的线索。

        大致有两种运动模式,结构化和非结构化。结构化运动模式表现出集体的时空结构,非结构化运动模式表现出多种运动形态。一般来说,运动模式是通过多种方法来学习的,并作为先验知识来辅助目标跟踪。

3.4 排斥模型

      排斥是在寻求MOT问题的解决方案时用来避免物理碰撞的一种约束。它源于两个不同的物体在现实世界中不能占据相同的物理空间这一事实。给定多个探测响应和多个轨迹假设,一般有两个约束条件。第一种是所谓的目标检测层面的排斥,即同一帧中的两个不同的检测响应不能分配给同一目标。第二个是所谓的轨迹级不相容,即两条轨迹不可能无限接近彼此。

3.4.1 Detection-level排斥模型

        分为“软模型”和“硬模型”。

3.4.2 Trajectory-level排斥模型

        一般来说,轨迹水平的排斥是通过惩罚两个接近的检测假设有不同的轨迹标签的情况来建模的。

3.5 遮挡处理

        遮挡可能是MOT中最关键的挑战。它是导致ID切换或轨迹碎片化的主要原因。为了处理遮挡,人们提出了各种各样的策略。

3.5.1 由部分推断整体

        该策略基于这样一个假设:当发生遮挡时,对象的一部分仍然可见。这种假设在大多数情况下成立。基于这一假设,采用这种策略的方法观察并利用可见部分推断整个对象的状态。

        主要的方法是将整体对象(如边界框)划分为几个部分,并基于各个部分计算相似度。如果发生遮挡,有关遮挡部分的相似度应该是低的。Tracker会意识到这一点,并只采用未排除的部分进行估计。

        基于特征点聚类的跟踪,该策略假设运动相似的特征点属于同一目标。只要对象的某些部分是可见的,特征点轨迹的聚类就可以工作。

3.5.2 假设和测试

        这一策略通过假设提议并根据手头的观察结果测试提议来避开遮挡带来的挑战。顾名思义,该策略由两个步骤组成:假设和测试。

        假设:Zhang等人基于可遮挡的一对观察结果生成遮挡假设,这些观察结果非常接近且具有相似的尺度。这种方法将遮挡视为分散注意力,而在其他方法中,遮挡模式用于在遮挡情况下辅助检测。更具体地说,通过综合组合两个具有不同遮挡水平和模式的对象,可以生成不同的检测假设。

        测试:这些假设准备好后将用于MOT。让我们回顾一下上述两种方法。假设观察值和原始观察值一起作为成本流框架的输入,并进行MAP以获得最优解。有人基于检测假设训练多人检测器。该检测器大大降低了遮挡情况下的检测难度。

3.5.3 缓冲和恢复

        该策略在发生遮挡时缓冲观察,并记住遮挡前对象的状态。当遮挡结束时,根据缓冲观察和遮挡前存储的状态恢复对象状态。

        Mitzel等人在发生遮挡时,将一条轨迹保持在最长15帧的状态,并通过遮挡推断出休眠轨迹的位置。如果对象再次出现,则会再次触发轨迹并保持身份。当跟踪状态因遮挡而变得模糊时,观察模式被激活。一旦获得足够的观察结果,就会产生假说来解释这些观察结果。这也可以被视为“缓冲和恢复”策略。

3.5.4 其它

        上述策略可能并不涵盖此领域中探索的所有策略。例如,Andriyenko等人将目标视为图像空间中的高斯分布,并将所有目标之间的成对遮挡率明确建模为可微能量函数的一部分。一般来说,对遮挡建模的各种方法进行明确的分离或分类是非常重要的,在某些情况下,可以结合使用多种策略。

3.6 推断

3.6.1 概率推理

        基于概率推理的方法将对象的状态表示为具有不确定性的分布。跟踪算法的目标是基于现有观测数据,通过各种概率推理方法来估计目标状态的概率分布。这种方法通常只需要现有的,即过去和现在的观察,因此它们特别适合在线跟踪任务。由于仅利用现有观测值进行估计,因此在对象状态序列中施加马尔可夫性假设是很自然的。

        各种概率推理模型已应用于多目标跟踪,如卡尔曼滤波器、扩展卡尔曼滤波器和粒子滤波器。

3.6.2 确定性优化

        与概率推理方法相反,基于确定性优化的方法旨在找到MOT的最大后验概率(MAP)解。为此,推断数据关联、目标状态或两者的任务通常被视为一个优化问题。该框架内的方法更适合离线跟踪任务,因为需要提前获得所有帧或至少一个时间窗口的观测值。给定来自所有帧的观测(通常是检测假设),这些类型的方法努力将属于同一对象的观测全局关联到轨迹中。关键问题是如何找到最佳关联。下面是一些主要的方法: Bipartite graph matching、Bipartite graph matching、Min-cost max-flow network flow、Min-cost max-flow network flow、 MWIS。

3.6.3  讨论

        在实践中,与概率方法相比,确定性优化或能量最小化的应用更为广泛。虽然概率方法为问题提供了更直观、更完整的解决方案,但它们通常很难推断。相反,能量最小化可以在合理的时间内得到“足够好”的解决方案。

3.7 总结

        如上所述,我们介绍并审查了MOT系统的不同组成部分。需要注意的是,并非所有现有的MOT方法都包含所有部分。例如,在一些研究中,互动没有建模。某些模型仅在特定情况下才有必要,例如在极度拥挤的情况下人群的运动模式。一些研究中,没有专门处理遮挡问题。一般来说,外观、动作和推理在大多数方法中都是强制性的。让我们以最简单的情况为例,即使用单个跟踪器单独跟踪每个对象,不涉及交互、排斥和遮挡。但是对于推理模型来说,外观和运动模型仍然是必要的。

 4 MOT评估

        MOT度量可以大致分为两组,分别评估检测和跟踪。

4.1 指标

4.1.1 检测指标

        (1)准确性

        FPPI、MODA

        (2)精度

        MODP

4.1.2 跟踪指标

        (1)准确性

        MOTA

        (2)精度

        MOTP、TDE、OSPA

        (3)完整性

        MT、PT、ML、FM

        (4)稳健性

        RS、RL

4.2 数据集

多目标追踪综述阅读(2021)_第9张图片 主流数据集表

 4.3 开源算法

        我们列出了相关源代码公开的算法,以便在表9中进行进一步比较。与SOT相比,公共项目似乎不多。诚然,最近SOT的进展比MOT更大。一个原因可能是,许多研究人员已经公开了他们的代码。我们在此鼓励研究人员发布代码,以方便将来的研究。

多目标追踪综述阅读(2021)_第10张图片

 4.4 基准结果

多目标追踪综述阅读(2021)_第11张图片 PETS2009-S2L1数据集的定量结果

 

多目标追踪综述阅读(2021)_第12张图片 在PETS2009-S2L1数据集上比较离线和在线方法的基准测试结果

 

多目标追踪综述阅读(2021)_第13张图片 根据MOTA、MOTP、精度、召回率、MT、ML、F1指标(左)、IDS和FM指标(右),统计PETS2009-S2L1数据集上不同年份的结果

 5 总结

        本文描述了视频中多目标跟踪(MOT)任务的相关方法和问题。提出了一个统一的问题公式和现有方法的几种分类方式,描述了最先进的MOT方法中的关键部分,以及讨论了MOT算法的评估,包括评估指标、公共数据集、开源实现和基准测试结果。

5.1 存在的问题

        MOT研究中的一个主要问题是,MOT方法的性能在很大程度上取决于目标检测器。例如,广泛使用的检测跟踪范式建立在目标检测器之上,该检测器提供检测假设来驱动跟踪过程。在固定其他组件的同时,考虑到不同的检测假设集,相同的方法将产生具有显著性能差异的跟踪结果。

        另一个问题是,在开发MOT算法时,如果太复杂,那么会有很多参数。这导致了调整方法的困难。同时,其他人也很难实施该方法并重现结果。        

        有些方法在特定的视频序列中表现良好。然而,当应用于其他情况时,它们可能不会产生令人满意的结果。原因是多方面的。摄像头视图的差异或摄像头的状态(移动与静态)可能会导致此问题。这也可能是因为MOT方法使用的对象检测器在特定视频中经过训练,在其他视频序列中不能很好地概括。

        这些问题制约了MOT研究的进一步发展及其在实际系统中的应用。最近,人们试图解决其中一些问题,例如,MOT基准提供了大量带注释的测试视频序列、统一的检测假设、标准评估工具等。这很可能会推动MOT技术的进一步研究和发展。

5.2 未来方向

        (1)视频自适应MOT        

        如上所述,目前大多数MOT方法都需要离线训练的目标检测器。出现了一个问题,即特定视频的检测结果不是最佳的,因为对象检测器没有针对给定视频进行训练。这通常会限制多目标跟踪的性能。为了提高MOT性能,需要定制目标探测器。Shu等人提出的一个解决方案是,通过逐步完善通用行人检测器,将通用行人检测器转换为特定视频。这是改进MOT方法预处理阶段的一个重要方向。

        (2)多摄像头MOT

        很明显,MOT将受益于多摄像头设置。多个摄像头有两种配置。第一种是多个摄像头记录同一场景,即多个视图。然而,这种设置的一个关键问题是如何融合来自多个摄像头的信息。第二个是每个摄像机记录不同的场景,即一个不重叠的多摄像机网络。在这种情况下,跨多个摄像头的数据关联成为一个重新识别问题。

        (3)多个3D目标跟踪

        当前的大多数方法都集中在二维多目标跟踪上,即在图像平面上,甚至在多个摄像机的情况下。3D跟踪可以为高级计算机视觉任务提供更精确的位置、大小估计和有效的遮挡处理,可能更有用。然而,3D跟踪需要摄像机校准,或者必须克服估计摄像机姿势和场景布局的其他挑战。同时,3D模型设计是2D MOT独有的另一个问题。

        (4)MOT与场景理解

        之前的研究是为了分析过度拥挤的场景,例如高峰时间的地铁站和公共场所的示威。在这类场景中,大多数对象都很小,或大部分被遮挡,因此很难跟踪。场景理解的分析结果可以提供背景信息和场景结构,如果能更好地融入到MOT算法中,这对跟踪问题非常有帮助。

        (5)深度学习

        对于MOT问题,深度学习模型为目标检测提供的强观测模型可以显著提高跟踪性能。使用深度神经网络对目标关联问题进行公式化和建模的研究工作更多,尽管最近首次尝试将顺序神经网络用于在线MOT。研究人员还使用了注意机制、LSTM等模块来解决MOT问题。

        (6)MOT与其他计算机视觉任务

        虽然多目标跟踪服务于其他高级计算机视觉任务,但由于多目标跟踪与其他计算机视觉任务相互有益,因此有一种联合解决多目标跟踪的趋势。

        除上述未来方向外,由于当前的MOT研究主要集中在监控场景中跟踪多人,因此将当前的MOT研究扩展到其他类型的目标(如车辆、动物等)和场景(如交通场景、航空照片等)也是非常好的研究方向,因为在不同场景下跟踪不同类型目标的问题设置和困难有时与在监视场景中跟踪多人的问题设置和困难大不相同。

你可能感兴趣的:(目标跟踪)