Multiobject Tracking as Maximum Weight Independent Set

Brendel, William, Mohamed Amer, and Sinisa Todorovic. “Multiobject tracking as maximum weight independent set.” CVPR 2011. IEEE, 2011.

Abstract

本文解决了视频中同时跟踪多个目标的问题。 我们首先将对象检测器应用于每个视频帧。 然后,每两个连续的帧对中的检测响应对将用于构建轨迹图。 该图有助于在不违反结果轨道之间硬性和软性上下文约束的情况下,过渡性地链接最匹配的小轨道。 我们证明此数据关联问题可以公式化为找到图的最大权重独立集(MWIS)。
我们提出了一种新的多项式时间MWIS算法,并证明了该算法收敛于最优值。 从对象外观和运动属性在线学习用于数据关联的对象检测之间的相似性和上下文约束。 通过迭代重复MWIS将层次较小的轨道合并为更长的轨道,可以解决长期遮挡的问题。 我们的结果证明了在多目标跟踪中同时考虑软和硬上下文约束的优势。 我们在基准数据集上的表现超越了现有技术。

Introduction

本文解决了同时跟踪由非静态相机捕获的复杂场景中的多个目标的问题。目标是出现的已知类别的物体,如车、行人、自行车。
每个目标都具有随时间变化的外观和运动特性。 目标还具有时空相互作用的特征,例如行人沿相同或相反的方向移动,以及特定领域的约束条件,例如行人趋于类似地移动,但通常尝试彼此保持距离。 我们将这些交互和约束称为上下文。 给定在目标外观,运动和上下文属性方面的相似性(或距离)函数,可以将在整个视频帧中匹配相似的对象出现的跟踪公式化。
我们的目标是:
1.在线学习对象的统计固有和上下文属性,以指定它们的相似性,以及
2.通过同时考虑硬和软上下文约束,匹配连续帧中相似对象的出现。
Learn online the statistical intrinsic and contextual properties of objects to specify their similarity, and Match similar object occurrences in consecutiveframes by simultaneously accounting for their hard and soft contextual constraints.

我们设置这样一个环境,其中目标的数量,其类的成员资格以及它们在视频中的布局可能是任意的,并且没有可用的训练示例。

Relationships to Prior Work

多目标跟踪具有挑战性,因为有关目标的不确定性可能来自多种来源,包括:来自同一类别的目标的相似性,复杂的目标交互,相对较长时间的遮挡以及动态,混乱的背景。 Tracking by detection的方法在解决这些挑战方面已显示出令人印象深刻的结果。
他们首先应用对象检测器在每个帧中生成目标假设,然后可递归地链接检测以保持其唯一身份(ID)。 面对(可能很多)误报和缺失检测,传递链接非常困难。 通常通过学习检测之间的亲和力模型(affinity model)来解决它们的固有属性(例如颜色,姿势,速度,方向)以及时空上下文——来自相邻轨道的证据,以及遮挡图估计和3D场景轮廓 以解决问题。 给定检测之间的亲和力,上述工作将跟踪公式化为数据关联问题。这通常被表示为二分匹配,其约束是匹配是一对一的,并由贪婪的匈牙利算法或更复杂的网络流算法解决[24]。
除了一对一约束之外,对象之间的各种关系还产生了其他可用于跟踪的软约束和硬约束。 这激励我们通过在数据关联中合并其他上下文约束来扩展先前的工作。 我们表明,这种扩展自然很容易导致最大权重独立集(MWIS)问题。 对于这种多目标跟踪的通用公式,我们提出了一种新的MWIS算法
tracking-by-detection在长期遮挡的情况下表现糟糕。这可以通过将粒子滤波与检测器置信度融合来解决,以更准确地保持跟踪假设。或者,可以通过检测的层次关联来克服长差距[10]。 已经提出了蛮力策略(Brute-force),通过使用合并和拆分来扩展轨道的初始集合来处理轨道链接中的错误[19]。
我们通过将较小的相似轨迹迭代链接为较大的相似轨迹,并拆分长的不可行轨迹,同时尊重它们的软和硬上下文约束,直到收敛,从而解决了长差距。 与[10]不同,我们同时进行轨迹的合并和分割,因此可以校正先前迭代中发生的任何错误。

Overview of Our Approach

Multiobject Tracking as Maximum Weight Independent Set_第1张图片
step1:
我们将一组对象类别的检测器应用于所有视频帧。 每次检测的特征是描述符,该描述符记录了相应边界框的以下属性:位置,大小以及颜色,强度梯度和光流的直方图。
step2:
最佳匹配的检测通过视频可传递地链接到不同的轨道,其总数是先验未知的。 这样做是在严格的约束条件下完成的,即没有两条轨道可以共享相同的检测,以防止出现难以理解的视频解释。
另外,通过轨道之间的时空关系来来提醒link,这提供了软约束。 为此,我们构建了一个图,其中节点代表每两个连续帧中的候选匹配项,称为tracklet; 节点权重编码相应匹配项的相似性; 边缘连接节点,这些节点的对应的tracklet违反了硬约束。
**给定该属性图,将数据关联公式化为最大权重独立集(MWIS)问题。**MWIS是属性图的非相邻节点的最重子集。 方便地,整个图的MWIS等同于独立子图的MWIS解决方案的并集。 这使我们能够在线进行多目标跟踪。 我们提出了一种新的MWIS算法,可以保证收敛到最佳状态。
step3:
在线学习第二步中使用的内在目标属性和成对上下文,因为跟踪会不断积累目标的统计证据。 了解每个轨道的这些属性的相对重要性,以便最小化同一轨道内检测的马氏距离,并使来自不同轨道的检测之间的马氏距离最大化。
step4:
为了解决长期遮挡问题,我们重复执行第2步和第3步以合并或拆分轨道,以增加MWIS的总权重,直到收敛为止。

Contributions

  1. MWIS允许对软和硬上下文约束进行并发和直接推理,而先前的工作通常将硬约束放宽到连续域以提高可处理性。

硬约束就是不能冲突,软约束就是加权

  1. 重要的是,MWIS公式提供了一种将候选轨迹的整个图划分为独立子图的原则方法,从而将我们的数据关联问题简化为每个子图的许多较小的MWIS问题。
  2. 我们推导了一种新的MWIS算法,该算法使用一阶动态算法迭代地优化了解决方案。 此外,我们证明了其收敛性达到最大值,复杂度为O(n 2),其中n是图中节点的数量。

Object Detection

使用检测器检测每一帧
(i) Implicit Shape Model (ISM)
(ii) HOG detector
(iii) Deformable part-based model
对于每一个检测框z都有一个描述符表示,其中的元素包括:
Multiobject Tracking as Maximum Weight Independent Set_第2张图片
两个连续帧之间z的相似度描述为
在这里插入图片描述
其中M是距离度量矩阵。 M被初始化为单位矩阵,然后在线学习。

Data Association is the MWIS Problem

首先将数据关联公式化,在转化为一个MWIS算法
Multiobject Tracking as Maximum Weight Independent Set_第3张图片

Z是一个观测集,上标是时间,下标是该帧的间隔个数
T是一个轨迹,是每个元素都来自不同帧的一个有序观测集

Multiobject Tracking as Maximum Weight Independent Set_第4张图片

数据关联问题转变成了找子集的问题,子集的时间序列不冲突

Multiobject Tracking as Maximum Weight Independent Set_第5张图片

数据关联问题可被表示为一个结构图,G=(V, E, w),V为节点的集合,E为edge的集合, w为权重,可从公式一得出

Multiobject Tracking as Maximum Weight Independent Set_第6张图片

数据关联问题可被表示为在所有独立的小轨迹(图)中找到权重最大的组合

The MWIS problem

V的子集可以用指示向量表示
在这里插入图片描述
MWIS可以表示为
Multiobject Tracking as Maximum Weight Independent Set_第7张图片

w是节点权重
V是节点的集合,xi*xj=0代表节点不重合

可写成
在这里插入图片描述

xi与xj都是1的时候,和并没有增长,对应的节点(i,j)在图上连接,属于E

可以更方便的写为:
在这里插入图片描述

B为G的邻接矩阵,如果(i, j)属于E,Bij =1

公式4给出了MWIS问题的精确离散公式。
作为组合优化中的常见方法,我们将此离散公式放宽到连续域。
具体来说,我们引入了一个辅助实值向量y
Multiobject Tracking as Maximum Weight Independent Set_第8张图片

The Algorithm

迭代寻找最优解
Multiobject Tracking as Maximum Weight Independent Set_第9张图片
Multiobject Tracking as Maximum Weight Independent Set_第10张图片
Multiobject Tracking as Maximum Weight Independent Set_第11张图片
从(7)很容易的看出算法的复杂度是O(n2)

Learning Soft Constraints

我们通过分别求解G的每个独立子图的MWIS进行多目标跟踪,然后将所得MWIS的小轨迹链接到不同的轨迹中。 该过程可以在线完成,因为通过G的构造,每个独立的子图仅对应于一对连续的帧。因此,在解决了独立子图G(t)的MWIS之后,我们将从先前帧估计的轨道链接到G(t)的MWIS的小轨迹。从而逐步建立更长的轨道。 可以合理预期,目标的统计外观,运动和上下文属性的累积证据将有助于将新的物体检测与现有轨道相关联。
由于数据关联是由距离度量M和成对上下文约束B控制的,因此我们试图从先前跟踪的实例中学习这些参数,如后续内容所述

Distance Metric Learning

从(1)中,两个物体检测之间的相似性(或与小轨道相关的权重)被定义为马哈拉诺比斯距离的函数,由矩阵M进行参数化。我们使用众所周知的大余量最近邻框架(large margin nearest neighbor framework)来计算M。 M被学习,以使同一轨迹内的检测比来自不同轨迹的检测在特征空间中变得更接近。
Multiobject Tracking as Maximum Weight Independent Set_第12张图片

Pairwise Spatiotemporal Context

我们将G邻接矩阵B从二元(0或1)值改为实值Bij∈[0,1],以解决轨迹之间的成对时空关系。 最重要的是,从(4)中可以看出,B的松弛不会影响硬约束,即(4)的解仍然是MWIS,但会引入其他软约束。 为此,我们假设场景中的所有对象对都具有关联的运动。 正如我们在实验中演示的那样,这些附加的上下文信息改善了多目标跟踪。
考虑两种情况,i,j分别是同一帧的一对tracklet,在图G中被连接,那么令Bij=1,来保证MWIS结果中不会有illegal tracks。第二种情况,他们没有被连接,因此可以在MWIS结果中。
如果没有以前的统计证据表明在时间t之前构成的轨道T(t)i和T(t)j共存,并分别以i(t)和j(t)结尾,则我们认为i(t)和j(t)都不应该是MWIS的成员 (不共存的话,相当于有矛盾,就无法在MWIS中)。直观地讲,如果T(t)i和T(t)j在帧t之前相关——它们各自的末端轨迹i(t)和j(t)是a good solution,则它们很可能保持从t到t + 1的相关性。
这种相关性用i和j到t+1帧的唯一表示,分别为vi, vj,
Multiobject Tracking as Maximum Weight Independent Set_第13张图片
如果vi(t)和vj(t)没有相似的运动模式,Hij(sita)可能接近0,Bij接近1,实际上阻​​止了i(t)和j(t)一起出现在MWIS解决方案中。
相反,如果在t帧上有强大的统计证据表明v(t)i和v(t)j相关,则Hij(θ(t)ij)将接近1。然后,Bij将接近于0,这允许i(t)和j(t)都在MWIS解决方案中。 这样,我们为G(t)的所有小轨迹对计算Bij。

Handling Long-Term Occlusion

本节介绍了我们的第4步。我们将方法扩展为在长期遮挡下迭代地找到良好的轨迹。
根据由MWIS算法获得的初始轨迹集,我们首先形成一个新图,其中的节点代表轨迹对。 节点的权重表示两个相应轨道的检测之间的平均相似度,由(1)给出; 如果相应的四个轨迹共享检测,则边缘和边缘连接两个节点。 然后,我们找到新图的MWIS。 生成的MWIS包含输入较小轨道的较长合并。 在下一次迭代中,我们再次从以前的MWIS解决方案中存在的所有轨道构建一个新图,并找到该图的MWIS。 如第二节所述,我们还在每次迭代中更新M和B。 4.当MWIS结果不变时,停止迭代。

你可能感兴趣的:(论文学习)