URL: https://arxiv.org/abs/1902.00749?context=cs
From: 上海交通大学
在本文中,我们提出了一个整合了单个目标跟踪和数据关联方法的统一框架,以处理复杂环境下的MOT问题。具体来说就是为了在MOT中应用单个对象跟踪,我们基于最新的视觉跟踪器引入了一种对成本敏感的跟踪损失,这种模型会在学习期间更多的关注难样例。对于数据关联,我们提出了一个双重匹配注意力网络(DMAN),空间注意力模块生成双重注意力map,可以使得网络能够更加专注于输入图像对的匹配模式,而时间注意力模块能够将不同程度的注意力自适应地分配给轨迹中的不同样本,以处理环境嘈杂的问题。
在本文中,我们将SOT跟踪器和数据关联的优点结合统一。在大多数帧中,SOT跟踪器用于跟踪每个目标对象,当跟踪得分低于阈值时应用数据关联,这表明目标对象可能被遮挡或表观发生了较大变化。
SOT跟踪器在MOT问题中应用时,会受到复杂背景和其他行人的干扰,因此效果较差。主要是因为SOT跟踪器在训练时正负样本分布极度不均衡,正样本较少而负样本较多且较为简单(除了正样本周围以外的区域都是负样本,因此较为简单,学习不到太多有用的区分特征),这样在MOT中应用时当出现一个和目标相似的干扰时,就会发生跟踪偏移。因此若想在MOT中应用SOT跟踪器,则在训练时需要更加专注于少量的难样例,以缓解漂移。
在MOT中大多数的数据关联都是用Re-ID特征进行关联的,但是由于MOT中行人目标的遮挡等问题,需要我们从两个方面设计有效的数据关联Re-ID模型。第一,为了应对检测中未对准和缺失的部分,设计的模型应重点关注观察目标之间相同的局部区域;第二,为了避免较差样本的影响,设计的模型应当对估计中不同观测值分配不同的权重。
本文的主要贡献点在于:
1、我们提出了一个空间注意力网络来处理MOT中嘈杂检测和遮挡的问题。当比较两个图像时,所提出的网络会基于图像对每个位置之间的交叉相似性生成双重空间attention map,使得模型能够专注于匹配图像之间的共同区域。
2、提出了一个时间注意力网络,以自适应地将不同程度的注意力分数分配给轨迹中不同的观察目标。该模块不仅考虑检测目标和轨迹中观测值之间的相似性,而且考虑所有观测值的一致性,以过滤出轨迹中不可靠的样本。
3、我们将SOT跟踪器应用于MOT中,并基于最新的跟踪器引入一种新的成本敏感型跟踪损失函数。提出的损失函数使跟踪器重点关注难样例,从而增强了SOT跟踪器在MOT场景中对附近干扰物的鲁棒性。
大概流程如图2所示,在给定的每帧中检测目标,我们应用SOT跟踪器来跟踪每个目标。将目标状态设置为以跟踪,直到跟踪结果变得不可靠为止。在这种情况下,目标视为丢失。然后,我们将暂停SOT跟踪器,并执行数据关联,计算轨迹和检测之间的相似度。一旦丢失的目标通过数据关联链接到检测结果,我们将更新跟踪状态并恢复跟踪过程。
本文选用ECO跟踪器作为Baseline Tracker。与传统的基于相关滤波器的跟踪器不同,ECO跟踪器将离散通道特征xd插入到连续域中[0,T),目的是为了从M个训练样本中学习到连续T周期的多通道卷积滤波器f,通过最小化下面的目标函数:
其中αj表示样本xj的权重。卷积算子Sf将样本xj映射到得分函数Sf上,这个函数用来预测目标在位置t的置信度分数。label函数yj用于计算Sf中传入xj的期望。正则项则使用权重函数wt来抑制边界效应。同时上面的公式可以被简化为下面的形式:
给定一个裁剪好的图像,ECO跟踪器将利用图像的所有循环移位图像来训练滤波器。所有移位样本的检测分数一起组成了置信度图。图3(a)显示了底部图像块的期望置信度图。图像中的大多数位置的置信度都标记为接近零,而只有极少数靠近目标中的位置构成正样本d图3(b)显示了ECO跟踪器预测的分数图。可以看出在目标位置旁边,靠近对象中心的图中也获得了较高的置信度分数。因此这些类内干扰的负样本可以被视为难样例,应家中惩罚以防止跟踪器漂移到干扰物上。但是,在ECO公式中,同一搜索区域中所有样本的贡献都被统一加权。由于大多数的难样例负样本都来自于背景,因此在训练过程中可能会受到大量背景信息的干扰,因此会降低模型对类内干扰物的判别能力。
因此为了减轻数据的不平衡性,本文提出了成本敏感损失函数,强调难样例,具体来说,就是在公式(1)中添加因子q(t)。
为了更好的确定目标是否被跟踪上,我们计算了被跟踪目标tI与之前I个帧中的检测DI之间的最大重叠率,若大于0.5则将o(tI,DI)置为1,否则置为0。我们将过去L个跟踪帧中的{o(tI,DI)}的平均值作为另一种确定跟踪状态的度量,因此,目标的状态定义为:
其中Ts和To是两个设定的阈值,S是之前得到的跟踪分数。当目标判定为丢失时,我们首先将边界框的位置保持在最后一帧k-1的位置上,应用线性运动模型来预测在第k帧上目标的位置。这里用ck-1表示表示跟踪目标在第k-1帧中的中心坐标。则k-1帧中的目标的速度为:
其中K表示用于计算速度的帧间隔。然后,在当前帧k中目标的坐标被预测为ck = ck-1 + vk-1
得到了预测的目标位置之后,我们认定预测位置周围的检测并没有被其他的目标覆盖干扰,将这些检测作为候选检测。之后我们用这些检测和之前轨迹中的观测计算表观相似性分数。我们选择分数最高的检测和相似性分数的阈值Ta进行对比,决定是否将检测和轨迹进行关联。
但是目前存在的问题就是在实际中不仅是检测而且轨迹中的观测目标都会受到遮挡和干扰。为了缓解这些问题,本文提出了DMAN网络,包括了运动和时间注意力机制。
我们提出了一种使用Siamese架构的空间注意力网络,以处理噪声检测和遮挡,如图4所示。在这项工作中,我们使用截断的ResNet-50网络作为共享基础网络,并用L方归一化处理特征的通道维度。将空间注意力map用于ResNet50的最后一个卷积层的特征,因为来自顶层的特征表示可能会包含对匹配语义区域有用的高级信息。
总的来说生成空间attention map的过程就是:图像经过骨干网络(res-net 50)后可以得每个图像的7* 7 * 2048的feature map,经过L方归一化后可以得到7 * 7 * 49维的feature map分别是xα和xβ。但是由于两个feature map不能很好的对其;因此位于xα中的相应特征不会出现在xβ中的同一位置。因此,我们需要生成一个空间上的attention map进行约束。
从网络图中我们可以看出,我们通过Matching layer来计算xα和xβ中对应位置xαi和xβi
的相似性,并得到相似性矩阵S。
xαs和xβs分别是通过公式9中交换矩阵乘法的位置得到的。其中向量Si=[si1…si2]T包括矩阵S的第i行中的所有元素。这些元素表示xαi和xβ中所有特征向量之间的距离。将S矩阵Reshape维H * W * C表示feature map xα的相似性。之后将xαs输入到1 * 1的卷积层中并通过一个softmax计算输出得到attention map Aα。
最后我们对由attention map加权后的xα进行avage pooling后得到了attention mask的feature x-α,x-β的获取过程基本相同。将两个特征向量拼接后作为一个特征输入到512维的全连接层中,利用交叉熵损失进行二分类预测。
当比较候选检测和轨迹中的观测序列时,通常直接对轨迹中所有观测的特征进行平均池化后,直接进行比对。但是这样会受到噪声样本的干扰,效果较差。因此我们利用时间注意力机制自适应地将不同的权重分配给不同的样本。
输入为从SAN网络中得到的特征集合{xc1…xcT}。集合中的每个特征xci表示候选检测和轨迹中第i个样本比较后得到的特征。(为了确定估计中的噪声样本,模型不仅要依靠检测和轨迹中每个样本之间的相似性,还要考虑所有样本的一致性,因此我们选择使用双向LSTM网络。)通过一个softmax层计算注意力值at。
其中hlt、hrt为双向LSTM中隐藏层的特征,θ是生成attention values层的权重值。得到的注意力分数at用来对每个观察的隐藏层特征hlt和hrt进行权重池化,如下所示:
我们将池化后得到的特征h-,作为二分类预测的输入,得到检测和之前轨迹的相似度分数。
我们利用MOT16数据集中的ground-truth检测和id生成训练所用的图像对和轨迹。但是因为数据集中包含较多的冗余数据。为了减轻这一问题,我们采用了两部训练策略。我们首先在随机生成的图像对上训练空间注意力网络。然后,固定空间注意力网络的权重,并使用提取的特征作为输入来训练时间注意力网络。同时我们还使用了一些其他的方法来扩充数据集。并且模拟了轨迹中出现噪声数据的问题。
对于轨迹的初始化,我们设定一个阈值Ti并且若一个估计在前Ti帧中发生检测丢失或未覆盖目标那么丢弃这个轨迹。对于轨迹的维护曾,当一个目标连续Tt帧没有出现时,则终止轨迹。另外,我们收集目标的M个最新观测值,并通过从收集的样本中均匀采样以减少数据冗余,来生成T长度小轨迹以进行数据关联。