Quasi-Dense Similarity Learning for Multiple Object Tracking 详细解读

文章目录

  • 摘要(abstract)
  • 介绍(Introduction)
  • 相关工作(related work)
  • 理论(Methodology)
    • object detection
    • Quasidense similarity learning
    • object association
      • Bi-directional softmax
      • No target cases
      • Multi-targets cases
  • experiment

摘要(abstract)

相似度学习一直是MOT任务里最重要的任务。但此论文之前的算法多使用稀疏的GT用来训练网络得到相似度。这样忽略了大量的有用信息。此算法提出了一种使用densly samples hundreds of region proposals来学习相似度计算。我们称他为Quasi-Dense Similarity Learning。简称QDTrack。算法在多个数据集都产生了很好的结果。具体指标就不赘述了。

介绍(Introduction)

Quasi-Dense Similarity Learning for Multiple Object Tracking 详细解读_第1张图片
之前的工作存在只利用IOU或者中心距离等其他像素级别的先验知识进行追踪,这表明确实只要目标间检测的空间信息足够精确,确实可以有好的结果。但是这些方法大多只适合一些简单的场景,当目标拥挤遮挡下,位置信息很容易产生误导。为此一些方法就会尝试引入运动估计或位移回归来精确位移估计。

但是机器不像人,人可以很清楚的通过外貌信息来分别人,但是对于计算机,只有外貌带来的特征往往不会被处理的有效,因此会对外貌信息做一些搜索区域的限制等处理。

过去工作,相似度学习知识是作为一个检测后的事后阶段,并且只是用稀疏GT框作为训练样本。事实上,如果目标的表示被尽可能的学到,那么就使用embedding的最近邻方法也可以关联和区别实例。

除了GT框,其实密集的检测框也是有监督价值的,接近GT框的检测框,可以提供类似正样本的参考。相反接近背景的可以作为负样本的参考。

作者提出的QDTrack密集匹配一对图片上的上百个感兴趣区域,通过对比损失进行学习参数,密集采样会覆盖图片上大多数的信息区域。通过对比学习,一个样本会被训练同时区分所有的Proposal,相较于只使用GT标签来训练监督,更加的强大且增强了实例的相似度学习。对于消失轨迹的处理,会将背景作为一类,从而进行双向softmax增强一致性。实验采用使用轻量级embedding提取器和残差网络的Faster R-CNN来构建QDTrack模型。

并且不同于其他工作依赖运动模型和位移预测,将外貌相似度作为第二补充,QDTrack直接从密集连接对比对中学习实例相似度,且最终关联步骤只是简单的最近邻搜索。

相关工作(related work)

分三个部分:

  1. MOT中位置和motion的作用
  2. MOT中物体外观相似度的作用
  3. Constrastive learning :这里他说这个理论允许了多个正样本的训练,具体内容,如果需要,得看下原理。对比学习

就不细说了,感兴趣的可以去看原文

理论(Methodology)

作者定义了数据关联时三种匹配:

密集匹配:匹配所有像素点的候选边界框
拟密集匹配:考虑信息丰富区域的可能目标候选间的匹配
稀疏匹配:只考虑GT标签作为匹配候选

object detection

论文中使用带有FPN的Faster R-CNN作为检测器。整个任务可以优化为一个多任务损失函数:
在这里插入图片描述
RPN loss为 L r p n \mathcal L_{rpn} Lrpn, 分类损失为 L c l s \mathcal L_{cls} Lcls,回归损失为 L r e g \mathcal L_{reg} Lreg, 和原论文相同,两个超参默认为1。

Quasidense similarity learning

Quasi-Dense Similarity Learning for Multiple Object Tracking 详细解读_第2张图片
如上图,一张关键图 I 1 I_1 I1用于训练,随机选择一个时序邻域作为推理图片 I 2 I_2 I2,邻域距离限制为k ∈ [ − 3 , 3 ]个时间间隔。使用RPN从两张图片产生RoI,通过RoI Align从FPN来获得不同尺度的相应特征图。增加了一个轻量的embedding head,平行于原始的bounding box head,用于提取RoI的特征embedding。若RoI和某个ID的IoU大于 α 1 = 0.7 α_1 = 0.7 α1=0.7 ,则定义为该ID的正样本。若小于 α 2 = 0.3 \alpha_2=0.3 α2=0.3则定义为负样本。不同帧上的RoI关联相同的ID则互相为正样本,否则互为负样本。

假设关键图上有V个样本用于训练,推理图上有K个样本用作对比目标。对于每个训练样本,使用带非参数softmax和交叉熵来优化特征embedding:

Quasi-Dense Similarity Learning for Multiple Object Tracking 详细解读_第3张图片

v , k + v,k^{+} v,k+ k − k^- k为训练样本,正目标样本,负样本的特征embedding。总体损失为所有训练样本的损失的均值,上面只显示了一个样本的一般情况即只有一个相关的正样本情况下的损失。不同于过去的只是用GT框来进行稀疏匹配学习实例相似性,这里要匹配这对图上的所有RoI,即 I 1 I_1 I1上的每个样本都要匹配 I 2 I_2 I2上的样本,如此,关键帧上的训练样本在推理帧上就不一定只有一个正目标,所以上述公式可以改写为:

在这里插入图片描述

但是上述公式,负样本会被考虑多次,而正样本只会考虑一次,将公式2重新修改为:

在这里插入图片描述

如此,多个正样本的情况下,可以将它拓展为:

在这里插入图片描述

进一步定义辅助的L2损失:

在这里插入图片描述

整个网络的联合优化为:

在这里插入图片描述

实验中 γ 1 \gamma_{1} γ1设为0.25, γ 2 \gamma_{2} γ2设为1.0 。采样所有正样本和三次的负样本计算辅助损失。

object association

Bi-directional softmax

Quasi-Dense Similarity Learning for Multiple Object Tracking 详细解读_第4张图片

一个主要策略就是上图所示的双向匹配。假设t帧存在N个检测目标,特征embedding为n。过去x帧存在的M个匹配候选对象,特征embedding为m。通过双向softmax获得对象和候选匹配的相似度f:

在这里插入图片描述

由这个f,直接通过简单的最近邻搜索获得最终关联。

No target cases

若特征空间无目标对象,则不应和任何候选进行匹配。包括新出现的目标,消失的轨迹,以及一些假正性情况。通过双向softmax,这类目标和任何匹配候选最终都会获得很低的相似度得分。

当检测置信度很高时,那就是新目标,作为新的轨迹开端。实验过程中,对于得分很低的目标,以往操作会直接丢弃,不参与匹配轨迹,这里作者认为尽管大多是都是假正性的,但是任然是有用的,因为可能会有未来的目标会和他们相匹配,因此会保留。实验表明这样的操作会减少假正的数量。

Multi-targets cases

为了避免一个目标匹配上多个候选,会采用一个内间NMS进行去除后处理重复,对于检测置信度高于0.5的目标IoU上阈值设置为0.7保留,对应的,检测置信度低于0.5的,NMS下阈值设置为0.3直接丢弃。

experiment

Quasi-Dense Similarity Learning for Multiple Object Tracking 详细解读_第5张图片

Quasi-Dense Similarity Learning for Multiple Object Tracking 详细解读_第6张图片

你可能感兴趣的:(MOT,目标跟踪,深度学习,计算机视觉)