【论文阅读】Multiple Object Tracking in Recent Times: A Literature Review

论文地址:Multiple Object Tracking in Recent Times: A Literature Review
【论文阅读】Multiple Object Tracking in Recent Times: A Literature Review_第1张图片

1.摘要

多目标跟踪是近年来计算机视觉领域的研究热点之一,尤其是随着自主驾驶技术的发展,多目标跟踪已经成为计算机视觉领域的研究热点之一。MOT是解决拥挤场景遮挡、外观相似、小目标检测困难、ID切换等问题的关键视觉任务之一。为了解决这些挑战,研究人员试图利用Transformer的注意机制、轨迹与图形卷积神经网络的相互关系、不同帧中对象的外观相似性与孪生网络进行匹配,并尝试了基于CNN网络的简单IOU匹配、基于LSTM的运动预测。为了把这些分散的技术放在一起,我们研究了过去三年发表的一百多篇论文,试图提炼出近年来研究人员更关注的解决MOT问题的技术。我们已经列出了大量的应用程序、可能性,以及MOT如何与现实生活相关。我们的综述试图展示研究人员过去使用技术的不同视角,并为将要研究的人员提供一些未来的方向。此外,我们在综述中包括了流行的基准数据集和指标。
关键词:MOT、多目标跟踪、目标跟踪、遮挡、计算机视觉

2.引言

在过去的十年里,基于深度学习的算法已经开始解决了现实生活中的问题。近年来,我们看到深度学习在计算机视觉中得到了广泛的应用。目标跟踪是计算机视觉中非常重要的任务之一。它恰好是在物体检测之后出现的。为了完成目标跟踪的任务,首先需要将目标定位在一帧中。然后,为每个对象分配一个单独的唯一ID。然后,连续帧的每个相同对象将形成轨迹。在这里,一个对象可以是任何东西,比如行人、车辆、运动员、天空中的小鸟等等。如果我们想在一帧中跟踪多个对象,那么它被称为多对象跟踪或MOT。在MOT中,我们可以跟踪单个类的所有对象或所述类的所有对象。如果我们只跟踪单个对象,则称为单对象跟踪或SOT。MOT比SOT更具挑战性。因此,研究人员提出了许多基于深度学习的体系结构来解决MOT相关问题。为了使过去三年的研究有条理,我们想做一个关于MOT的文献综述。这项工作包括这些论文。前些年也有一些关于MOT的综述论文[1]、[2]、[3]、[4]。但它们都有局限性。其中一些只包括基于深度学习的方法,只关注数据关联,只分析问题陈述,没有很好地对论文进行分类,在现实生活中的应用也很少。
在这项工作中,我们试图克服上述所有问题。我们试图阅读从2020年到2022年关于MOT的几乎每一篇论文。经过筛选,我们对这些文献中的一百多篇论文进行了综述。在翻阅文献时,首先引起我们注意的是,MOT面临着许多挑战。然后,我们试图找到不同的方法来应对这些挑战。为了建立方法,论文使用了各种MOT数据集,并利用各种MOT指标来评估他们的工作。因此,我们包含了对数据集的快速回顾。此外,我们还包括了新指标以及以前已有指标的摘要。我们还尝试列出了多目标跟踪的大量用例中的一些MOT应用程序。翻阅这些文献,一些工作范围引起了我们的注意,这在后面提到过。因此,综上所述,我们的工作安排如下:

  • 找出多目标跟踪MOT面临的主要挑战
  • 列出常用的各种MOT方法
  • 总结MOT常用的数据集
  • 总结MOT的评价指标
  • 探索各种应用场景与案例
  • 对未来研究的一些建议

3.正文

3.1挑战

多对象跟踪有一些挑战需要解决。尽管遮挡是 MOT 中的主要挑战,但就 MOT 问题而言,跟踪器还必须处理其他几个挑战。

3.1.1遮挡问题

当我们想要看到的东西被同一帧中的另一个对象完全或部分隐藏或遮挡时,就会发生遮挡。大多数 MOT 方法仅基于没有传感器数据的相机实现。这就是为什么当它们相互遮挡时,跟踪器要跟踪对象的位置是很困难的。此外,在拥挤的场景中和模拟人与人之间的交互[5],遮挡变得更加严重。随着时间的推移,使用边界框来定位对象在 MOT 社区中非常流行。但是在拥挤的场景中,[6] 遮挡很难处理,因为真实边界框经常相互重叠。这个问题可以通过联合解决对象跟踪和分割任务来部分解决[7]。在文献中,我们可以看到使用外观信息和图形信息来寻找全局属性来解决遮挡问题[8]、[9]、[10]、[11]。然而,频繁的遮挡对 MOT 问题的较低准确性有显着影响。因此,研究人员试图用简单实用的方法解决这个问题。在图 1a 中,说明了遮挡。在图 1b 中,红衣女子几乎被灯柱覆盖。这是一个遮挡的例子。

3.1.2轻量化结构

尽管最近大多数问题的解决方案都依赖于重量级的体系结构,但它们非常需要资源。因此,在MOT中,重量级架构对于实现实时跟踪是非常不合理的。因此,轻量化建筑一直是研究者们所重视的。对于MOT中的轻量级架构,还有一些额外的挑战需要考虑[12]。Bin等人提到了轻量级体系结构的三个挑战,例如:

  • 对象跟踪体系结构需要预先训练好的初始化权重和微调跟踪数据。因为NAS算法需要来自目标任务的方向,同时需要可靠的初始化。
  • NAS算法需要同时关注骨干网和特征提取,使最终的架构能够完美地适应目标跟踪任务。
  • 最终的架构需要编译紧凑和低延迟的构建块。

3.1.3公共的问题

MOT体系结构经常遭受不准确的对象检测。如果没有正确地检测到对象,那么跟踪对象的所有努力都将是徒劳的。有时,对象检测的速度成为MOT体系结构的一个主要因素。 由于背景失真,目标检测有时变得相当困难。照明在物体检测和识别中也起着至关重要的作用。因此,所有这些因素在目标跟踪中变得更加重要。由于相机或物体的运动,运动模糊使MOT更具挑战性。很多时候MOT体系结构发现很难决定一个对象是否是真正的有效进入视野。其中一个挑战是检测和轨迹波之间的恰当关联。在许多情况下,不正确和不精确的目标检测也是低精度的结果。也存在一些挑战,如相似的外观经常使模型混淆轨道的初始化和终止是MOT中比较关键的任务多个对象之间的交互ID切换(同一对象在连续帧中被识别为不同,通过对象不出帧)。由于非刚性变形和类间相似的形状和其他外观属性,人和车辆在许多情况下带来了一些额外的挑战[13]。例如,车辆的形状和颜色与人的衣服不同。最后但并非最不重要的是,较小尺寸的物体在比例上产生了各种各样的视觉元素。Liting等人试图用更高分辨率、更高计算复杂度的图像来解决这个问题。在传统的多尺度预测技术[14]的基础上,采用分层特征图。

你可能感兴趣的:(导航避障,目标跟踪,深度学习,计算机视觉)