【经典论文阅读】DeepSort论文阅读与思路分析

文章目录

  • 1. Abstract
  • 2. Introduction
  • 3. SORT WITH DEEP ASSOCIATION METRIC
    • 3.1 Track Handling and State Estimation
    • 3.2 Assignment Problem
    • 3.3 Matching Cascade
    • 3.4 Deep Appearance Descriptor
  • 4. My_Conclusion

这里对deepsort算法的核心做了梳理:【多目标追踪算法】Deepsort算法核心—卡尔曼滤波与匈牙利算法

如果已经搜了很多博客,前置知识足够,建议直接看总结。

1. Abstract

In this paper, we integrate appearance information to improve the performance of SORT.

【经典论文阅读】DeepSort论文阅读与思路分析_第1张图片
摘要说明了:

  • Deepsort整合了外观信息appearance information改进sort。
  • 这部分是在一个行人重识别数据集上离线预训练的。
  • IDsw减少了45%

2. Introduction

随着目标检测技术的发展,逐检测跟踪已成为多目标跟踪的主流

简单在线和实时跟踪 Simple online and realtime tracking (SORT) 是一个很简单的框架,它在图像空间中执行卡尔曼滤波,并使用匈牙利方法和一个度量边界框重叠的关联度量逐帧数据关联。这种简单的方法可以在高帧率下获得良好的性能。

虽然在跟踪精度和准确性方面实现了良好的总体性能,但SORT返回的IDsw相对较高。这是因为所采用的关联度量仅在状态估计不确定性较低时才准确。因此,SORT在通过遮挡进行跟踪时存在缺陷,因为它们通常出现在正视相机场景中。我们通过将关联度量替换为结合了运动和外观信息来克服这个问题。

特别地,我们应用了卷积神经网络(CNN),它经过训练,可以在大规模的人员再识别数据集中区分行人。通过该网络的集成,我们增加了对失误和遮挡的鲁棒性。

3. SORT WITH DEEP ASSOCIATION METRIC

3.1 Track Handling and State Estimation

因此,我们的跟踪场景是在八维状态空间(u, v, γ, h,˙x,˙y,˙γ,˙h)上定义的,该空间包含边界框中心位置(u, v)、长径比γ、高度h以及它们在图像坐标中的各自速度。我们使用一个标准的卡尔曼滤波器,具有恒定的速度运动和线性观测模型,其中我们将边界坐标(u, v, γ, h)作为对目标状态的直接观测。

对于每个轨道k,我们计算自最后一次成功测量关联ak以来的帧数。该计数器在卡尔曼滤波预测期间递增,当轨迹与测量相关联时重置为0。

超过预定义的 maximum age Amax 的轨迹被认为已经离开场景,并从轨迹集中删除。对于每一个不能与现有轨迹相关联的探测,都会启动新的轨迹假设。这些新轨道被分类为暂定在他们的前三帧。在此期间,我们期望在每个时间步骤中都能成功地进行度量关联。在前三帧内没有成功关联到测量的轨迹将被删除。

3.2 Assignment Problem

解决预测卡尔曼状态(预测框)新到达的测量值(检测框) 之间关联的一种传统方法是建立一个可以用匈牙利算法解决的分配问题。在这个问题的表述中,我们通过结合两个适当的度量来集成运动和外观信息。

为了整合运动信息,我们使用预测卡尔曼状态和新到达的测量值之间的(平方)马氏距离:
【经典论文阅读】DeepSort论文阅读与思路分析_第2张图片
当运动不确定性较低时,马氏距离是一个合适的关联度量,在我们的图像空间问题公式中,从卡尔曼滤波框架获得的预测状态分布只提供了目标位置的粗略估计。特别是,未解释的相机运动可以在图像平面中引入快速位移,使得马氏距离成为通过遮挡跟踪的一个相当不知情的度量。

【经典论文阅读】DeepSort论文阅读与思路分析_第3张图片
对于每一个检测框dj,我们计算一个外观描述rj。我们把rj 通每个轨迹组成一个序列。然后,我们的第二个度量外观:空间中第i个轨迹和第j个检测之间的最小余弦距离。
在这里插入图片描述余弦距离:
【经典论文阅读】DeepSort论文阅读与思路分析_第4张图片

结合起来,这两个度量标准通过服务于分配问题的不同方面而相互补充。
一方面,马氏距离提供了基于运动的物体可能位置的信息,这对短期预测特别有用
另一方面,余弦距离考虑的外观信息是特别有用的,以恢复身份后,长期闭塞,当运动的区别较小。为了构建关联问题,我们使用加权和将两个指标结合起来
【经典论文阅读】DeepSort论文阅读与思路分析_第5张图片
其中如果关联在两个度量的门控区域内,我们称其为允许关联
【经典论文阅读】DeepSort论文阅读与思路分析_第6张图片
在实验过程中,我们发现当摄像机运动较大时,λ = 0是一个合理的选择。在此设置中,关联成本项中只使用外观信息。

然而,马氏距离仍然用于忽略不可行的分配。

3.3 Matching Cascade

【经典论文阅读】DeepSort论文阅读与思路分析_第7张图片
输入:轨迹集合,检测集合,最大生存时间
1.计算损失矩阵C
2.计算阈值控制矩阵B
3.初始化匹配集合M
4.初始化未匹配检测集合U
5.对于n属于{1,2,3…,Amax}
6. 根据生存时间选轨迹
7. 计算最小匹配损失
8. 计算M
9. 计算U
10.循环结束
11. 返回值

3.4 Deep Appearance Descriptor

为此,我们使用了一个经过训练的CNN,该CNN使用了一个大规模的人员再识别数据集,该数据集包含1261名行人的超过110万张图像,使其非常适合在人员跟踪环境中进行深度度量学习。【经典论文阅读】DeepSort论文阅读与思路分析_第8张图片

4. My_Conclusion

论文创新点:

  • 级联匹配
  • 重识别网络CNN

【经典论文阅读】DeepSort论文阅读与思路分析_第9张图片

  • 先看红线:第1帧,行人进入摄像区域,目标检测网络进行检测。由于此时没有预测框,属于未匹配的检测框,直接生成新的Tracks,并由卡尔曼滤波生成预测框。此时是Unconfirmed(连续匹配三次才是Confirm)。
  • 再看黄线:假设是第1帧,目标检测网络进行行人检测生成检测框与上一帧卡尔曼生成的预测框进行IOU匹配。若匹配上,则卡尔曼滤波更新,并生成新的轨迹,再由卡尔曼滤波生成预测框(是不是确认态需要看次数,连续匹配超过3次就是)。
  • 最后看粉线:假设是第10帧,此时预测框以是确认态。若检测框与预测框级联匹配,则继续生成新的轨迹。

下面我们来看一下没有匹配上是什么情况:

  • 先看黄线:若行人离开摄像头的区域,检测框不存在,只剩下上一帧轨迹的预测框,如果是未确认状态,直接扔掉。如果是确认状态,则等待30次,因为行人未被检测到还可能是由于遮挡。若30帧内被检测到,则继续生成新的轨迹,若没有被检测到,则扔掉。
  • 再看粉线:确认态轨迹的预测框与上游的检测框级联匹配。若行人离开摄像头的区域或被遮挡,则轨迹不被匹配,不做操作;若Detections和Tracks失配,这时将之前的不确认状态的Tracks和失配的Tracks一起和Unmatched Detections一一进行IOU匹配

这是我对该流程图的理解。欢迎批评讨论!

你可能感兴趣的:(#,DL经典论文阅读,论文阅读)