1.文章信息
本文是腾讯优图团队和复旦大学、日本奈良先端科学技术大学院大学一起完成的一项工作,是2020年7月底提交到arXiv中的一篇文章。
2.摘要
现有的多目标跟踪(MOT)方法要么遵循检测跟踪范式,分别进行目标检测、特征提取和数据关联,要么集成三个子任务中的两个子任务,形成部分端到端解决方案。除了这些次优框架之外,文章提出了一个名为Chained-Tracker(CTracker)的简单在线模型,它是第一个自然地将所有三个子任务集成到端到端的解决方案。它将从重叠节点(其中每个节点覆盖两个相邻帧)估计的成对边界框回归结果链接起来。成对回归由对象注意(由检测模块带来)和身份注意(由身份验证模块确保)引起。
两大创新:链式结构和成对注意回归,使CTracker变得简单、快速和有效,在MOT16和MOT17挑战数据集上创建了新的MOTA记录(分别为67.6和66.6),而不依赖任何额外的训练数据。
CTracker的源代码在github:https://github.com/pjl1995/CTracker
3.简介
基于视频的场景理解和人类行为分析是计算机视觉中的重要高级任务,在真实场景中有许多有价值的应用。它们涉及许多其他任务,其中多目标跟踪(MOT)是一项重要任务。然而,由于遮挡、对象轨迹重叠、可能具有挑战性的背景等的存在,MOT仍然具有挑战性,尤其是对于拥挤的场景。
尽管在过去几年多目标跟踪领域取得了一些令人鼓舞的进展,但现有MOT解决方案存在两个主要问题。一种是,大多数方法都基于检测跟踪范式,这是合理的,但由于全局(端到端)优化的不可行性,因此是次优的。它通常包含三个子任务:目标检测、特征提取和数据关联。然而,将整个任务拆分为孤立的子任务可能会导致局部最优解,并且比端到端解决方案的计算成本更高。此外,数据关联在很大程度上依赖于目标检测的质量,这本身很难在帧间生成可靠和稳定的结果,因为它丢弃了相邻帧的时间关系。
另一个问题是,最近的MOT方法越来越复杂,因为它们试图获得更好的性能。重新识别和注意力是有助于提高MOT性能的两个要点。重新识别(或ID验证)用于提取鲁棒性更好的特征以进行数据关联。注意力有助于模型更加专注,避免不相关但混乱的信息(例如复杂的背景)分散注意力。尽管它们是有效的,但它们在现有解决方案中的参与大大增加了模型的复杂性和计算成本。
为了解决上述问题,文章提出了一种新的在线跟踪方法——链式跟踪器(CTracker),它将目标检测、特征提取和数据关联统一到一个端到端模型中。如下图所示:
文章的CTracker(底部)与其他典型的MOT方法(顶部)的比较,这些方法要么是孤立的模型,要么是部分集成的模型。CTracker在两个方面与其他方法明显不同:
1)它是一个完全端到端的模型,使用相邻帧对作为输入,并生成代表相同目标的框对
2)文章将具有挑战性的跨帧关联问题转化为成对目标检测问题。
因此,文章提出的新型CTracker模型比经典的检测跟踪或部分端到端MOT方法更干净、更简单。它采用相邻帧对作为输入,在单个回归模型中执行联合检测和跟踪,该模型同时回归出现在两个相邻帧中的目标的成对边界框。
此外,文章引入了一个使用预测置信图的联合注意模块,以进一步提高CTracker的性能。它引导成对框回归分支与其他两个分支一起关注信息空间区域。一个是对象分类分支,它预测检测到的框对中第一个框的置信度得分,这些得分用于引导回归分支聚焦前景区域。另一个是ID验证分支,其预测有助于回归分支关注与相同目标对应的区域。最后,根据分类置信度对boundingbox pairs进行过滤。然后,可以使用简单的方法(如IoU匹配)根据公共帧中的框来关联属于相邻帧对的生成框对。通过这种方式,跟踪过程可以通过顺序链接所有相邻帧对(即链节点)来实现。
得益于联合检测和跟踪网络的端到端优化,文章的模型在保持简单的同时,显示出明显优于强大竞争对手的优势。利用来自相邻帧的组合特征的时间信息,检测器变得更鲁棒,从而使数据关联更容易,最终获得更好的跟踪性能。
本文的贡献可以概括为以下几个方面:
1. 提出了一种端到端的在线多目标跟踪模型,以同时优化目标检测、特征提取和数据关联。文章提出的CTracker是第一种将具有挑战性的数据关联问题转化为成对目标检测问题的方法
2. 设计了一个联合注意模块来突出框对回归的信息区域,文中提出的CTrackeris的性能得到了进一步的改进
3. 文章提出的在线CTracker通过对MOT16和MOT17的检测,在跟踪结果上实现了最先进的性能。
4.方法论
A.问题定义
给定一个图像序列,共有N帧,多对象跟踪任务的目标是输出所有帧中所有感兴趣对象的所有边界框和标识标签。
表示第t帧,表示第t帧和中目标数的真实值边界框,以此表示它们的身份。其中,最新的运动目标检测算法和运动目标特征提取算法分为三部分。许多研究和实验表明,检测性能在很大程度上决定了关联的有效性。因此,为了更好地利用它们的相关性,本文提出了一种新型链式跟踪器(缩写为CTracker),它使用单个网络同时实现目标检测、特征提取和数据关联。作者在下面的小节中分别介绍了CTracker的pipeline、网络和损耗设计的细节。
B.Chained-TrackerPipeline
框架
与其他仅以单个帧作为输入的MOT模型不同,文中的CTracker模型需要两个相邻帧作为输入,这称为链节点。第一个链节点是,最后一个链节点是。请注意,是最后一帧,因此作者将的复制版本作为。给定节点作为输入,CTracker可以生成一对边界框两帧中出现的相同目标进行识别,其中是总对号,和表示同一目标的两个边界框。类似地,我们也可以在下一个节点中得到一对bbox。
如下图所示,假设和代表检测到位于相邻节点的公共帧中的相同目标的框,这两个框之间应该只有微小的差异。于是可以进一步使用一种非常简单的匹配策略(如下所述)来链接两个框,而不是像规范的MOT方法那样使用复杂的外观特征。通过在给定序列上按顺序链接节点,可以获得所有检测目标的长轨迹。
节点链接
为方便起见,使用表示。节点链接如下所示。首先,在节点中,每个检测到的边界框被初始化为具有随机分配标识的tracklet。其次,对于任何其他节点集,我们链接相邻节点和,如上图所示,通过计算和中方框之间的IoU来确定匹配情况,其中是的最后一组bbox,是的前一对bbox。通过应用Kuhn-Munkres(KM)算法匹配和中检测到的框,以获得IoU的匹配关系。对于每一对匹配的和,通过附加更新所属的tracklet。任何不匹配的box都将初始化为具有新标识的新tracklet。链接在所有相邻节点上按顺序完成,并为单个目标构建长轨迹。
鲁棒性增强(尤其针对遮挡)
为了增强模型对严重遮挡(在某些帧中可能导致检测失败)和短期消失(随后快速再现)的鲁棒性,我们保留终止的轨迹及其标识,最多保留σ帧,并继续在这些帧中为它们寻找匹配项,使用简单的恒定速度预测模型进行运动估计。更详细地说,假设目标无法找到其匹配的是节点t,文章根据应用等速模型在帧中预测其边界盒(是比较可靠的)。当我们用和链接节点和节点,用表示的保留目标的所有预测边界框的当前集,被附加到以与匹配。如果获得匹配,则其tracklet将通过链接到新的边界框进行扩展。
有效性和局限性
此模型对于处理目标出现或消失(即进入或离开摄像机视图)的情况是有效的,这在MOT中非常常见。当目标不在帧t-1中但出现在帧t中时,很可能在链节点中没有生成它的边界框对。但是,只要该目标继续出现在帧中,它就会在下一个链节点中被检测到,并在那里获得一个新的tracklet和标识。类似地,如果目标位于t-1帧中,但从t帧中消失,在节点中不会检测到它,导致其tracklet在节点t−1甚至t−2中终止。值得注意的是,链接操作本身无法完全参数化,因此无法与回归一起进行优化。由于下述的回归模型完成了主要工作,并且不需要从链接操作中获得反馈,因此我们仍然使用“端到端”属性来描述CTracker。纯端到端可训练模型需要对当前基于IoU匹配的链接策略进行可微替换。
C.网络体系结构
概述
文章提出的CTracker网络使用两个相邻帧作为输入,并对同一目标的边界框对进行重分组。为此,使用ResNet-50作为背景来提取高级语义特征。然后集成特征金字塔网络(FPN)生成多尺度特征表示,用于后续预测。为了关联相邻帧中的目标,首先将单个帧中的比例级特征映射连接在一起,然后将其送入预测网络以获得无网格的包围盒对。
如上图所示,成对框回归分支为每个目标生成框对,并且对象分类分支预测指示前景可信度的每对的分数。为了帮助配对框回归分支避免不相关但混乱的信息分散注意力,使用对象分类分支和额外ID验证分支进行注意引导。
配对盒回归
受在对象检测中预测相对于预定义(默认)锚框的偏移的启发,作者为成对框回归分支提出了链式锚,以同时回归两个框。作为大多数目标检测方法中使用的锚点的一种新的自然衍生,链式锚点密集地排列在空间网格上,每个锚点都允许预测两个相邻帧中相同对象实例的两个边界框。为了处理真实场景中的大规模变化,在数据集中的所有地面真值边界框上进行K-均值聚类,以获得链式锚的比例。并将每个聚类分配到相应的FPN级别,以用于以后的特定规模预测。首先根据每对中第一个框的IoU,使用soft NMS对检测到的边界框对进行后处理,然后根据分类分支的置信度得分进行过滤。最后,使用第节中描述的方法将剩余的盒子对链接到整个跟踪轨迹中。为了使文章的模型保持简单,配对盒回归分支和分类分支仅堆叠四个连续的3×3层,在最终卷积层之前交错有ReLU激活。
联合注意模块
文章设计了一个基于注意机制的组件,称为联合注意模块(Joint AttentionModule,JAM),用于在回归分支之前突出组合特征中的局部信息区域。
如上图右侧所示,引入ID验证分支以获得置信度得分,指示检测到的对中的两个框是否属于同一目标。然后,将身份验证分支和目标分类分支的预测置信图作为注意图。请注意,来自两个分支的指导是互补的,来自分类分支的置信度图聚焦于前景区域,而来自ID验证分支的预测用于突出显示相同目标的特征。
特征重用
由于网络的输入包含两个相邻帧,因此在跟踪过程中必须使用两个相邻节点的公共帧。为了避免推理过程中几乎两倍的计算和内存开销,文章提出了一种内存共享机制(MSM),用于临时保存当前帧的提取特征,并在处理下一个节点之前重用它们,如下图所示。
此外,为了对最后一个节点进行推断,文章复制了N帧作为假设帧。为了进一步避免对帧的重复计算,文章还将特征重用的技巧应用于N帧,并将N帧的特征复制为假设帧的特征。文章证明了所提出的MSM可以减少总计算量和时间开销的一半。
标签分配与损失设计
对于任意链节点,让表示其第i个链锚(其中和是框中心坐标;和分别是宽度和高度),我们采用与SSD类似的真值边界框匹配策略。我们使用矩阵M来表示这种匹配的结果。如果是的对应真值边界框(以为单位),它由IoU比率(高于阈值)判断,那么我们得到。如果IoU比率低于另一个较小的阈值,则。根据M,我们可以将地面真相标签分配给CTracker的分类分支,如下所示:
其中是帧的真值边界框总数。
在中,假设预测的一对边界框为,且存在时对应的地面真值边界框为,CTracker的ID验证分支应获得其真值标签:
表示边界框中目标的标识。
我们跟随Faster R-CNN回归的偏移量,其中,表示这些偏移,是对真值的补充,文章列出了的详细信息(其他类似):
成对框回归分支的损失定义如下:
其中是损失。
CTracker的总损失为:
其中和分别是分类分支和ID验证分支(用于缓解样本不平衡问题)的焦点损失,和表示其预测(置信度得分);α和β是权重因子。
5.实验
数据集和评估指标
文章在两个公共数据集上进行了实验:MOT16和MOT17。其中包含相同的图像序列,包括7个训练序列和7个测试序列。然而,MOT16和MOT17包含不同的检测输入和不同的地面真相标签(边界框和身份),这将影响CTracker的培训。在公共检测中,MOT16包括DPM[25]检测器,而MOT17包括DPM、Faster R-CNN和SDP检测器。为了与其他方法进行公平比较,我们使用来自MOT16和MOT17的训练数据分别训练了两个模型,并将这两个模型分别应用于MOT16测试集和MOT17测试集。在MOT挑战基准中,跟踪性能通过广泛使用的清晰MOT度量来衡量,包括多目标跟踪精度(MOTA)、多目标跟踪精度(MOTP)、误报总数(FN)、误报(FP)、身份切换(ID)和大部分跟踪轨迹的百分比(MT),大部分丢失的轨迹(ML)。ID F1分数(IDF1)也用于测量弹道识别精度。在这些指标中,MOTA是衡量总体检测和跟踪性能的主要指标。此外,我们使用跟踪速度(以每秒帧数(Hz)为单位)来测量所有方法的跟踪速度。
实施细节
所有的实验都是在PyTorch框架上实现的。在训练期间为了避免过度拟合,文章使用了几种数据增强策略,如光度畸变、随机翻转和随机裁剪。相同的增强操作保证应用于同一训练对中的每个图像。然后,将增强图像对缩小或填充到原始图像较短一侧的一半。文章还在时间维度中添加了一种新的数据增强策略,以形成链节点。
在以下所有实验中,文章使用Resnet50网络作为主干网,以实现速度精度的折衷。除Resnet50中的BN参数外,所有可训练权重均使用EADAM优化器进行端到端训练。文章使用Kaiming初始化方法初始化所有新添加的卷积层的参数,并将初始学习速率设置为5×e−5.模型训练过程需要100个阶段,批量大小为8(4个训练对)。损失函数中的加权因子α和β均设置为1。
Ctracker在MOT17测试数据集的定性结果,MOT1703序列由静态摄像机捕获,MOT17-07序列由移动摄像机捕获。检测到的边界框和具有相同标识的跟踪轨迹以相同的颜色显示。
6.结论
本文设计了一种新的联合多目标检测与跟踪框架链式跟踪器,这是第一个完全端到端的解决方案。与现有的方法不同,文章使用两个相邻的帧作为网络的输入,称为链节点。该网络在一个简单但新颖的联合注意模块的引导下,在两个相邻帧中回归同一目标的一对边界框:检测驱动对象注意和身份验证注入身份注意的相互作用。使用简单的IoU信息,两个相邻和重叠的节点可以通过它们在公共帧中的框链接起来。可通过交替应用成对盒回归和节点链接来生成跟踪轨迹。在广泛使用的MOT基准上的大量实验证明了我们的方法在有效性和效率方面的优越性。
Attention
如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!