Chained-Tracker:链式成对关注回归结果,用于端到端联合多目标检测和跟踪

1.文章信息

本文是腾讯优图团队复旦大学日本奈良先端科学技术大学院大学一起完成的一项工作,是2020年7月底提交到arXiv中的一篇文章。

2.摘要

现有的多目标跟踪(MOT)方法要么遵循检测跟踪范式,分别进行目标检测、特征提取和数据关联,要么集成三个子任务中的两个子任务,形成部分端到端解决方案。除了这些次优框架之外,文章提出了一个名为Chained-Tracker(CTracker)的简单在线模型,它是第一个自然地将所有三个子任务集成到端到端的解决方案。它将从重叠节点(其中每个节点覆盖两个相邻帧)估计的成对边界框回归结果链接起来。成对回归由对象注意(由检测模块带来)和身份注意(由身份验证模块确保)引起。

两大创新:链式结构和成对注意回归,使CTracker变得简单、快速和有效,在MOT16和MOT17挑战数据集上创建了新的MOTA记录(分别为67.6和66.6),而不依赖任何额外的训练数据。

CTracker的源代码在github:https://github.com/pjl1995/CTracker

3.简介

基于视频的场景理解和人类行为分析是计算机视觉中的重要高级任务,在真实场景中有许多有价值的应用。它们涉及许多其他任务,其中多目标跟踪(MOT)是一项重要任务。然而,由于遮挡、对象轨迹重叠、可能具有挑战性的背景等的存在,MOT仍然具有挑战性,尤其是对于拥挤的场景。

尽管在过去几年多目标跟踪领域取得了一些令人鼓舞的进展,但现有MOT解决方案存在两个主要问题。一种是,大多数方法都基于检测跟踪范式,这是合理的,但由于全局(端到端)优化的不可行性,因此是次优的。它通常包含三个子任务:目标检测、特征提取和数据关联。然而,将整个任务拆分为孤立的子任务可能会导致局部最优解,并且比端到端解决方案的计算成本更高。此外,数据关联在很大程度上依赖于目标检测的质量,这本身很难在帧间生成可靠和稳定的结果,因为它丢弃了相邻帧的时间关系。

另一个问题是,最近的MOT方法越来越复杂,因为它们试图获得更好的性能。重新识别和注意力是有助于提高MOT性能的两个要点。重新识别(或ID验证)用于提取鲁棒性更好的特征以进行数据关联。注意力有助于模型更加专注,避免不相关但混乱的信息(例如复杂的背景)分散注意力。尽管它们是有效的,但它们在现有解决方案中的参与大大增加了模型的复杂性和计算成本。

为了解决上述问题,文章提出了一种新的在线跟踪方法——链式跟踪器(CTracker),它将目标检测、特征提取和数据关联统一到一个端到端模型中。如下图所示:

Chained-Tracker:链式成对关注回归结果,用于端到端联合多目标检测和跟踪_第1张图片

文章的CTracker(底部)与其他典型的MOT方法(顶部)的比较,这些方法要么是孤立的模型,要么是部分集成的模型。CTracker在两个方面与其他方法明显不同

1)它是一个完全端到端的模型,使用相邻帧对作为输入,并生成代表相同目标的框对

2)文章将具有挑战性的跨帧关联问题转化为成对目标检测问题。

因此,文章提出的新型CTracker模型比经典的检测跟踪或部分端到端MOT方法更干净、更简单。它采用相邻帧对作为输入,在单个回归模型中执行联合检测和跟踪,该模型同时回归出现在两个相邻帧中的目标的成对边界框。

此外,文章引入了一个使用预测置信图的联合注意模块,以进一步提高CTracker的性能。它引导成对框回归分支与其他两个分支一起关注信息空间区域。一个是对象分类分支,它预测检测到的框对中第一个框的置信度得分,这些得分用于引导回归分支聚焦前景区域。另一个是ID验证分支,其预测有助于回归分支关注与相同目标对应的区域。最后,根据分类置信度对boundingbox pairs进行过滤。然后,可以使用简单的方法(如IoU匹配)根据公共帧中的框来关联属于相邻帧对的生成框对。通过这种方式,跟踪过程可以通过顺序链接所有相邻帧对(即链节点)来实现。

得益于联合检测和跟踪网络的端到端优化,文章的模型在保持简单的同时,显示出明显优于强大竞争对手的优势。利用来自相邻帧的组合特征的时间信息,检测器变得更鲁棒,从而使数据关联更容易,最终获得更好的跟踪性能。

本文的贡献可以概括为以下几个方面:

1. 提出了一种端到端的在线多目标跟踪模型,以同时优化目标检测、特征提取和数据关联。文章提出的CTracker是第一种将具有挑战性的数据关联问题转化为成对目标检测问题的方法

2. 设计了一个联合注意模块来突出框对回归的信息区域,文中提出的CTrackeris的性能得到了进一步的改进

3. 文章提出的在线CTracker通过对MOT16和MOT17的检测,在跟踪结果上实现了最先进的性能。

4.方法论

A.问题定义

给定一个图像序列d10b85db372264a604354bf5ea8e3b0d.png,共有N帧,多对象跟踪任务的目标是输出所有帧中所有感兴趣对象的所有边界框11856950eb924e58d75172a06fbb2986.png和标识标签a03a1726c821921ad051a327b059990e.png

b1a6132e1747566a683efb9bb8195532.png表示第t帧,8062dfed751a70899db5cd6771e9eb3b.png表示第t帧和224aadcdcfffc50078c662d52936bac9.png中目标数c5d5065e8d2811064810eb4bbeffc6d4.png的真实值边界框,以此表示它们的身份。其中,最新的运动目标检测算法和运动目标特征提取算法分为三部分。许多研究和实验表明,检测性能在很大程度上决定了关联的有效性。因此,为了更好地利用它们的相关性,本文提出了一种新型链式跟踪器(缩写为CTracker),它使用单个网络同时实现目标检测、特征提取和数据关联。作者在下面的小节中分别介绍了CTracker的pipeline、网络和损耗设计的细节。

B.Chained-TrackerPipeline

框架

与其他仅以单个帧作为输入的MOT模型不同,文中的CTracker模型需要两个相邻帧作为输入,这称为链节点。第一个链节点是71aa3f14b6f2553ae30ba1e5754ca044.png,最后一个链节点是753ef99aa9703fe84da94efe89d05e53.png。请注意,033a2585d8cbc5dc65e5a9e5df8017d1.png是最后一帧,因此作者将55887a1a7c9d9565cc13fc471ce70143.png的复制版本作为8ee8c9e5e8ddd4de531146814879eefb.png。给定节点640f8446862afbd22254d57a16a85401.png作为输入,CTracker可以生成一对边界框5e0595d6b65cc2d51a702944fb833ef4.png两帧中出现的相同目标进行识别,其中a86f11743c7403f265a3639ac72def03.png是总对号,857a6c0db84b4e201fd7c519431f7051.png2fe5fda3156b2df10611ecd82379fdbb.png表示同一目标的两个边界框。类似地,我们也可以在下一个节点55ccdd44dda49cc17fe40c8752021a89.png中得到一对bboxfee2927aa371085beab039049727572a.png

如下图所示,假设9c615d726bca8fa08582771f0cf577be.pngbbe1f724069c7936ffe6db8a0ce5784d.png代表检测到位于相邻节点的公共帧中的相同目标的框,这两个框之间应该只有微小的差异。于是可以进一步使用一种非常简单的匹配策略(如下所述)来链接两个框,而不是像规范的MOT方法那样使用复杂的外观特征。通过在给定序列上按顺序链接节点,可以获得所有检测目标的长轨迹。

Chained-Tracker:链式成对关注回归结果,用于端到端联合多目标检测和跟踪_第2张图片

节点链接

为方便起见,使用1993367bd9510a22c81c86c9cd94b5ea.png表示46bfdece1877f37005387b8bd102ba0d.png。节点链接如下所示。首先,在节点中,每个检测到的边界框a254361ac7aaaff0aecb7791f61f80ad.png被初始化为具有随机分配标识的tracklet。其次,对于任何其他节点集,我们链接相邻节点c044318eed3df5774111fde42923b288.pngee3d323607ecc7dc9aeee7e565f0177d.png,如上图所示,通过计算5db59617570d589247444182d1c8226f.png652226cfb1658fb322e0fde892a88cab.png中方框之间的IoU来确定匹配情况,其中c4124224c0ceee4e51600fff7f57c24d.png6619c433a224754305f708ce504e5942.png的最后一组bbox,414157bb7519027523babd512215f191.png2be34826ecbc43106d122ceef3fb6741.png的前一对bbox。通过应用Kuhn-Munkres(KM)算法匹配a90a2c55bfd7e1d9d86e2121be06839e.png8d003d3bb09372fe9b1c86b03e176bbc.png中检测到的框,以获得IoU的匹配关系。对于每一对匹配的bc5e3fc30b490aeddc0df15e042247e9.png0195d59f8a6fa421663403680ce7237f.png,通过附加69e719b11b70b90acfd6a4450da5beb2.png更新2fa23c0bad4f11cb6d5cefc7501dcb6e.png所属的tracklet。任何不匹配的box09acbc87e45f6e64b4b9d3babd927359.png都将初始化为具有新标识的新tracklet。链接在所有相邻节点上按顺序完成,并为单个目标构建长轨迹。

鲁棒性增强(尤其针对遮挡)

为了增强模型对严重遮挡(在某些帧中可能导致检测失败)和短期消失(随后快速再现)的鲁棒性,我们保留终止的轨迹及其标识,最多保留σ帧,并继续在这些帧中为它们寻找匹配项,使用简单的恒定速度预测模型进行运动估计。更详细地说,假设目标5ea6202f76c01ee1f8c642166ad873b5.png无法找到其匹配的是节点t,文章根据应用等速模型在d50d0e07cdba238bdc11dd186f78fb61.png帧中预测其边界盒c003ae214576643e1bff1f91ebb4bcce.png(是比较可靠的5eeb38470e5bc1245b246f3d91cbb9ca.png)。当我们用3dd3d54f45df2f04a089e1eecd96f1c0.png41f19bcacf306edd3efc14e9d3d5ceab.png链接节点b53524fabe5a8e5a38d7749f6cb9fabd.png和节点dfb117ff2efcc3fb645ea0da0d440b26.png,用052fb0b86e5564ead2833488a29ea4b8.png表示的保留目标的所有预测边界框的当前集,被附加175a75a63faf3de478142ad431e28cea.png到以与6613470c737947f7181898964b636eac.png匹配。如果4cbf9c36d9191e77922b64daa72811a1.png获得匹配,则其tracklet将通过链接到新的边界框进行扩展。

有效性和局限性

此模型对于处理目标出现或消失(即进入或离开摄像机视图)的情况是有效的,这在MOT中非常常见。当目标不在帧t-1中但出现在帧t中时,很可能在链节点c71f15a4c7d33c38728689a0483b5502.png中没有生成它的边界框对。但是,只要该目标继续出现在41258090c21fca2563953caf758c5e0f.png帧中,它就会在下一个链节点59aaff283c83ba3605f4394fdd91d117.png中被检测到,并在那里获得一个新的tracklet和标识。类似地,如果目标位于t-1帧中,但从t帧中消失,在节点a6126300722f908bf31f6c3dfb384064.png中不会检测到它,导致其tracklet在节点t−1甚至t−2中终止。值得注意的是,链接操作本身无法完全参数化,因此无法与回归一起进行优化。由于下述的回归模型完成了主要工作,并且不需要从链接操作中获得反馈,因此我们仍然使用“端到端”属性来描述CTracker。纯端到端可训练模型需要对当前基于IoU匹配的链接策略进行可微替换。

C.网络体系结构

概述

文章提出的CTracker网络使用两个相邻帧作为输入,并对同一目标的边界框对进行重分组。为此,使用ResNet-50作为背景来提取高级语义特征。然后集成特征金字塔网络(FPN)生成多尺度特征表示,用于后续预测。为了关联相邻帧中的目标,首先将单个帧中的比例级特征映射连接在一起,然后将其送入预测网络以获得无网格的包围盒对。

Chained-Tracker:链式成对关注回归结果,用于端到端联合多目标检测和跟踪_第3张图片

如上图所示,成对框回归分支为每个目标生成框对,并且对象分类分支预测指示前景可信度的每对的分数。为了帮助配对框回归分支避免不相关但混乱的信息分散注意力,使用对象分类分支和额外ID验证分支进行注意引导。

配对盒回归

受在对象检测中预测相对于预定义(默认)锚框的偏移的启发,作者为成对框回归分支提出了链式锚,以同时回归两个框。作为大多数目标检测方法中使用的锚点的一种新的自然衍生,链式锚点密集地排列在空间网格上,每个锚点都允许预测两个相邻帧中相同对象实例的两个边界框。为了处理真实场景中的大规模变化,在数据集中的所有地面真值边界框上进行K-均值聚类,以获得链式锚的比例。并将每个聚类分配到相应的FPN级别,以用于以后的特定规模预测。首先根据每对中第一个框的IoU,使用soft NMS对检测到的边界框对进行后处理,然后根据分类分支的置信度得分进行过滤。最后,使用第节中描述的方法将剩余的盒子对链接到整个跟踪轨迹中。为了使文章的模型保持简单,配对盒回归分支和分类分支仅堆叠四个连续的3×3层,在最终卷积层之前交错有ReLU激活。

联合注意模块

文章设计了一个基于注意机制的组件,称为联合注意模块(Joint AttentionModule,JAM),用于在回归分支之前突出组合特征中的局部信息区域。

如上图右侧所示,引入ID验证分支以获得置信度得分,指示检测到的对中的两个框是否属于同一目标。然后,将身份验证分支和目标分类分支的预测置信图作为注意图。请注意,来自两个分支的指导是互补的,来自分类分支的置信度图聚焦于前景区域,而来自ID验证分支的预测用于突出显示相同目标的特征。

特征重用

由于网络的输入包含两个相邻帧,因此在跟踪过程中必须使用两个相邻节点的公共帧。为了避免推理过程中几乎两倍的计算和内存开销,文章提出了一种内存共享机制(MSM),用于临时保存当前帧的提取特征,并在处理下一个节点之前重用它们,如下图所示。

Chained-Tracker:链式成对关注回归结果,用于端到端联合多目标检测和跟踪_第4张图片

此外,为了对最后一个节点进行推断,文章复制了N帧作为假设帧11a851f359413833d4c3db01d784ace3.png。为了进一步避免对17791e3a62046f8b15070c1185ff77bc.png帧的重复计算,文章还将特征重用的技巧应用于N帧,并将N帧的特征复制为假设帧ec7529ea0a6257204fb35f735bda6982.png的特征。文章证明了所提出的MSM可以减少总计算量和时间开销的一半。

标签分配与损失设计

对于任意链节点74ab5998089e59f6481c7adeb75c9a91.png,让2f91fbf5e54151f59621f214cd78b486.png表示其第i个链锚(其中329a7ed9a50d193d00ee688e606cbac2.pngd20186188a92d9dd56cf02c8e2aff34c.png是框中心坐标;01fe9850db451ac2511bf8c911ab0bd9.pnge5eb162cf4b4efc69dd266b9695775f2.png分别是宽度和高度),我们采用与SSD类似的真值边界框匹配策略。我们使用矩阵M来表示这种匹配的结果。如果20ab73fe80713c0ebd2839b4374e81ba.pngef7735ec9f59ea32c3228560f8cda376.png的对应真值边界框(以f96574b4f9233eea1217e52b797b73bf.png为单位),它由IoU比率(高于阈值cff737c46001debe70ee9db4d489ed78.png)判断,那么我们得到937fd2d118ad5522fcbd8ea137976a99.png。如果IoU比率低于另一个较小的阈值0ff715944b20e59f354125e8124bb2c9.png,则1ebc34662efbfb569b21c49414d0b34c.png。根据M,我们可以将地面真相c23af0b09f01f00d7ed796afb70cb68d.png标签分配给CTracker的3568fc4c4cb0515bbdbf058708287470.png分类分支,如下所示:

400200f6aeb3451382c25f8d3d9152a5.png

其中6446226cfe60bb431f95c6d630ecd265.png0f80813185eeff357cb8c00dbbaf61de.png帧的真值边界框总数。

21f7807a564cac445302173facbcb04c.png中,假设预测的一对边界框为08392ef69e823c479f3dd220e37f3be6.png,且存在时对应的地面真值边界框为63d32d49a7c7828f267e9fd556d304dd.png,CTracker的ID验证分支应获得其真值标签:

3e6be30179a59eb58d6ab1839633d1a9.png

89c8ea05fc64d3f1eacbd7652bc0a14c.png表示边界框中目标的标识。

我们跟随Faster R-CNN回归9d3109b8c4740c398f720029b9a076ec.png的偏移量,其中b617cc9aa40ffd12fd69e349e42ddb9e.pngcf866498e81a4acaab6c39deeb9d3405.png表示这些偏移,cfedef6977c2cb2919b2717016764b29.png是对真值的补充,文章列出了ea240aefe710914b0d9c7247a319d73d.pngd4ce5482772a555246280bb7bcabbb1d.png的详细信息(其他类似):

bf35c018644eefc554e9d1c1aca8e927.png

成对框回归分支的损失定义如下:

6a87a5d9d2867e384f47f53e942015bc.png                

其中c3f2d4f3e8d617b68d8d38a0fd0af55d.pngb41495aa03db4325a9f1bd8ec8658366.png损失。

CTracker的总损失为:

36bd403e178f4cb8b1ac3e719bc92cd8.png

其中491daefabffecc71acc089d25a7cf9cd.png2cb75520a85da02fa2f11b827a87f9d8.png分别是分类分支和ID验证分支(用于缓解样本不平衡问题)的焦点损失,a09e1be0ecaea8f1a86562de5df5e40f.png6a1f445d84bba48f247454d5fb7c805c.png表示其预测(置信度得分);α和β是权重因子。

5.实验

数据集和评估指标

文章在两个公共数据集上进行了实验:MOT16和MOT17。其中包含相同的图像序列,包括7个训练序列和7个测试序列。然而,MOT16和MOT17包含不同的检测输入和不同的地面真相标签(边界框和身份),这将影响CTracker的培训。在公共检测中,MOT16包括DPM[25]检测器,而MOT17包括DPM、Faster R-CNN和SDP检测器。为了与其他方法进行公平比较,我们使用来自MOT16和MOT17的训练数据分别训练了两个模型,并将这两个模型分别应用于MOT16测试集和MOT17测试集。在MOT挑战基准中,跟踪性能通过广泛使用的清晰MOT度量来衡量,包括多目标跟踪精度(MOTA)、多目标跟踪精度(MOTP)、误报总数(FN)、误报(FP)、身份切换(ID)和大部分跟踪轨迹的百分比(MT),大部分丢失的轨迹(ML)。ID F1分数(IDF1)也用于测量弹道识别精度。在这些指标中,MOTA是衡量总体检测和跟踪性能的主要指标。此外,我们使用跟踪速度(以每秒帧数(Hz)为单位)来测量所有方法的跟踪速度。

实施细节

所有的实验都是在PyTorch框架上实现的。在训练期间为了避免过度拟合,文章使用了几种数据增强策略,如光度畸变、随机翻转和随机裁剪。相同的增强操作保证应用于同一训练对中的每个图像。然后,将增强图像对缩小或填充到原始图像较短一侧的一半。文章还在时间维度中添加了一种新的数据增强策略,以形成链节点。

在以下所有实验中,文章使用Resnet50网络作为主干网,以实现速度精度的折衷。除Resnet50中的BN参数外,所有可训练权重均使用EADAM优化器进行端到端训练。文章使用Kaiming初始化方法初始化所有新添加的卷积层的参数,并将初始学习速率设置为5×e−5.模型训练过程需要100个阶段,批量大小为8(4个训练对)。损失函数中的加权因子α和β均设置为1。

Ctracker在MOT17测试数据集的定性结果,MOT1703序列由静态摄像机捕获,MOT17-07序列由移动摄像机捕获。检测到的边界框和具有相同标识的跟踪轨迹以相同的颜色显示。

Chained-Tracker:链式成对关注回归结果,用于端到端联合多目标检测和跟踪_第5张图片

6.结论

本文设计了一种新的联合多目标检测与跟踪框架链式跟踪器,这是第一个完全端到端的解决方案。与现有的方法不同,文章使用两个相邻的帧作为网络的输入,称为链节点。该网络在一个简单但新颖的联合注意模块的引导下,在两个相邻帧中回归同一目标的一对边界框:检测驱动对象注意和身份验证注入身份注意的相互作用。使用简单的IoU信息,两个相邻和重叠的节点可以通过它们在公共帧中的框链接起来。可通过交替应用成对盒回归和节点链接来生成跟踪轨迹。在广泛使用的MOT基准上的大量实验证明了我们的方法在有效性和效率方面的优越性。

Attention

如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!

你可能感兴趣的:(python,计算机视觉,机器学习,人工智能,深度学习)