Track to Detect and Segment: An Online Multi-Object Tracker

Track to Detect and Segment: An Online Multi-Object Tracker(一 原文阅读)

来源:CVPR2021 https://arxiv.org/abs/2103.08808
Code:https://github.com/JialianW/TraDeS

主要思想:提出一个全新的TraDeS模型其通过利用追踪线索帮助检测,然后再通过检测到的内容为下一步的追踪提供反馈。在TraDes结构中主要有两个模块:CVA和MFW。
CVA学习专门设计的re-ID嵌入并通过4d cost volume对目标运动进行建模。MFW以CVA的动作为线索来传播先前的物体特征,以增强当前的检测或分割效果。
文章翻译:
Abstract:
Introduction:先进的在线多目标追踪主要遵循两种范式:通过检测来追踪(TBD)、联合检测和追踪(JDT)。TBD范式把追踪和检测看作是两个独立的任务,通常使用现成的目标检测器进行检测,并使用另一个独立的网络进行数据关联。由于采用了两阶段处理,因此TBD系统效率低下,并且未进行端到端优化。 为了解决这个问题,最近的解决方案支持联合检测和追踪(JDT)范例,该范例可在单个前向通行网络同时执行检测和跟踪。然而JDT的方法也存在两个主要的问题:一是尽管在大多数的JDT中,backbone是共享的,但检测通常是独立进行并且没有探索追踪线索。通常我们认为,检测是稳定和持续的track-let的基石,反过来跟踪线索将有助于检测,特别是在困难的场景,如部分遮挡和运动模糊。二是根据我们的实验表明,常见的Re-Id追踪loss与联合训练单个骨干网络时的检测loss不兼容,这在一定程度上会损害检测性能。原因是re-ID着重于类内方差,而检测的目的是扩大类间差异,最小化类内方差。
本文中提出了一种联合检测和追踪的模型-TraDeS。在TraDeS中类似于CenterNet,特征图中的每个点要么表示目标中心要么表示一个背景区域。TraDeS通过紧密结合跟踪检测和专门设计的re-ID学习方案解决了上述两个问题。我们提出了一个基于cost volume的关联(CVA)模块和一个运动引导的特征扭曲(MFW)模块。CVA通过骨干网络提取逐点的re-ID嵌入特征来构建一个cost volume,它将嵌入对之间的匹配相似性存储在两帧中。然后我们从cost volume中推断出追踪的偏移量,即所有点的时空位移,在两个帧中潜在的目标中心。追踪偏移和嵌入一起被用来进行一个简单的两轮长期数据关联。之后,MFW将追踪偏移作为运动提示,以将对象特征从先前的帧传播到当前的帧。最后,对传播特征和当前特征进行聚合,进行检测和分割。
在CVA模块中,cost volume被用来监督re-ID嵌入,其中隐式的考虑了不同的目标类别和背景区域。也就是说,我们的re-ID目标涉及类间方差。这种方法不仅可以学习有效的嵌入,如常见的re-ID loss,而且还与检测loss非常兼容,并且不会影响检测性能。此外,由于追踪偏移量是根据外观嵌入相似性来预测的,所以它可以在低帧率下匹配非常大的运动对象,甚至可以用看不见的大运动在不同的数据集中精确的跟踪目标。因此,目标的预测跟踪偏移量可以作为鲁棒运动线索来指导我们在MFW模块中的特征传播。当前帧中被遮挡和模糊的目标在早期的帧中可能是清晰的,因此以前帧中传播的特征可能支持当前特征,以通过MFW模块恢复可能丢失的目标。
总的来说,我们提出了一种新颖的在线多目标跟踪器——TraDeS,它将跟踪线索深度集成到端到端框架中的辅助检测和回报收益跟踪中。TraDeS是一个通用的跟踪器,它很容易通过添加一个简单的实例分割分支扩展到实例分割跟踪。
Related Work:
Tracking-by-Detection :在过去的时间里,MOT一直由TBD所主导。在这个框架中,首先应用现成的目标检测器为每个帧生成检测框,然后使用一个单独的re-ID模型提取检测到的boxes的外观特征。为了建立tracklet,一种简单的解决方法是直接使用运动模型(例如卡尔曼滤波器)计算外观和运动亲和力,然后通过匹配算法求解数据关联。其他一些工作通过将每个检测视为图结点,将数据关联化为图形优化问题。然后TBD方法将检测和追踪分开处理,这需要很高的计算成本。相反,我们的方法将跟踪线索集成到检测中,并以端到端的方式有效地执行检测和跟踪。
Joint Detection and Tracking:在JDT中,一种常见的方法是在目标检测器上建立一个与跟踪相关的分之,以预测目标跟踪偏移或re-ID嵌入以进行数据关联,或者使用transformer来匹配轨迹。CTrack通过在每两帧中链接成对的盒子来构造追踪小片段。TubeTK以离线方式直接将boxtube预测为tracklet。然而大多数的JDT方法都面临这两个问题:第一,检测依然是单独检测的,没有利用到追踪的帮助。第二,re-ID loss的目的与联合训练中检测loss的目的不同。相比之下,我们的TraDeS追踪器通过将追踪线索紧密结合到检测中并设计一种新颖的re-ID嵌入学习方案来解决这两个问题。
Tracking-guided Video Object Detection:在视频检测中,一些工作尝试利用追踪结果来重新加权由初始检测器生成的检测分数。尽管这些工作努力通过追踪来帮助检测,但它们有两个缺点:首先仅在后处理阶段使用追踪来帮助检测,检测仍由一个独立的目标检测器预测,因此检测和跟踪分开来优化的。所以最终的检测分数很大程度依赖于追踪质量。其次,手工制作的加权方案需要针对特定的检测器和追踪器进行手动调整。我们的方法不同于这些后处理方法,因为我们的检测是在追踪结果的条件下学习的,而无需复杂的加权方案,因此检测趋向于具有鲁棒的跟踪质量。
Cost Volume:成本量技术已成功地应用于深度估计和光流估计中,用于在两个帧之间关联像素。这促使我们将成本量扩展到多目标跟踪器,这将证明学习re-ID嵌入和推断追踪偏移量是有效的。我们的方法可能会激发未来在追踪或re-ID中使用成本量的工作。
Preliminaries:我们提出的TraDeS模型是建立在基于点的CenterNet目标检测器上的。CenterNet将图像I∈RH×W×3作为输入,并通过骨干网络φ(·)生成基本特征f =φ(I),其中f∈RHF×WF×64,HF = H4,WF = W4。然后在f上构造一组头部卷积分支,以生成类中心的热图P∈RHF×WF×Ncls和特定于任务的预测图,例如2D对象尺寸图和3D对象尺寸图等。CenterNet通过其中心点(peaks onP)检测对象,并根据峰值位置检测相应的任务特定预测。
类似于[63],我们通过在CenterNet上添加额外的头分支来预测用于数据关联的追踪偏移量图OB∈RHF×WF×2。OB计算从所有时间点t到前一时间t-τ的对应点的时空位移。
TraDeS Tracker:
Our Idea:以前的大多数联合检测和追踪的方法都是独立检测的,没有使用到追踪的显示输入信息。相反,我们的目标是将追踪线索整合到端到端地集成到检测中,从而改善对复杂场景的检测反过来也有利于追踪。我们提出了一个基于成本量的关联(CVA)模块用于学习re-ID嵌入和推导目标运动,以及一个运动引导的特征修正(MFW)模块,用于利用CVA追踪线索来传播并增强目标特征。
Cost Volume based Association:给定两个来自It和It-τ的两个基础特征ft,ft-τ,我们通过嵌入网络σ(·)提取它们的re-ID嵌入特征,即,et =σ(ft)∈RHF×WF×128,其中σ(·)由三个卷积层组成。我们利用提取的嵌入信息来构造一个cost volume,它在两帧中存储一个点及其对应点之间的密集匹配相似性。(what does cost volume do)为了有效的计算cost volume 我们首先以2为因子对嵌入进行来下采样操作,并且获得了e′∈RHC×WC×128,其中HC = HF/2,WC = WF/2。让我们用C∈RHC×WC×HC×WC表示It和It-τ的4维cost volume,它由e’t和e’t-τ的单矩阵乘积计算得出。

其中Ci,j,k,l表示在时间点t的点(i,j)和在时间点t-τ的点(k,l)之间的嵌入相似度。 在此,点是指特征图f或者e’上的一个条目。
Tracking offset:基于cost volume C,我们计算了追踪偏移矩阵O∈RHC×WC×2,它存储了所有时间点t到它们在时间t-τ对应点的时空位移,为了说明我们在下面展示了对Oi,j∈R2的计算过程。

如图2所示,对于一个在时间点以(i,j)为中心的目标,我们可以从C中获取其对应的二维cost volume map Ci,j∈RHC×WC,它存贮了在目标x和t-τ时间的所有点之间的匹配相似度。使用Ci,j,Oi,j∈R2可以通过两个步骤进行估算:步骤一,Ci,j首先分别由HC×1和1×WC内核合并,然后由一个softmax函数进行归一化,得出CWi,j∈[0,1] 1×WC和CHi,j∈[0,1] HC×1。CWi,j和CHi,j分别包含目标x在时间t-τ处出现在指定水平位置和垂直位置上的可能性。 例如,CWi,j,l表示目标x出现在时间t-τ的位置(∗,l)的可能性。步骤二,由于CWi,jandCHi和jwi提供了目标x出现在时间t-τ的指定位置上的可能性。为了获得最终的偏移量,我们分别为水平方向和垂直方向预定义了两个偏移量模板,指示了当x出现在这些位置时的实际偏移量值。令Mi,j∈R1×WC和Vi,j∈RHC×1分别表示目标x的水平和垂直偏移模板,其计算公式如下:

s是输入图片的特征步幅,在实验中设定为8。Mi,j, l指在时间t-τ时目标x出现在位置(* ,l)时的水平偏移量。最终的追踪偏移量可以通过概率和实际偏移值之间的点积来推断,公式如下:

由于O等于HC×WC,我们以因子2对其进行上采样,并获得OC∈RHF×WF×2,它作为MFW的运动线索,并用于我们的数据关联。
Training:由于σ(·)是CVA模块中唯一可学习的部分,因此CVA的训练目标是学习有效的re-ID嵌入e。为了对e进行监督,我们对cost volume进行了监督,而不是像其他常见的re-ID loss那样直接在e上进行监督。首先让Yijkl = 1,如果当前时间t的目标在位置(i,j)而其在前一时间t-τ的位置(k,l)上时,否则Yijkl = 0。然后,通过logistic回归以焦距损失的形式计算CVA的训练loss:

其中α1= (1−CWi,j,l)β,α2= (1−CHi,j,k)β.β是focal loss的超参数,因为CWi,j,l和CHi,j,k是通过softmax来计算的,因此它们不仅包含了点(i,j)和(k,l)之间的嵌入相似性同时也包含了点(i,j)和其他先前帧中的所有点的相似性。也就是说尽管CWi,j,l和CHi,j,k能被优化到趋近于1,但它会强制目标不仅在前一帧中接近自身,而且还会排斥其他目标和背景区域。
The CVA Characteristics:1.通常 re-ID loss仅仅强调了类内方差,这可能会使检测性能下降。与此相反,我们在方程4中的LCV A在学习嵌入时不仅强调了类内方差,同时也强调了类间的差异。我们发现这样的处理方式与检测损失更加兼容,并且在不损害检测的情况下学习了有效的嵌入,如下表所示:

2.由于追踪偏移是基于外观嵌入相似性来预测的,因此可以在大范围的运动和低帧频下追踪目标,甚至可以在训练集中看不见的大运动下准确地追踪不同数据集中的目标。因此预测的追踪偏移量可以作为一个鲁棒的运动线索来指导我们的特征传播。

3.和文献[45,25]、CenterTrack等对于数据关联要么仅仅预测嵌入要么仅仅预测追踪偏移相比,CVA同时进行嵌入和追踪偏移用于长期的数据关联并为MFW提供运动线索。
Motion-guided Feature Warper:MFW的目的是将预测的跟踪偏移量OC作为运动线索以warp和propagate ft−τ到当前时间来对ft进行补偿和增强。为了完成这个目标,我们通过一个单一的变形卷积实行了一个有效的时间传播,在之前它用来进行临时的特征调整。然后通过聚合传播的特征来增强ft。
Temporal Propagation:为了传播特征图,可变形卷积(DCN)将时空偏移图和先前的特征作为输入并输出传播的特征,其中我们基于来自CVA模块的Oc估计输入偏移。将OD∈RHF×WF×2K2表示为DCN的双向输入偏移,其中k=3是内核宽度或者DCN的高度。为了生成OD,把Oc通过一个3*3的卷积γ(·)。我们可选的将剩余特征ftft-ft-τ作为γ(·)的输入,以提供更多的运动线索。因为检测和分配主要是基于目标中心的特征,没有直接对ft−τ进行变形,而是从先前的时间中传播来一个中心注意特征ft−τ∈RHF×WF×64,其计算公式如下:q是通道指数,o是 Hadamard积,Pt−τagn∈RHF×WF×1是不可知中心热图。

然后通过OD和ft−τ在DCN中计算传播特征。

Feature Enhancement:当发生遮挡和运动模糊时,检测器可能会遗漏目标。我们通过整合传播特征ft−τ来提升ft,这可能使得被遮挡和模糊的物体也能被清晰可见。

wt∈RHF×WF×1是时刻t的自适应权重,∑Tτ=0wt−τi,j= 1。T表示被用来整合的先前特征的总数。w由两个卷积曾和softmax函数预测,我们在实验中发现加权求和要比平均求和效果好一些。增强后的特征被输入到头部网络中以产生当前帧中的检测盒和掩模。这可能会恢复错过的目标并减少假否定,从而启用完整的tracklets和Tab中更高的MOTA和IDF1。

Tracklet Generation:基于被提升的特征ft,TraDeS产生了由三个不同头网络组成的2D和3D的boxes,和实例掩码。然后,通过我们的数据关联将生成的检测和遮罩连接到以前的tracklet中。
Head Network:每个头网络由几个轻量级卷积组成,以产生特定于任务的预测,对于2D和3D检测,我们使用与CenterNet中相同的头部网络。对于实例分割,我们参考CondInst [39]中的头部网络,这也是一种基于中心点的实例分割方法。
Data Association:给定以location(i,j)为中心的增强检测或屏蔽,我们执行以下两轮数据关联:
1.我们首先将其与在时间t-1处在位置(i,j)+ OCi,j以r为半径的区域内最接近的不匹配检测相关联,其中r为检测到的框的宽度和高度的几何平均值,此处,OCi,j仅仅表示It和It-1之间的目标追踪偏移量。
2.如果d在第一轮中没有匹配到任何目标,我们计算了所有未匹配或历史tracklet嵌入的余弦相似度。如果它们的相似度最高且大于某个阈值(例如0.3),则将d分配给它。这一轮的association具有长期的关联能力。如果d未能与任何tracklet关联在一起则启动一个新的tracklet。
TraDeS Loss:

Experiment
Datasets and Implementation Details:
MOT:在MOT16和17上进行了2D目标追踪,它有7个训练序列和7个测试序列,但在标注上有轻微的不同。帧标记为25-30 FPS。 对于烧蚀研究,我们将MOT17训练序列分为两半,并按照[63]的方法进行训练,另一半用于验证。指标:我们使用常见的2D MOT评估方法[2]:多目标跟踪精度( MOTA),IDF1分数(IDF1),假阴性数(FN),假阳性(FP),轨迹被碎片化的时间(Frag),识别开关(IDS)以及“最跟踪轨迹”的百分比(MT)和主要是丢失的轨迹(ML)。
nuScens:我们对新发布的nuScenes [7]进行3D目标跟踪实验,该实验包含7个类,700个训练序列,150个验证序列和150个测试序列。 视频由行驶中的汽车的6个摄像机以全景方式捕获,并以2 FPS标记。 我们的TraDeSis是单眼跟踪器。指标:nuScenes设计了更强大的指标AMOTA和AMOTP,这些指标是通过评分中MOTA和MOTP的加权平均值来计算的阈值范围为0 ~ 1。为了进行公平比较,我们还报告了以同样的方式对ids进行平均。
MOTS:MOTS:MOTS [41]是实例细分跟踪数据集,是从MOT数据集中获得的。 MOTS有4个训练序列和4个测试序列。指标:评估指标类似于MOT上的指标,但是基于蒙版。 此外,MOTS采用基于掩码的软多目标跟踪精度(sMOTSA)。
YouToBe-VIS:我们还在YouTube-VIS [56]上进行了实例分割跟踪,其中包含以6 FPS标记的2,883个视频,131K实例蒙版和40个对象类。指标:YouTube-VIS采用基于平均精度(AP)的蒙版Tracklet进行评估。
与MOT和MOTS相比,nuScenes和YouTube-VIS具有较低的帧速率和较大的运动,因为仅标记了关键帧并且相机正在移动。 在我们的实验中,仅使用带标签的框架作为输入。
Implementation details:我们采用与CenterTrack [63]相同的实验设置,例如主干,图像尺寸,预训练,得分阈值等。具体来说,我们采用DLA-34 [60]作为骨干网。 我们的方法经过32批次优化,学习率(lr)1.25e-4下降了10倍。对于MOT和MOTS,TraDeSis训练了70个纪元,其中lr在纪元60下降,图像尺寸为544×960。 对于nuScenes,TraDeS被训练了35个历元,其中lr在第30历元下降,图像尺寸为448×800。 对于YouTube-VIS,首先按照[63]中的静态图像训练方案在COCO实例分段上对TraDeS进行预训练[23],然后在YouTube-VIS上对其进行16个时期的微调,其中lr在时期9下降。图像大小为352×640。在等式中 6,默认设置MOT和MOTS为T = 2。 由于nuScenes和YouTube-VIS的帧速率较低,因此我们将T设置为1。 在训练中,我们从附近的Rt帧中随机选择T帧,其中Rtis 10表示MOT和MOTS,5表示nuScenes和YouTube-VIS。推理期间,仅使用以前的T连续帧。在MOT17数据集上进行消融实验。 在消融术中,所有不带CVA模块的变体都通过预测基线跟踪器中的跟踪偏移量OB来执行DA-Round(i)
Ablation Studies:
effectiveness of TraDeS:如表1a所示,我们将我们提出的CVA(4.1)、MFW(4.2)和TraDeS(4)与我们的基线跟踪器(3)和CenterTrack[63]进行比较。CVA:与基线相比,CVA通过减少60%IDS和提高7.2 IDF1来实现更好的跟踪,验证了我们的跟踪偏移,重新ID嵌入和两轮数据关联的效果。MFW:对于消融,我们将MFW直接添加到基线跟踪器中。 由于跟踪偏移量OC在基线中不可用,因此我们仅使用ft-ft-τ作为运动线索来预测DCN 偏移OD。 与基线相比,尽管FP略有增加,但MFW通过减少1.5%FN来实现更好的检测,即恢复了更多丢失的物体。此外,我们发现MFW还减少了43%的IDS并提高了6.2 IDF1。 它验证了检测是跟踪性能的基石,改进的检测可以产生更稳定和一致的tracklet。TraDeS:借助CVA,TraDeS将IDS从606减少到285。此外,在TraDeS中,CVA强大的跟踪偏移量OC引导了MFW中的特征传播,从而将FN从29.5%大大降低到27.8%。 更好的IDS和丢失的对象恢复(↓FN)一起提高了我们的综合跟踪性能,实现了68.2 MOTA和71.7 IDF1。 TraDeS还比最近的JDT方法 CenterTrack取得了更好的结果。
Effectiveness of the CVA Module:我们研究了第4.1节(i)中提到的建议的CVA模块的两个主要特征:首先,我们将re-ID嵌入网络σ(·)添加到基线跟踪器中,并由常见re-ID丢失进行监督,例如, 交叉熵损失LCE嵌入在[45,61]中。 我们将学习的嵌入称为CE嵌入,用于执行我们的两轮数据关联。如图1b所示,借助DA-Round(ii),CE嵌入有助于基线改善IDF1并减少IDS,这是因为通过使用重新ID嵌入来匹配历史记录tracklet而启用了长期数据关联。但是,我们观察到,随着检测性能下降(+ 1.1%FN),CEemdding不能改善MOTA。 接下来,我们仍将σ(·)添加到基线跟踪器中,但是由我们的CVA监督,图1b显示了我们的CVA模块不仅学习了有效的re-ID嵌入(如CE嵌入),而且还略微提高了检测性能,这显然导致了更高的MOTA。我们认为,这是因为常见的re-ID丢失只强调了类内方差,这可能与[9]中提到的联合训练中的检测丢失不兼容。相反,我们提出的lcv Ai通过cost volume监督re-ID嵌入,同时考虑类间和类间的差异。我们在图5中可视化了预测的成本量图和跟踪偏移量OC。 CVA可以准确地预测低帧率或大运动情况下目标的跟踪偏移。此外,OC甚至在训练中以看不见的大运动准确跟踪新数据集中的目标,如图4所示。这些示例表明CVA能够预测运动范围较大的对象的跟踪偏移并提供可靠的运动提示。
Effectiveness of the MFW Module:DCN:在Tab. 1c中,我们使用不同的运动线索来预测DCN输入偏移量。我们发现跟踪偏移是减少和恢复更多丢失对象的关键。它验证了提议的OC是用于指导特征传播和辅助检测的强大跟踪线索。此外,我们在图5中可视化了预测的OD。即使中间图像中的汽车发生了明显的位移,DCN也成功地对了先前帧的中心特征进行了采样。先前特征的数量:如公式6所示,MFW将当前特征与先前特征聚合。我们用Tab. 1d中不同的T来评估他们,发现当T = 2时实现最佳的速度精度。
Benchmark Evaluations:
MOT:如图2所示,我们将建议的TraDeStracker与MOT16he 17上最先进的2D跟踪器进行了比较,我们的TraDeS追踪器在MOT16和MOT17上分别以2.5 FOT和1.8 FOT的性能领先第二好追踪器,运行速度为15 FPS。 与联合检测和跟踪算法相比,我们在大多数指标(例如,MOTA,IDF1,MT,FN等)上均获得了最佳结果.
nuScenes:如表3所示,我们比较了nuScenes上最先进的单目3D跟踪器的交易情况。在nuScenes数据集中存在极端的类别不平衡。在这个数据集中,汽车和行人的数据超过82%。因为类别的不平衡不是我们关注的焦点,所以我们主要以主要的类别来评估:汽车和行人。表3显示,交易跟踪器在所有指标上都比其他单眼跟踪器表现出色
MOTS:如表4所示,我们在theMOTS测试集上比较了最近的实例分割跟踪器TrackR-CNN。TrackR-CNN基于掩模R-CNN[17],也在时间上增强了对象特征。TraDeS在准确性和速度上都远远超过TrackR-CNN。
YouTube-VIS:如表5所示,TraDeS显著地将AP提高了6.2。TraDeS达到专业与其他最新实例细分跟踪器相比,具有更高的性能。 我们观察到,在nuScenes和YouTube-VIS上,TraDeS都比基线跟踪器好得多。 我们认为这是因为在这些数据集的帧速率低且运动较大的情况下,基线无法通过单个图像很好地预测跟踪偏移量。
Conclusion:提出了一种新颖的在线联合检测和跟踪模型TraDeS,重点在于利用跟踪线索来帮助进行检测和回报收益跟踪。TraDeS是配备了两个模块CVA和MFW.CVA学习专门设计的re-ID嵌入并通过4d cost volume对目标运动进行建模。MFW以CVA的动作为线索来传播先前的物体特征,以增强当前的检测或分割效果。 关于2D跟踪,3D跟踪和实例分割跟踪的详尽实验和消融验证了我们方法的有效性和优越性。

由于本人也是刚入门这个领域很多东西都是一知半解,此文仅仅是当作阅读笔记,文章code复现在下篇文章中详细说明。

你可能感兴趣的:(文献阅读,目标跟踪)