大多数在线多目标跟踪器在独立的,没有任何跟踪输入的神经目标检测网络表现优异。本篇论文中,我们提出一种新的在线检测跟踪模型,TraDeS(跟踪检测与分割),利用跟踪信息来帮助端到端的检测。TraDeS根据代价量推测跟踪目标的偏移距离,这个代价量用于通过前向传播提取对象的特征以此来提高当前目标检测和分割。TraDeS在4个公开数据集上表现出不错的高效和优势,分别是MOT(2D 跟踪),nuScenes (3D 跟踪), MOTS and Youtube-VIS (实例分割). 项目主页: https://jialianwu.com/projects/TraDeS.html
优秀的在线多目标跟踪方法遵循两种主要的范式:基于检测的跟踪和联合检测跟踪。基于检测的跟踪范式将检测和跟踪作为两个独立的任务(图一(a))。通常利用现成的目标检测器检测,接着再用其他网络进行数据关联。这种基于检测的跟踪模式通常效率不高,并且由于两步骤流程不能优化端到端。为了解决这个问题,最近的解决方案中出现了联合目标检测和跟踪范式,这种范式类似于将检测和跟踪在单个前向传播中完成。
然而,联合跟踪检测范式存在两个问题:(1)尽管大多数联合跟踪检测网络骨干网络共享,但是检测部分还是单独的,没有利用到跟踪信息。我们认为检测为稳定并且持续的跟踪提供基石,作为反馈,跟踪信息应该帮助检测,尽管场景复杂,比如存在遮挡和运动模糊。(2)通过[9]和我们实验学习(表1b),在联合检测跟踪的主干网络中,普遍的re-id跟踪的损失函数并不与检测的损失函数兼容,这从某种程度上会影响检测结果。主要原因在于,re-id更侧重的是类内方差,而检测的目标是增加类内差异和最小类内方差。
本论文,我们提出新的在线检测和跟踪模型,称为TraDeS(TRAck to DEtect and Segment)。在TraDeS中 ,与CenNet类似,每个特征图谱中的点要么表示目标中心点要么表示背景区域。TraDeS在此之上提出两个问题, 不但通过紧密地将跟踪器与检测器联合在一起,还专门设计了一个re-id学习方案。我们提出分别基于关联模型(CVA)的代价量和动态导向特征弯曲(MFW)模型。关联模型通过骨干网络逐点提取re-id嵌入特征来构造代价量,这个代价量存储了匹配两帧中相似的嵌入对(嵌入特征对)。然后,我们还根据代价量提出跟踪偏移,这是所有点在时间和空间的位移。例如,在前后两帧中,目标可能存在的中心。跟踪偏移量将所有特征整合用于进行一个简单的两轮长时间数据关联。接着,MFW将跟踪偏移量作为动态信息从前一帧将目标特征传播到当前帧。最后,这个传播了的特征和当前帧的特征合并后进行检测和分割。
在CVA模型中,这个代价量被用于监督re-id嵌入特征,这样不同目标的类别和背景区域隐式地纳入其中。这也是说,我们的re-id对象也被包含在类内方差中。这种方式不仅可以学习到一个有效的嵌入特征作为普通的re-id的损失函数,还可以兼容检测的损失函数并且不会破坏检测结果,结果展示在表1b中。此外,如图3所示,因为跟踪偏移通过外观相似特征预测出来,所以它可以匹配到高速运动或者在被慢速播放的物体,或者如图4所示那样,它甚至可以在看不见大浮动运动的不同数据集中准确地跟踪目标。因此,将一个预测后的目标跟踪偏移量可以作为有效的运动信息在MFW模型中指导我们特征传播。在当前帧中被遮挡的和模糊的物体可能在前几帧中和清晰,所以通过MFW模型,从前几帧传播的特征可能为当前帧的目标恢复已经丢失潜在信息的特征。
总的来说,我们提出一种新奇的在线多目标跟踪网络,TraDeS,在端到端的网络中通过完整的跟踪信息来指导检测,检测结果有效地反馈给跟踪器,如图1(c)所示。TraDeS是一个通用跟踪器,很容易通过增加简单的实例分割网络,扩展成实例分割跟踪器。使用4组数据集进行实验,例如,MOT,nuScenes,MOTS,和Youtube-VIS datasets,这3组任务中包括2维、3维目标跟踪,和实例分割跟踪。TraDeS在有效推理时间中表现不俗,如5.3部分所示。此外,如5.2部分描述那样,通过消融实验(即模型简化测试)有效证明我们的方法有效。
基于检测的跟踪。过去几年在多目标跟踪领域中基于检测的跟踪占主导地位。在这种框架模式中,现成的目标跟踪器先为每一帧生成检测框。然后一个单独的re-id模型则被用来为这些检测框提取外观特征。为了构建跟踪器,一种简单的解决方案是使用运动模型直接计算外观和运动信息,例如卡尔曼滤波,然后通过匹配算法解决数据关联问题。其他有效数据关联的方法,像图优化问题,将每个检测结果作为图节点来跟踪。然而基于检测的跟踪方法将检测和跟踪分离,因此通常计算成本高。相反,我们的方法将完整的跟踪信息传给检测器,使得检测器和跟踪器在端到端中表现不俗。
联合检测和跟踪。最近,联合检测和跟踪范式由于它的高效和标准话的框架引起大家注意。一种普遍的方式是,在检测器上构建一个跟踪相关分支用来预测,而不是将目标跟踪偏移量或者re-id嵌入特征进行数据关联。此外,transformer已经被用来做跟踪匹配。CTracker在每两帧中通过连接成对的boxes构建跟踪轨迹。TubeTK以离线学习方式直接预测一个box tube作为跟踪轨迹。然而大多数联合检测跟踪方法中,都存在两个问题:第一,检测部分没有从跟踪部分得到任何有效帮助,依旧独立预测。第二,在联合训练中re-id损失函数与检测损失函数指标不相同。相反,在我们的TraDeS中通过将合并跟踪信息反馈给跟踪器,并且设计一个新颖的re-id嵌入学习方案来解决以上两个问题。
跟踪引导的视频目标检测。在视频目标检测中,一些工作尝试在初始化检测器时,利用跟踪结果来调整检测分数权重。尽管这些工作努力地提高基于跟踪的检测效果,但是他们存在两方面不足:第一,跟踪只有在后处理阶段(the post-processing stage)才作为杠杆帮助检测结果。检测结果依旧通过一个独立的目标检测器来预测,所以检测和跟踪还保持较高的独立性。因此最后检测得分可能极大程度上依赖于跟踪的质量。第二,手动调整权重方案需要为特殊的检测器和跟踪器进行人为调整。我们的方法不同于这些后处理方法,因为我们的检测在跟踪结果上学会自适应,没有复杂的调整权重方式。因此,检测鲁棒性高,跟踪效果好。
代价量(cost volume)。cost volume技术被成功运用于深度估计和流速估计,为的是关联两帧之间像素。这启发我们将代价量加入多目标跟踪器,在本篇论文中证明对于re-id嵌入和推测轨迹偏移是有效的。我们的方法对未来在跟踪或者re-id中使用代价量的工作有所启发。
TraDeS以基于点云的目标检测网络CenterNet构建。CenterNet使用一张图 I ∈RH×WH ×3 作为输入,输出基本特征 f = φ(I),其中,特征主干网络以 φ(·)表示,通过网络后,特征变成 f ∈ RHF ×WF ×64,HF=H/4, and WF =W/4。然后在 f 构造一组头部卷积分支用于生成类中心热图 P ∈ RHF ×WF ×Ncls 和特殊任务预测图,比如2D目标大小图和3D目标大小图,等等。Ncls是分类数字。
CenterNet 通过他们的中心点(在P点的最高峰)检测对象,并且从峰值点响应特殊任务预测。
类似于[63],我们通过增加额外的扩展头部分支,在CenterNet基础上构建一个基础跟踪器,可以预测跟踪偏移量 OB∈ RHF ×WF ×2, 该偏移量将用于数据关联。OB 计算 所有在 t 时刻的点到在 t-1 时刻与该点响应的点的时空替换。
我们的想法:之前大多数联合检测和跟踪方法多为单独的检测,即没有从跟踪中得到清楚的输入。相反,我们的目标是端到端的将完整跟踪信息放到检测中,为的是提高复杂场景下的检测能力,并且这有利于反馈给跟踪器。为此,我们提出一个基于关联模型的代价量(CVA:4.1),用于学习re-id嵌入和得到对象运动信息,还有一个运动指导的特征整理模块(MFW:4.2),从CVA中借用跟踪信息来传播和提高目标特征。
Cost Volume。从 t 时刻 和 t-1 时刻的图片中得到两组基本特征 ft 和 ft-1,我们通过嵌入网络σ(·)提取它们的re-id嵌入特征,例如et= σ(ft) ∈ RHF ×WF ×128,其中嵌入网络σ(·) 有三层卷积。我们利用提取到的特征构造cost volume,通过匹配在前后两帧中一个点与其响应点的相似度,保存在该代价量中。为了高效计算代价量,我们首先通过以2为倍数的下采样嵌入,获得e ∈ RHC×WC×128, 在这里HC =HF/2 并且 WC =WF/2。我们使用C ∈ RHC×WC×HC×WC 来表示 t 和 t-1 时刻图片的 4维代价量, 通过单独计算e`t 和 e` t−τ 乘法矩阵得出该结果,特别地,C的每一个元素被计算如下:
,其中 Ci,j,k,l 表示在 t 和 t-τ 时刻 点p(i, j) 和 点 (k, l)之间的嵌入式相似度。在这里,一个点映射的是 特征图f 或者 e`。
跟踪偏移量。基于代价量C, 我们计算出跟踪偏移量矩阵 O ∈ RHC×WC×2,该矩阵保存了所有点在 t 时刻 到 t-τ 时刻 的 点及其响应点的时空替换量。 为此,我们进一步说明 Oi,j ∈ R2 大概生成的过程。
如图2所示,一个目标在 t 时刻的中心点是(i, j),我们可以从C中得到与它相关响应点的2维cost volume map Ci,j ∈ RHC×WC。Ci,j 保存了在目标x 和所有点在 t-τ 时刻匹配相似度。 通过两步来估算Ci,j, Oi,j ∈ R2:第一步,首先使用HC × 1 和 1× WC的卷积核进行最大池化操作得到Ci,j,然后使用sofrmax进行标准化,最后得到的结果是,CWi,j∈ [0, 1]1×WC 和 CHi,j∈ [0, 1]HC×1。CWi,j∈ [0, 1]1×WC 和 CHi,j∈ [0, 1]HC×1 是相似度矩阵,也就是说,目标x 在 t-τ时刻 特殊的 水平和垂直位置。第二步,由于CWi,j∈ [0, 1]1×WC 和 CHi,j∈ [0, 1]HC×1 提供了目标x在t-τ时刻特殊位置的相似度,为了获得最后的偏移量,我们预先确定在水平和垂直方向上的两个偏移模板,当目标x出现到其他位置时标明其真实的偏移值。使用Mi,j ∈ R1×WC 和 Vi,j ∈ RHC×1 分别表示目标x在水平和垂直距离上的偏移模板,其计算如下:
其中s是输入图片e`的特征步长,在我们论文中s=8。当t-τ时刻 目标x 出现在(*, l), Mi,j,l可以推算出水平上的偏移。最后跟踪偏移量可以通过相似度与实际偏移值以点积的方式计算出来:
因为 O是通过HC × WC得到,我们以2为倍数来扩大,得到OC∈ RHF ×WF ×2,这将MFW提供运动信息,并且用于数据关联。
训练。因为在CVA模型中,σ(·) 只有单独的学习部分,CVA的跟踪目标学习一个有效的re-id嵌入e。为了监督e,我们在cost volume上进行增强监督,而不是像其他普通的re-id损失那样直接在e上。首先当前时刻t 一个目标位于(i, j)时,我们令Yijkl = 1,而在t-τ时刻的位置则为(k, l);其他情况下 Yijkl = 0。因此,CVA计算训练损失函数通过逻辑回归以focal loss的方式表示如下:
在上个式子中,α1 = (1 − CWi,j,l)β 而 α2 = (1 − CHi,j,k)β。β是focal loss 的超参。因为CWi,j,l 和 CHi,j,k 通过softmax计算出来,他们包含的嵌入相似度不仅在点(i, j)和(k, l)之间,而且还包含了点(i, j)和之前帧的所有其他点。这也就是说,当CWi,j,l 和 CHi,j,k 被优化到接近1时,当增强一个对象时,不仅使得其接近之前帧,而且还抑制其他目标和背景区域。
CVA特征。(1)普通的re-id loss 只强调类内方差,这可能降低检测效果。相反,在等式(4)中,我们的LCVA 不仅强调类内方差,还在学习嵌入时关注类内区别。我们发现这样的方式在不损害检测效果下能更好地兼容detection loss 和 effective embedding,其证明结果在表1b中。(2)因为跟踪偏移量基于外观嵌入相似度预测,它可以在高速运动和低速帧率中追踪目标,如图3和图6所示,甚至可以准确地在不同没有预感剧烈运动的数据集中准确跟踪目标,如图4所示。因此预测的目标偏移量可以作为有用的运动信息指导特征传播,如表1c。(3)与[45, 25]和CenterTrack比较,这几款跟踪器要么只预测嵌入特征要么将跟踪偏移量作为数据关联,CVA则将两者结合,用于为长期数据关联(4.3节),并且将运动信息传给MFW(4.2节)。
MFW的目标是将预测的跟踪偏移量OC 作为运动信息整理,并且将t−τ时刻的特征f (ft−τ )传播给当前时刻,为的是补偿和增强 t时刻的特征f (ft)。为了实现这个目的,我们通过一个独立的可变卷积提出有效的由追踪跨帧的时间传播,之前的论文[4,3,13]中,这种方式曾用于跨帧调整特征。因此我们通过增加传播特征来提升ft。
由追踪跨帧的时间传播。为了传播特征图,可变形卷积使用时空偏移图和之前的特征作为输入,输出一个传播后的特征,从中我们估算出基于CVA模型中得到的OC的输入偏移值。我们将OD∈ RHF ×WF ×2K2 作为通过DCN的2维偏移,其中K=3是DCN的核宽或高。为了生成 OD,我们将OC 通过一个3× 3卷积γ(·)。接着随意地将 ft− ft−τ 的剩余特征合并作为γ(·) 的输入,以此提供更多的运动信息。因为我们的检测和分割主要基于目标中心特征,而不是直接整理ft−τ,通过之前的时刻传播中心注意力特征 ¯ft−τ∈ RHF ×WF ×64,¯ft−τ 的计算如下:
上式中,q是通道下标,◦是哈达玛积, Pt−τagn∈ RHF ×WF ×1 是从 Pt−τ(定义在第三部分)得到的无类热图。然后从得到的OD 和 ¯ft−τ,传播特征通过DCN计算方式如下:
特征增强。当出现遮挡或者运动模糊时,检测器检测不到物体。我们通过增强传播特征ft−τ来增强 ft,这样被遮挡的或者模糊的目标可能清晰易读。我们将增强特征标记为˜ft−τ,该特征量通过权重汇总得到:
T 是之前特征的数量,用来聚合。与[24]类似,w通过两层卷积后并经过softmax预测得到。在实验过程中我们发现权重求和比平均求和效果好一些。将增强的˜ft通过头部网络产生检测框,并且在当前帧生成masks。这极大概率可以恢复丢失的目标,减少漏报,能够完整地跟踪并且MOTA和IDF1结果更高,结果在表1a。
图2展示了TraDeS的整体架构。通过增强特征˜ft,TraDeS通过不同的三个分支头网络生成2D、3D的框和instance masks。之后生成的检测框和masks通过数据关联连接到之前的轨迹。
头部网络。每个头部网络由多个轻量级的卷积组成为了生成特定预测任务。对于2D和3D检测,我们在CenterNet中利用同一个头部网络。对于实例分割,我们在CondInst上构建头部网络,CondInst也是一种基于中心点的实例分割方法。
数据关联。在(i,j)位置上给出了增强检测和mask d,我们通过迭代2轮进行数据关联:第一轮,首先,在t-1时刻将最近没有匹配的检测以(i, j)+OCi,j 为中心,r为半径关联, r是检测框的长和宽的几何平均值。这里OCi,j只是标明在 t 和 t-1时刻 跟踪目标偏移量。第二轮:如果d 在第一轮没有与任何一个目标匹配上,我们计算它的所有没有匹配的嵌入特征eti,j 或者历史跟踪嵌入特征的余弦相似度。如果它们的相似度高于阈值,d 将会分配轨迹,本文中阈值为0.3。第二轮保证长时关联。经过两轮关联,d与任何轨迹关联失败,那么就创建新的轨迹。
TraDeS Loss。TraDeS的损失函数被定义如下:L = LCVA + Ldet + Lmask,Ldet是2D和3D的检测损失函数,Lmask是实例分割的检测损失函数。
MOT:
nuScenes:
MOTS:
YouTube-VIS:
实验细节:我们采用与CenterTrack相同的实验设置,像主干网络、图片大小、预设、分数阈值,等等。特别地,我们采用DLA-34作为φ(·)的主干网络。我们的方法是通过32 batches训练和以10倍下调学习率1.25e−4来优化。对于MOT和MOTS,TraDeS训练70个epochs,学习率在epoch 60 也就是图片大小为 544 × 960时下降。对于nuScenes,TraDeS训练35 epoches,在图片大小为448 × 800的epoch 30时学习率下降。对于YouTube-VIS, 一开始TraDeS在COCO实例分割上进行预训练,接着在静态图片上进行训练,然后在YouTube-VIS上进行微调,对于16 epochs 其学习率在 epoch 9时下降。图片大小是352 × 640。我们在2080Ti GPU测试了运行时间。在等式(6)中,我们为MOT和MOTS设置默认参数T=2。为nuScenes和YouTube-VIS设置默认参数T=1,因为如上所述它们的帧率较低。在训练过程中,我们随机在除Rt帧之外筛选T帧,对于MOT和MOTS来说Rt是10,而nuScenes 和 YouTube-VIS则是5。通过推理,只有在T前面连续几帧被用到。消融实验在数据集MOT17上证实了这一点。在消融实验中,像基础跟踪器那样,所有的变量并没有在CVA模型中通过预测跟踪偏移量OB进行第一轮数据关联。
本次工作提出了一种新颖的在线检测跟踪模型,TraDeS,其重点在于利用跟踪信息帮助检测并将检测结果反馈给跟踪。TraDeS主要由两个模型构成,CVA和MFW,其中CVA学习专门设计re-id嵌入特征和通过4维的cost volume构建目标运动信息。而MFW从CVA中获得运动信息,并作为cues传播到之前的目标特征来增强当前检测或分割。通过进行2D、3D跟踪和实例分割的详尽实验和消融实验,有效地证明了我们的方法的高效和优越性。