TrackFormer简述

引言

  传统的TBD方法在数据关联上采用时序稀疏(《Multiple hypothesis tracking revisited》、《Everybody needs somebody: Modeling social and grouping behavior on a linear programming multiple people tracker》)、密集图优化(《Motion segmentation & multiple object tracking by correlation co-clustering》、《Improvements to frank-wolfe optimization for multi-detector multi-object tracking》),或使用卷积神经网络预测检测框之间的匹配分数。最近的一些工作(《Tracking without bells and whistles》、《Learning a neural solver for multiple object tracking》、《Gsm: Graph similarity model for multi-object tracking》)则产生了一些新的思路,如tracking-by-regression方法,这类方法中检测器不仅仅输出逐帧的检测结果,同时还取代了数据关联步骤,以轨迹位置变化的回归来实现,不过还是依赖于额外的图优化或者运动和外观模型。这在很大程度上是由于缺乏对象标识和局部边界框回归的概念。这篇论文中,作者提出了一种将MOT问题视为tracking-by-attention的方法,即TrackFormer。TrackFormer以一个统一的方式同时实现目标检测和数据关联,如图1所示:
TrackFormer简述_第1张图片
  TrackFormer使用基于DETR检测器的卷积神经网络(CNN)和Transformer体系结构在多帧上形成轨迹,这篇论文的主要工作集中在decoder的query上。它通过新提出的track query以自回归方式在视频序列中在空间和时间上跟踪一个对象。在每一帧上,模型会对多个track query进行变换,这个track query表示对应目标的空间位置。Transformer在帧级特征和track query上执行注意力操作,以推理目标位置和身份(伴随遮挡)以及新物体的出现。新目标的出现是同一个Transformer以统一的方式为新进入场景的目标生成track query来实现的。
  TrackFormer可以端到端训练完成检测和跟踪任务,和DETR类似,优化目标也是一个集合预测损失。它实现了与注意力的隐式关联轨迹,不需要额外的匹配,优化或者运动和外观的建模。在benchmark评估中,将TrackFormer应用到MOT17数据集上,它达到了SOTA表现。此外,本文还展示了在多目标跟踪和分割(MOTS20)上SOTA成果。

相关工作

  Tracking-by-detection:外观特征:Siamese similarity(《Learning by tracking: siamese cnn for robust target association》),reID features(《Features for multi-target multi-camera tracking and re-identification》),detection candidate selection(《Real-time multiple people tracking with deeply learned candidate selection and person re-identification》),affinity estimation(《Famnet: Joint learning of feature, affinity and multi-dimensional assignment for online multiple object tracking》)
  Tracking-by-regression:方法是通过检测生成新的轨迹,而不是在帧之间关联单独的检测,通过将过去的位置回归到当前帧中的新位置来完成跟踪。之前的研究《Tracking without bells and whistles》在基于盒的关联中使用回归头对区域池目标检测特征进行回归。为了克服该方法缺乏目标识别信息的缺点,在回归跟踪范式的基础上,采用了Re-ID和运动模型
  Tracking-by-segmentation:预测分割掩模,以受益于像素级的信息,减轻常见的外观问题产生的拥挤和模糊的背景区域。《Segment as points for efficient online multi-object tracking and segmentation》将对象掩码表示为无序点云
  Attention for image recognition:Transformer使用的自注意机制将输入的每个元素的信息与其他元素相关联。最近,基于Transformer的架构被应用于各种任务,如图像生成(《Image transformer》)和目标检测(《End-to-end object detection with transformers》)。在追踪方面,注意力的一般概念已经应用于MOT任务(《Online multi-object tracking with dual matching attention networks》、《Online multi-object tracking using cnn-based single object tracker with spatial-temporal attention mechanism》),然而,这些方法只关注目标检测的关联。本文方法进行跟踪和检测基于注意力一致地推理出遮挡,跟踪初始化和时空对应

方法

TrackFormer简述_第2张图片
  TrackFormer的整体结构如图2所示,为了实现逐帧跟踪生成,在目标检测器的解码步骤中引入了track queries的概念,每个轨道查询通过视频序列跟踪单个对象,携带其身份信息,同时以自回归的方式适应其变化的位置,为此,Transformer解码器对当前帧特征和之前的帧track query进行关注,以不断更新嵌入的每个track query中对象标识和位置的表示。Decoder过程中,最下面的白色框框表示learnable object query,共有 N o b j e c t N_{object} Nobject个(一般大于单帧最大目标数),它会查询到对应数目的output embedding,这个object embedding一方面用于后续检测任务的head中,如边框回归和类别预测。对那些成功预测出目标(即非背景类)的output embedding(图上的红色、绿色和蓝色框),还将其初始化为传入下一帧的track query。对于不是第一帧的后续帧而言,decoder输入的query不仅仅有每帧初始化用于检测的 N o b j e c t N_{object} Nobject个object query,还有上一帧已经成功检测的目标的 N t r a c k N_{track} Ntrack个track query, decoder接受这些query之后查询到当前帧的检测结果,指导训练的集合预测损失为下式:
在这里插入图片描述
  track query查到的目标如果成功检测到了,那就赋予同一个id(如上图中间部分的前面的红绿蓝框),没检测到则表示目标消失(如上图右边部分的蓝色框),那些object query检测成功(非背景类,上图中不打叉的)的则作为新目标。接着,这些新旧目标的output embedding一起作为下一帧的track query。这样,以一种相对优雅的方式完成了数据关联以致整个跟踪任务。
  就训练来看,损失是和DETR类似的集合预测损失,集合预测损失通过匹配预测结果和GT之后计算二者损失得到。不过,TrackFormer的GT分配策略和DETR不同,它分为两步,先处理track query再处理object query。训练过程采用两帧作为一个样本,对于第一帧完全按照DETR中二值匹配的方式进行gt的分配。第二帧在分为两部分处理,即track query和detect query。track query部分在前一帧已经分配了对应gt的id,在当前帧看gt中这些id是否依然存在,若存在,则继续将该id的gt分配给该track query,否则将背景类分配给该track query,表示该轨迹在当前帧没有出现。剩下的未分配给track query的id,则和DETR一样分配给object query。
  为了更好地训练及构建泛化能力足够的track query,使用下面三种数据增强策略:
  1.时序上的增广,不单单是相邻帧,而是由一定range内随机选择的两帧构成样本;
  2. 在第二帧输入track query时,对track query按一定比率进行omit,这一步应该非常关键,只有合适的drop out才能保证learned object query具有较好的学习结果。如果没这一步扩展,那DETR的训练更多的依赖于第一帧的数据,对于track query和detect query联合训练,包括映射到同一空间,会有很大不足;
  3. 主要是处理轨迹终止的情形,这一部分是从前一帧的background中选择一定的query作为track query,那么对应的第二帧类别就是background,但这其实是有些问题的,并不能真正的模拟轨迹终止问题。
  实验细节:queries的数目一般远大于gt的个数,因此会导致分类损失中前景和背景类别不均衡,因此对background类别的损失权重额外添加了权重0.1。

实验

TrackFormer简述_第3张图片
TrackFormer简述_第4张图片
  表1和表2显示TrackFormer在MOT17和MOTS20上SOTA方法的对比
TrackFormer简述_第5张图片
TrackFormer简述_第6张图片
TrackFormer简述_第7张图片
  表3到表5是消融实验,X表示选择

总结

  这一篇也是将Transformer应用到MOT上面的文章,重点是引入了track query来以自回归的方式跟踪目标,track query是指在video中保持gt的id号的query,即只需要在第一次出现时利用二分匹配获得标签,其后均使用第一次的id,这个track query由DETR检测器生成并且随着时间集成了对应目标的位置信息,而Transformer的decode在帧之间调整track query,从而跟随了目标位置的变化。TrackFormer因此以一种新的tracking-by-attention范式实现了一种无缝的帧间数据关联,注意力机制确保了模型同时考虑位置、遮挡和目标的识别特征。从实验部分看,这篇文章的IDS达到了近三千,比大部分其他方法都要高,不过比同样引入Transformer的Transtrack降低了很多,从这两篇文章可以看出,引入Transformer的话,IDS可以作为一大改进方向,但另一方面来看,单从这两篇论文这个实验表格的数据来说,如下图所示,上图是Trackformer论文里CenterTrack的数据,下图是Transtrack论文里的,同样是在MOT2017数据集,所以没有办法直接比较MOTA之类数据的差异。
在这里插入图片描述
在这里插入图片描述

你可能感兴趣的:(目标跟踪,人工智能,计算机视觉)