TransTrack的阅读笔记+翻译

TransTrack: Multiple-Object Tracking with Transformer

paper:https://arxiv.org/abs/2012.15460
code:https://github.com/PeizeSun/TransTrack
标志说明:红色的均为备注,蓝色为重点。

摘要

  多目标跟踪(MOT)主要由复杂的多步检测跟踪算法控制,该算法分别执行对象检测,特征提取和时间关联。 单对象跟踪(SOT)中的查询键(query-Key)机制通过前一帧的对象特征跟踪当前帧的对象,具有建立简单的联合检测和跟踪MOT范式的巨大潜力。 但是,由于查询键方法无法检测到新出现的对象,因此很少进行研究。sot的孪生难以监测新出现的对象,这就导致为什么很少出现基于这个的研究。

  在这项工作中,我们提出了TransTrack,它是使用Transformer进行MOT的基准。 它利用查询键机制,并将一组学习到的对象查询引入pipline中,以检测新出现的对象。TransTrack具有三个主要优点:(1)它是基于query-key机制的在线联合检测跟踪pipline。 简化了先前方法中的复杂步骤和多步骤组件。 (2)它是基于Transformer的全新体系结构。 学习的对象查询将检测当前帧中的对象。 来自上一帧的对象特征查询将那些当前对象与先前的对象相关联。(##也就是说用上一帧的作为key,当前帧为query) (3)首次展示了一种基于查询键机制的简单有效的方法,而Transformer体系结构可以在MOT17挑战数据集上获得具有竞争力的65.8%MOTA。 我们希望TransTrack可以为多对象跟踪提供新的视角。代码为https://github.com/PeizeSun/TransTrack.

简介

  基于视频的场景理解和人类行为分析对于当前的计算机视觉系统高水平地了解世界是必不可少的。 为了估计视频中感兴趣对象的轨迹,对象跟踪是一项重要任务,应用于许多实际实际应用中,例如视觉监视,公共安全,体育视频分析和人机交互。

  根据被跟踪对象的数量,对象跟踪可以分为两个方向:单对象跟踪(SOT)和多对象跟踪(MOT)。 近年来,由于深度孪生网络的出现[3,35,21,20],SOT取得了长足的进步,在该网络中,以非常简单有效的方式捕获并训练了对象目标与图像区域之间的相关性。 然而,由于多级管线[42、34、39],如图1a所示,当前的MOT方法一直遭受模型复杂性和计算成本的困扰。 对象检测和重新识别分别进行。 它们不能互惠互利(即难以一个backbone实现这两个任务,相关讨论见https://zhuanlan.zhihu.com/p/39282286 ),不会给两个连续帧之间的无序对象对或每个帧中不完整的检测对象带来挑战。 为了解决MOT中的这些问题,需要一个联合检测和跟踪框架。

  回顾SOT,我们强调了孪生网络实际上是Query-Key机制,其中对象目标是查询,图像区域是关键字,如图1b所示。 对于同一个对象,其在不同帧中的特征非常相似,这使查询键机制可以输出有序对象集。 为了借鉴SOT的优点,一种直观的策略是在MOT中引入查询键机制,例如,将前一帧的对象特征作为查询,将当前帧的图像特征作为关键,如图1c所示。 但是,仅将SOT中的原始查询关键字机制转移到MOT任务中会明显导致性能下降,尤其是FN度量。 原因是当新对象进入当前帧时,其功能不在查询中,从而导致缺少新对象。 因此,一个自然的问题是: 是否有可能设计一个基于查询键机制以输出有序对象集的MOT框架? 同时,检测新来的物体。
  在本文中,我们提出了一个新的用于联合检测和跟踪的MOT框架,称为TransTrack,该框架利用查询键机制来跟踪当前帧中先前存在的对象并检测新来的对象。 总体流程如图2所示。TransTrack建立在Transformer体系结构[36]上,Transformer体系结构是广泛使用的查询键机制实体。 输入键是当前帧的特征图。 输入查询既是前一帧中的对象特征,也是一组学习到的对象查询。 学习的对象查询是一组参数,与网络中的所有其他参数一起训练。 它用于检测当前帧中的新来的物体并输出检测框。(和detr一样) 来自前一帧的对象特征是在前一帧的检测过程中生成的对象特征向量。 它用于在当前帧和输出跟踪框中定位先前存在的对象。 在检测盒和跟踪盒之间进行简单匹配后,将输出最终结果。(也就是说在训练的时候还要学习一个q向量,目的是用于检测,推理的时候先获取图片的特征,然后输入)

  我们的方法简单,直接且易于实现。 跟踪框和检测框都可以视为当前帧的对象检测。 它允许我们同时训练这两个子网,而不是像按检测跟踪的方法那样分别优化检测和重新识别网络[42,34]。 在具有挑战性的MOT数据集上[25],TransTrack达到了65.8 MOTA,与最先进的框架具有可比的性能。我们的贡献如下:

  • 我们介绍了一种基于查询键机制的在线联合检测与跟踪MOT管道,简化了以前方法中复杂的多步骤组件。
  • 我们对复杂的跟踪方案进行了详细的分析,证明从前一帧学到的对象查询和对象特征都可以用作Transformer体系结构的查询输入,以同时进行检测和跟踪。
  • 我们保证我们的方法没有花里胡哨的方法(bells and whistles)并且达到了当前最佳。我们希望我们的工作可以为多目标跟踪提供新的视角。

TransTrack的阅读笔记+翻译_第1张图片
图1:TransTrack的由来。 主流的MOT方法是复杂的多步的基于检测的跟踪系统。 SOT管道中的查询键机制可能会建立一个非常简单的MOT管道,但是,它将丢失新出现的对象。 TransTrack旨在利用查询键机制并检测新出现的对象。 系统如图2所示。(也就是说常见的系统方法太复杂了,而单独使用SOT又会错失新出现的对象,所以本文出现了,旨在基于sot的本身的q-k机制,并克服这些问题。)
TransTrack的阅读笔记+翻译_第2张图片
图2:TransTrack的整套流程。 来自上一帧的对象特征查询和学习到的对象查询都被当作输入查询。 图像特征图是通用键。 学习的对象查询将检测当前帧中的对象。 来自前一帧的对象特征查询将当前帧的对象与先前的对象相关联。 在所有相邻帧上依次执行此过程,最后完成多对象跟踪任务。(我的理解是①learned object query相当于在训练过程中学习到的物体特征向量,用于完成检测任务,预测的时候不更新②当前帧作为查询键key,相当于外部输入;③F_(t-1)是一个内部循环生成的特征query,完成外观特征的匹配任务④通过将当前的检测结果与外观的匹配结果进行IOU,完成输出)

相关工作

  由于我们的工作是将查询键机制引入多对象跟踪模型中,因此,我们首先回顾一下查询键机制在对象检测和单对象跟踪中的应用,然后深入探讨有关多对象跟踪的相关工作。
  1、对象检测中的查询键机制:
  Querykey机制已经成功地应用于对象检测领域,因为它具有自我注意和交叉注意的实体[36],即关系网络[14],DETR [5],可变形DETR [48]。 其中,DETR会考虑对象查询和全局图像上下文之间的关系,以直接并行并行输出最终的预测集。 DETR简化了检测管道,从而有效地消除了对非最大抑制程序和锚点生成的需求。
  我们注意到,这些对象检测框架可以直观地应用于多对象跟踪系统以提供对象检测。
  2、单对象跟踪中的查询键机制:
  最近,基于孪生网络的[35、3、21、20、50、38]单对象跟踪器因其出色的跟踪精度和效率而受到了广泛的关注。 这些跟踪器将视觉跟踪公式化为交叉注意力相关问题,希望能够从端到端学习过程中更好地利用深层网络的优点,而无需任何后续过程。 基于孪生网络的跟踪器由两个网络分支组成,一个分支用于对象模板,另一个分支用于图像搜索区域。 然后,跟踪器将两个网络分支的特征图融合在一起,并生成一个相似度图。 遵循基本思想,SINT [35]和SiamFC [3]采用离线方式学习对象目标和候选图像补丁之间的相似性。 SiamRPN [21]和DaSiamRPN [50]随着地区提案网络的不断完善。 使用预定义的锚框,SiamRPN可以有效地捕获对象的比例变化。 SiameseRPN ++ [20]提出了一种具有更深层次的新模型架构,以执行分层和深度聚合,这不仅进一步提高了准确性,而且减小了模型大小。 SiamMask [38]提出了一种新架构,该架构同时执行视觉对象跟踪和半监督视频对象分割。
  对象模板和图像搜索区域是一个查询关键字对,因此在SOT任务中可以将这些提及的相关工作归类为查询关键字机制。 广泛的应用证明了对象特征在前一帧上的有效性,这是查询以在下一帧上定位其自身的位置。 这使得同时检测和关联成为可能。 但是,在MOT方案中,总是有新对象进入图像视图。 无法检测到这些新来的对象,因为它们没有相应的特征查询。 仅从开始帧开始使用对象特征作为查询,否则将丢失随后帧中出生的所有对象。 这就是MOT路径中查询键机制的原因。(因为sot没法检测新出现的对象,即新出现的key中没有q的值) 相反,逐检测跟踪是MOT中的主流方法。
  3、基于检测的跟踪:
   大多数最新的多对象跟踪器[43、39、7、42、47、41、4]遵循基于检测的跟踪范式。 该范例首先使用诸如[22、23、28]之类的对象检测器通过几个框定位图像中的所有目标对象,然后根据检测到的框裁剪图像,然后跟踪成为边界框关联的问题。 框的关联通常使用Re-ID功能和边界框的交集(IoU)。 首先,为盒子计算IOU或基于特征空间的距离,然后使用卡尔曼滤波器[40]和匈牙利算法[19]完成盒子关联任务。 SORT [4]使用卡尔曼滤波器[40]跟踪边界框,并使用匈牙利算法将每个边界框与其当前帧中的最高重叠检测相关联。 DeepSORT [41]使用深度卷积网络的外观特征来计算SORT中的关联成本。 Lifted-Multicut [34]利用人员识别特征和人体姿势特征。
  这些方法的优点是它们分别针对每个任务使用最合适的模型。 此外,它们根据检测到的边界框裁剪图像补丁,并在将其馈入深度网络之前将其调整为相同大小。 这样,它们可以减少对象的比例变化。 这些方法已经在公共数据集上获得了最佳性能[42]。 但是,这些方法有两个缺点。 首先,检测器和外观模型是分开训练的,因此检测器和外观模型不能相互利用以获得更好的性能。 其次,现有方法中的两个单独的网络大大增加了模型的复杂性和计算成本。 为了解决这些问题,需要联合检测和跟踪方法。(简单来说优点:可以根据需要调整检测模型与跟踪模型,缺点:网络复杂性增加和计算成本升高)
 &emsp联合检测和跟踪。
 &emsp 最近,联合检测和跟踪框架已开始吸引更多关注。 D&T [9]使用孪生网络,将当前帧和过去帧作为输入,并预测边界框之间的帧间偏移。 Integrated-Detection [44]使用跟踪的边界框作为其他区域建议以增强检测,然后是基于二分匹配的边界框关联。 Tracktor [1]直接将先前的帧跟踪结果用作区域建议,然后应用边界框回归来提供跟踪结果,从而消除了框关联过程。 JDE [39]和FairMOT [43]从共享的神经网络主干学习对象检测任务和外观嵌入任务。 CenterTrack [45]是一种同步检测和跟踪算法,可对物体进行定位并预测其与前一帧的偏移量。 ChainedTracker [27]链接成对的边界框回归结果,这些结果是根据重叠节点估算的,其中每个节点都覆盖两个相邻的帧。 在视频目标检测中,FGFA [49]使用光流使前一帧中的中间特征弯曲以加快推理速度。 T-CNN [16]将堆叠的连续帧馈入网络,并对整个视频段进行检测。
  我们的方法直观地是一个联合检测和跟踪管道。 不同之处在于,所有这些先前的工作都采用基于锚的[28]或基于点的[46]检测框架,其中使用跟踪框作为建议区域。 取而代之的是,我们基于查询键机制构建系统,并将跟踪的对象用作查询。(说明transtrack使用的联合监测和跟踪,即只有一个backbone,但是没有了锚框(detr范式))

方法

我们假设一个理想的跟踪模型输出完整且有序的对象集。 为此,TransTrack将学习的对象查询和上一帧的对象特征作为输入查询。 学习到的对象查询被解码成每帧的检测框,以提供常见的对象检测结果。 先前帧中的对象特征被解码为跟踪框。 TransTrack基于同一帧上的跟踪框和检测框执行跟踪关联。 这使简单的基于bbox的IoU匹配策略能够关联两个连续的帧。(也就是说先用一个backbone,获取图片的特征,然后将特征分别输入检测分支和识别分支,分别得到检测结果和跟踪结果,最后将这两个框进行iou匹配) TransTrack的架构细节如图3所示。

TransTrack的阅读笔记+翻译_第3张图片
图3:TransTrack的体系结构细节。 首先,将当前帧图像输入到backbone以提取特征图。 然后,将当前帧特征图和前一帧特征图都输入(fed)编码器以生成合成特征。 接下来,将学习到的对象查询解码为检测框,并将前一帧的对象特征解码为跟踪框。 最后,使用IoU匹配将检测盒与跟踪盒相关联。

  1、整体结构

  TransTrack建立在Transformer [36]上,Transformer是广泛使用的查询键机制实体。 它包括编码器和解码器,两者均由堆叠的多头注意层和逐点完全连接的层组成。 如果输入查询和输入键相同,则多头注意力称为自注意力,否则称为交叉注意力。 逐点完全连接的层称为前馈网络,由线性变换和非线性激活函数组成。 在transormer体系结构中,编码器生成密钥(key向量),而解码器将输入特定于任务的查询(Q向量)作为输入。 这种查询键注意机制使其适合于序列任务,并具有出色的性能,例如自然语言处理和视频理解[36,10]。
  TransTrack的编码器将两个连续帧的组合(原文是compose,没看懂是怎么组合的,stack还是add还是什么?看图是stack,但是具体还是要看代码)特征图作为输入来捕获有用的相关性,如图3的编码器块所示。为避免重复计算,当前帧的提取特征被临时保存,然后重新使用于下一帧。
  TransTrack中使用了两个并行解码器。 从编码器生成的特征图被两个解码器用作公用密钥。 这两个解码器设计为分别执行对象检测和对象传播。 具体而言,解码器将学习的对象查询作为输入,并预测当前帧上的检测框。 另一个解码器将先前帧中的对象特征作为输入,并预测当前帧(即跟踪框)上相应对象的位置。
(也就是说将当前帧的特征向量与上一帧的特征向量进行组合,然后输入至encoder,随后输入并行解码器,分别得出检测狂和预测位置)
  目标检测:
   TransTrack利用学习到的对象查询的概念在每个帧中执行对象检测。 学习对象查询首先在DETR [5]中提出,DETR是一种基于查询键机制的新型目标检测器。 学习对象查询是一组可学习的参数,它们与网络中的所有其他参数一起训练。 在检测期间,关键是从输入图像生成的全局特征图,学习的对象查询将查找图像中感兴趣的对象,并输出最终的检测预测,称为“检测框”。 图3中的左侧解码器块说明了TransTrack的目标检测阶段。(也就是说可以认为这部分类似于detr?)
  对象传播:
  给定在前一帧中检测到的对象,TransTrack通过对象传播的方式将这些对象传播到当前帧,如图3右侧的解码器块所示。该解码器的结构与左侧的解码器基本相同,但是它具有 取之前帧中的对象特征作为输入查询。 (即用前帧的输出的decoder作为q向量,那么维度变化问题怎么解决的?定一个定长的?)这种继承的对象特征传达了以前看到的对象的外观和位置信息,因此该解码器可以很好地在当前帧上定位相应对象的位置,并输出“跟踪框”。
  Bbox关联
  如果在同一帧中提供检测框和跟踪框,则TransTrack使用框IoU匹配方法来获取最终的跟踪结果,如图3所示。由于检测框和跟踪框都是同一帧中对象的位置,因此存在 它们之间只有轻微的偏移。 它允许一种简单的匹配策略(即box-IoU匹配)来关联两组盒。 将Kuhn-Munkres(KM)算法[19]应用于检测盒和跟踪盒的IoU相似性,将检测盒与跟踪盒进行匹配。 那些不匹配的检测框将作为新对象添加。

  2、训练

  训练数据
  TransTrack的训练数据可能与大多数其他跟踪方法相同,其中将两个连续的帧或从短序列中随机选择的两个帧用作训练样本。 此外,训练数据也可以是静态图像[45],其中通过随机缩放和转换静态图像来模拟相邻帧。(也就是说可以通过检测数据集训练跟踪)

  训练损失
   跟踪框和检测框都可以视为当前帧的对象检测。 它允许我们以相同的训练损失同时训练两个解码器。
对于训练检测框,TransTrack在分类和框坐标的预测对象集上应用设置的预测损失[5、48、33、32、37]。 基于集合的损失(Set-based loss,可以理解为关联映射损失)会在预测和真实基础对象之间产生最佳的二分匹配。 在[5,48,33,32,37]之后,匹配成本定义如下:
在这里插入图片描述

  其中Lcls是预测分类 [23]和地面真相类别标签的focal loss,L_L1和L_giou分别是标准化中心坐标与预测框和地面真相框的高度和宽度之间的L1损耗和广义IoU损耗[29]。 lambda_cls,lambda_l1,lambda_giou是每个分量的系数。 训练损失与匹配成本相同,不同之处在于仅对匹配对执行训练。 最终损失是通过训练批次内的对象数量归一化的所有对的总和。
  对于训练跟踪框,将删除最佳二分匹配,并且匹配索引直接来自前一帧中的检测框。 训练损失与检测框相同

  3、推理

  TransTrack首先在第一帧中执行对象检测,其中合成特征图是第一帧特征图的两个副本。 然后,TransTrack进行从第一帧到第二帧的对象传播和框关联。 在所有相邻帧上依次执行此过程,最后完成多对象跟踪任务。

  追踪重生:
  我们在TransTrack的推理过程中引入了轨道重生,以增强对遮挡和短期消失的鲁棒性[1,45,27]。 具体来说,如果跟踪框不匹配,它将保持为“非活动”跟踪框,直到对K个连续帧保持不匹配为止。 无效的跟踪框可以与检测框匹配并重新获得其ID。 类似于[45],我们选择K = 32。(可以理解为将未跟踪到的对象保存32帧,并将其保留在跟踪分支的key里,最多保留32帧)

实验

  1、 数据集和评价指标

  我们在MOT17数据集[25]上进行实验,该数据集包含7个训练序列和7个测试序列。 仅对行人进行注释。 MOT数据集未提供正式拆分。 类似于[45],我们在消融研究中将每个训练序列分为两半,并使用前半部分进行训练,第二部分进行验证。 基准评估是对整个培训集进行培训,并对测试集进行评估。
  跟踪性能是通过广泛使用的MOT指标[2]来衡量的,包括多目标跟踪准度(MOTA),多目标跟踪精度(MOTP),假阴性(FN),假阳性(FP),身份切换总数 (IDs),以及“最跟踪的轨迹”(MT),“最丢失的轨迹”(ML)的百分比。 ID F1分数(IDF1)也用于测量轨迹标识的准确性。 其中,MOTA是衡量检测和跟踪的整体性能的主要指标:
TransTrack的阅读笔记+翻译_第4张图片
其中,GT_t是t帧中真值框的数量

  2、 实施细节

  我们使用resnet - 50[12]作为网络骨干。优化器为批量大小为16的AdamW[24],初始transformer的学习率为210e-4,主干为210e-5,重量衰减为10e-4。所有的transformer的权值都用Xavier init[11]初始化,骨干为冻结batch_norm[15]的imagenetpretraining[8]模型。我们使用数据增强,包括随机水平、随机作物、比例增强,调整输入图像的大小,使最短边至少为480,最多为800像素,最长边最多为1333像素。我们训练了150个时代的网络,除非另有说明,否则学习率在第100个时代下降了10倍。
  [45]之后,我们在CrowdHuman [31]上对我们的网络进行了预训练。 更多的外部数据[43,30]可能会进一步提高性能,但这并不是本文的重点。 表1显示了外部培训数据的影响。
TransTrack的阅读笔记+翻译_第5张图片
表1:对外部训练数据的消融研究。 第一行是仅在CrowdHuman数据集上训练的模型。 第二行是仅在MOT数据集的分割训练集上训练的模型。 第三行是模型,该模型首先在CrowdHuman数据集上训练,然后在MOT数据集的分割训练集上训练。所有模型都在MOT数据集的拆分验证集上进行了测试。(是否可以认为作者mot数据集提升了跟踪分支的性能,而crowdhuaman提升了检测性能,但是其实仅看第一行,我们可以发现在FN和IDs这两个指标并不算差,但是我不明白的是为什么FP差距这么大?按理来说不应该的吧)

  3、消融实验

  我们首先消除了Transformer架构的影响。 该体系结构主要在输入特征上有所不同。 结果示于表2。TransTrack的阅读笔记+翻译_第6张图片
表2:关于Transformer架构的消融研究。 原始Transformer的特征分辨率低。 具有多尺度特征输入的Deformable DETR(可变形DETR,商汤家的)实现了最佳性能

  Transformer
  继[5]之后,原始的Transformer体系结构是基于res5 stage(就是resnet)[12]的特征图构建的。 此设计需要更多的训练时期,而我们将网络训练了500个epoch,而在第400个epoch,学习率下降了10倍。 但是,最终的性能是有限的,只有55.4 MOTA。 主要原因是res5的低特征分辨率不利于检测和跟踪小物体。
  Transformer-DC5
  为了提高特征分辨率,我们在resnet应用了膨胀卷积,并从该阶段的第一个卷积中删除了一个步幅(也就是说提高了感受野的情况下又保持了分辨率),称为Transformer-DC5 [5]。 此设计可显着提高3.6 MOTA。 但是,这也会带来膨胀卷积的缺点,例如占用大量内存
  Transformer-P3
  特征金字塔网络(FPN)[22]是用于提高特征分辨率的广泛使用的体系结构。 这里我们采用FPN的P3层作为输入特征图。 由于内存限制,编码器直接从整个pipeline中删除。 删除编码器后,骨干网的学习率可以提高到与变压器相同。 最终性能类似于Transformer-DC5。 尽管Transformer-P3的特征分辨率大于DC5的特征分辨率,但没有编码器块进一步提高了性能。(意思就是说虽然Transformer-P3的骨干网更复杂,但是因为取消了encoder或者说是把FPN当做了encoder,所以反而降低了内存的消耗,但是缺点就是没有transormer-encoder,所以虽然特征分辨率提升了,但是性能反而没提升)
  Deformable Transformer
  提出了可变形变压器[48]来解决变形器中有限的特征分辨率的问题。 在合理的内存使用范围内,它将多尺度功能融合到整个编码器-解码器体系中,并在常规对象检测数据集中实现了出色的性能。 我们将其引入我们的方法中,性能显着提高了5.6 MOTA,最高达到64.9 MOTA。 在已发布的方法中,这是非常有竞争力的表现。 我们使用Deformable Transformer作为基准设置。
  接下来,我们消除输入查询的效果。 实验和视觉结果分别显示在表3和图4中。
TransTrack的阅读笔记+翻译_第7张图片
表3:对于输入查询的消融研究。仅有学习到的对象查询限制了关联性能。仅有前一帧的特征向量查询又会遗漏新出现的对象。在全都使用的时候可以达到最佳检测与跟踪性能

图4:带有不同输入查询的TransTrack的可视化。 第一行仅是学习对象查询。 第二行仅是前一帧的对象特征查询。 第三行是前一帧的学习对象查询和对象特征查询。 仅从前一帧学习到的对象查询或仅有前一帧对象特征查询会导致ID切换大小写或丢失对象。 TransTrack既作为输入查询,又表现出最佳的检测和跟踪性能。

  仅学习对象查询
   当输入查询仅是学习对象查询时,我们引入了一个非常朴素的管道(an extremely naive pipeline),其中每个帧分别输出检测盒,并且检测结果根据它们在输出集中的索引进行关联。(难道是检测结果索引为1的与上一帧索引为1的直接关联?) 实际上,这种朴素的实现在检测度量和关联度量方面都可以达到不错的性能,如表3的第一行所示。这是因为每个对象查询都可以预测特定区域中的对象,并且大多数对象只是在周围移动 视频序列中的一小段距离。 但是,font color=blue>仅依靠输出集中的索引会导致不可忽略的错误匹配,尤其是当对象移动很长距离时。 当对象在较大范围内移动时,它会与不同的对象查询相关联,并且其在输出集中的索引也会更改。 图4的第一行显示了一个可视化案例。

  仅从上一帧查询对象特征
 &emsp当输入查询仅是前一帧的对象特征时,每个对象特征都会根据查询键机制预测其在当前帧中的位置。 这恰好是同时检测和关联。 图4第二行中的可视化结果表明,该方法能够将对象与较大的运动范围相关联。 但是,这种实现方式的缺点是显而易见的。 只能连续跟踪出现在第一帧中的对象。 对于整个视频序列,大多数对象将丢失,并且FN度量下降,如表3的第二行所示。

  两者都有
  从以上的消融研究中,我们得出一个理想的跟踪模型需要学习对象查询和来自前一帧的对象特征查询。这是trantrack的基线设置。trantrack输出完整和有序的对象集。在其他设置中,定量和可视化结果都是最好的。

  4、Benchmark evaluation(公开数据集的评估)

  我们在表4中将TransTrack与MOT17测试数据集上的其他方法进行了比较。由于不同的方法在不同的计算平台上运行,因此此处未报告运行时间。 TransTrack被设计为联合检测和跟踪方法,因此采用“专用检测器”协议。
  TransTrack与当前的最新方法(特别是在MOTP和FN方面)取得了可比的结果。 出色的MOTP演示了TransTrack可以精确定位图像中的对象。 良好的FN表示已成功检测到大多数对象。 这些证明了将学习的对象查询引入查询键系统的成功。
  至于ID切换,TransTrack可与最新模型ChainedTracker [27]相提并论,该模型证明了对象特征查询关联相邻帧的有效性。 尽管ID-switch劣于其他方法,但我们认为,作为将查询键机制引入MOT的第一项工作,我们为保持基于查询键机制的跟踪方法的简单性和原创性而没有采用复杂点操作。我们认为,进一步改善TransTrack的整体性能是一个有希望的方向。(意思就是说因为没有使用复杂点关联方法,所以idsw很高,之后的重点将是在保持原有性能的情况下,降低idsw的问题)

总结

  我们基于查询键机制建立了一个简单的联合检测跟踪MOT系统,名叫TransTrack。 图像特征图是查询之间的通用键。 学习的对象查询检测当前帧中的对象,而来自前一帧的对象特征查询将当前帧中的对象与先前的对象相关联。 我们的方法在MOT17挑战数据集上获得了竞争性65.8%的MOTA。 查询键机制在SOT领域广泛使用,但在MOT中很少研究。我们是第一个证明了查询键机制可以作为MOT的有效和强大的基准。

我的一些记录与感觉

sot是我入门目标跟踪到第一个研究领域,当时的siamfc给我的感觉就是简单、高效、快速,而之后的多目标跟踪一直给我的感觉就是前面处理花里胡哨,最后永远都是卡尔曼+匈牙利。而前年的deepmot又有些复杂,这不论哪一方面都没法和siam系列作比较。本文档方法说实话并不复杂,思路也很简单,但是人家就是能用简单的方法实现超凡的性能,厉害。相关代码研究将在月底放出。敬请期待(我也很期待这个代码!!!)

你可能感兴趣的:(小猪猪的深度学习之路,python,计算机视觉,目标跟踪)