作者:KYLE WIGGERS- VentureBeat;Yifu Zhang,Xinggang Wang, Wenyuliu - Huazhong University of Science and Technology(华中科大);Chunyu Wang, Wenjun Zeng -Microsoft Research Asia (微软亚洲研究院),Apr 8, 2020
编译:Florence Wong,AICUG
本文系AICUG翻译原创,如需转载请注明出处
本文转自知乎:最新研究|微软AI对象检测器(FairMOT)介绍及论文摘要
代码:github
论文:A Simple Baseline for Multi-Object Tracking
最近微软和华中大学研究人员组成的团队本周开放了AI对象检测器-Fair Multi-Object Tracking(FairMOT)的源码,他们声称,该模型以在公共数据集上以每秒30帧的速度优于目前的最先进的模型。如果产品化了,它可以使从老年护理到安全领域的各个行业受益,并可能被用来跟踪像COVID-19这样的疾病的传播。
正如该团队所解释的那样,大多数现有方法都采用多种模型来跟踪对象:(1)定位感兴趣对象的检测模型,以及(2)提取用于重新识别短暂遮挡对象的特征的关联模型。相比之下,FairMOT采用无锚方法在高分辨率特征图上估计对象中心,这使重新识别特征可以更好地与中心对齐。一个并行分支估计用于预测对象身份的特征,而“骨干”模块将这些特征融合在一起以处理不同比例的对象。
研究人员在从六个公共语料库(ETH,CityPerson,CalTech,MOT17,CUHK-SYSU和PRW)收集的训练数据集上对FairMOT进行了测试,以供人类检测和搜索 (在两张NVIDIA RTX 2080图形卡上进行了30小时的培训)。在删除重复的剪辑后,他们针对2DMOT15,MOT16和MOT17等基准测试了经过训练的模型。所有这些都来自MOT挑战赛,包括用于验证数据集附带的人员追踪算法的框架,一个提供多个指标的评估工具以及用于监视和体育分析等任务的多个测试。
与仅有的两个联合执行对象检测和身份特征嵌入的研究(TrackRCNN和JDE)相比,该团队报告FairMOT在MOT16数据集上均以“接近视频速率”的推理速度胜过两者。
研究人员在描述FairMOT的论文中总结道:“我们发现在对象检测和身份嵌入中使用锚点是导致结果降级的主要原因。特别是,对应于对象不同部分的多个附近的锚点,可能会造成估计相同的身份,从而导致网络训练的歧义。”
除了FairMOT的源代码,研究团队还提供了几种可以在实时或录制的视频上运行的预训练模型。
论文摘要:
A Simple Baseline for Multi-Object Tracking(多目标跟踪的基准)
作者:Yifu Zhang,Xinggang Wang, Wenyuliu - Huazhong University of Science and Technology(华中科大)
Chunyu Wang, Wenjun Zeng -Microsoft Research Asia (微软亚洲研究院)
摘要:近年来,作为多目标跟踪的核心组件的目标检测和重新识别取得了显着进展。 但是,很少有人关注在单个网络中完成两项任务以提高推理速度。 沿此路径进行的初始尝试最终导致结果降级,这主要是因为未正确学习重新标识分支。 在这项工作中,我们研究了故障背后的根本原因,并因此提出了解决问题的简单基准。 它以30 fps播放速度明显优于公共数据集上的最新技术。 我们希望这个基准可以启发并帮助评估该领域的新想法。 可以在https://github.com/ifzhang/FairMOT获得代码和经过预训练的模型。
追踪效果
所有结果都来自“MOT挑战“评估服务器上,并根据“专用检测器”协议获得的。在2DMOT15,MOT17和最近发布的(2020.02.29)MOT20上,我们在所有跟踪器中排名第一。 请注意,我们的IDF1得分明显优于其他单次MOT跟踪器10分以上。 整个系统的跟踪速度可以达到30 FPS。
文章简介:
多目标跟踪(MOT)已经成为计算机视觉领域的长期目标。目的是估计视频中多个感兴趣对象的轨迹。成功完成任务可以使许多应用程序受益,例如动作识别,公共安全,运动视频分析,老人护理和人机交互。
最先进的方法通常通过两个独立的模型解决该问题:检测模型首先通过对图像中的框进行边界界定来定位感兴趣的对象,然后,关联模型为每个边界框提取重新标识(Re-ID)特征,并根据在特征上定义的某些度量将其链接到现有轨道之一。近年来,分别在对象检测和Re-ID 上取得了显着进步,这反过来又提高了跟踪性能。但是,这些方法无法以视频速率执行推理,因为两个网络不共享功能。
随着多任务学习的成熟,联合检测物体并学习Re-ID特征的单发方法已开始引起更多关注。由于两个模型共享大多数功能,因此它们具有显着减少推理时间的潜力。然而,与两步法相比,单步法的准确性通常会显着下降。特别是,ID开关的数量增加了很多,如实验部分所示。结果表明,将这两项任务结合起来并非易事,应谨慎对待。
图说:图1:(a)黄色和红色的锚点造成了估计相同的ID(穿蓝色衬衫的人),尽管图像块非常不同。此外,基于锚的方法通常在粗网格上运行。因此,很有可能在锚点(红色或黄色星形)提取的特征未与对象中心对齐。 (b)免锚的做法受歧义的影响较小。
我们没有使用大量技巧来提高跟踪准确性,而是研究了失败的原因,并提出了一个简单而有效的基准。确定了对跟踪结果至关重要的三个因素。
(1)锚不适合Re-ID。当前的单步法跟踪器都是基于锚的,因为它们是从对象检测器修改而来的。但是,有两个原因造成了锚点不适合学习Re-ID功能。首先,对应于不同图像补丁的多个锚点可能负责估计同一对象的身份。这导致网络的严重歧义。有关说明,请参见图1。此外,通常会将特征图降级采样8次以平衡精度和速度。这对于检测是可以接受的,但对于ReID来说太粗糙了,因为对象中心可能与在粗略锚点位置提取的用于预测对象身份的特征不对齐。我们解决该问题,是通过将MOT问题,处理为位于高分辨率特征图顶部的像素级关键点(对象中心)估计和身份分类问题。
(2)多层特征聚合。这对于MOT尤为重要,因为Re-ID功能需要利用低级和高级功能来容纳大小两种对象。我们在实验中观察到,由于提高了处理标度变化的能力,这有助于减少单步法的身份切换。请注意,对于两步方法而言,改进并不那么重要,因为在裁剪和调整大小操作之后,对象将具有相似的比例。
图2:我们的一步法MOT跟踪器概述。首先将输入图像馈送到编码器-解码器网络,以提取高分辨率特征图(步幅= 4)。然后,我们添加两个简单的并行头,分别用于预测边界框和Re-ID特征。预测对象中心的特征被提取出来以进行时间边界框链接。
(3)ReID特征的维数。以前的ReID方法通常学习高维特征,并在其基准上取得了可喜的结果。但是,我们发现低维特征实际上对MOT更好,因为它的训练图像比ReID少(我们不能使用ReID数据集,因为它们仅提供裁剪后的人物图像)。学习低维特征有助于减少过拟合小数据的风险,并提高跟踪的稳健性。
我们提出了一个简单的基线,该基线共同考虑了以上三个因素。请注意,我们不要求在算法上具有新颖性。相反,我们的贡献在于首先确定单步跟踪器背后的挑战,然后将在计算机视觉的不同领域开发的多种技术和概念组合在一起,以解决以前的MOT工作中忽略的挑战。
我们的方法的概述如图2所示。我们首先采用无锚对象检测方法来估计高分辨率特征图上的对象中心。消除锚点减轻了歧义性问题,并且高分辨率特征图的使用使Re-ID特征能够更好地与对象中心对齐。然后,我们添加了一个并行分支,用于估算用于预测对象身份的逐像素Re-ID特征。特别是,我们学习了低维Re-ID特征,这些特征不仅减少了计算时间,而且提高了特征匹配的稳健性。我们为骨干网配备了“深层聚合”运算符,以融合来自多个层的要素,以便处理不同规模的对象。
我们通过评估服务器评估我们在MOT Challenge基准测试中的方法。它在2DMOT15 ,MOT16 ,MOT17 和MOT20 数据集的所有在线跟踪器中排名第一。实际上,它在2DMOT15,MOT17和MOT20数据集上的性能也优于脱机跟踪器(MOT20是最新的数据集,以前的工作都没有报告过结果)。尽管取得了很好的效果,但该方法还是非常简单,并且以30 FPS的速度运行。我们希望它可以用作该领域的强大基准。该代码以及预训练的模型将被发布。
另外,这里有同志进行了复现,目前楼主正在做相关领域的研究,正在着手复现,记录一下。