Paper:[CVPR2020] A Simple Baseline for Multi-Object Tracking
Link : https://arxiv.org/abs/2004.01888
Code : https://github.com/ifzhang/FairMOT/
多目标跟踪(MOT)是计算机视觉领域的一个重要问题。其目的是估计视频中多个感兴趣目标的轨迹。目前多目标追踪任务的解决方法通常分为两类:
two-step MOT: 首先用检测模型确定图像中感兴趣的对象的边界框,然后用关联模型为每个边界框提取重识别(Re-ID)特征,并根据在特征上定义的某些度量将其与一个现有跟踪结果联系起来。但是,这两个网络不共享特征,因此无法以视频帧速率执行推断。
one-shot MOT: 同时进行目标检测和Re-ID特征提取,通过共享大部分计算来减少推理时间。但是准确性显着下降,而且存在目标ID关联不正确的问题。
1、基于anchor的方法不适用于Re-ID任务
首先,对应于不同图像块的多个anchor可能负责估计同一目标的id,这会导致严重的歧义。此外,通常会将特征图进行下采样缩小为原来的 1 / 8 1/8 1/8 以平衡精度和速度,这对于Re-ID太过粗糙,因为目标中心可能与在粗糙锚点位置提取的特征不一致。
文章通过将MOT问题视为高分辨率特征图上的像素级关键点(目标中心)估计和id分类问题来解决该问题。
2、多层特征聚合
对于MOT特别重要,因为Re-ID特征需要利用低级和高级特征来适应大型和小型的目标。研究者在实验中观察到,由于提高了处理尺度变化的能力,可以有效减少one-shot方法的id转换数量。
3、Re-ID特征维度
以前的Re-ID方法通常学习高维特征,并在其基准测试中取得了可喜的结果。但是,文章发现低维特征实际上更适合MOT,因为MOT任务的训练图像比Re-ID少,学习低维特征有助于减少过拟合小数据的风险,并提高跟踪的鲁棒性。
文章采用anchor-free对象检测方法来估计高分辨率特征图上的目标中心。消除锚点减轻了歧义性问题,并且高分辨率特征图的使用使Re-ID特征能够更好地与对象中心对齐。然后,文章添加了一个并行分支,用于估计用于预测对象身份的逐像素Re-ID特征。文章方法通过学习低维Re-ID特征,减少了计算时间同时提高了特征匹配的鲁棒性。文章还为骨干网络配备了“深层聚合”运算符,以融合来自多个层的特征,处理不同规模的对象。
文章采用ResNet-34作为backbone,同时为了适应不同大小的目标,将DLA的一种变体DLA-34应用于骨干网络。这里输入图像大小为 H i m a g e × W i m a g e H_{image}\times W_{image} Himage×Wimage,输出的特征图大小为KaTeX parse error: Undefined control sequence: \bbox at position 1: \̲b̲b̲o̲x̲[white, 3px]{C\…
本方法中将目标检测视为高分辨率特征图上基于中心的包围盒回归任务。将三个并行回归头(regression heads)附加到主干网络以分别估计heatmap,目标中心偏移和边界框大小。通过对主干网络的输出特征图应用3×3卷积(具有256个通道)来实现每个回归头(head),然后通过1×1卷积层生成最终结果。
该部分负责估计目标中心的位置。如果heatmap中位置与GT目标中心不一致,则该处响应为1,随着heatmap中位置和目标中心之间的距离变大,响应呈指数衰减。
该部分负责更精确地定位目标。这对于追踪至关重要,因为需要根据准确的目标中心提取Re-ID特征。
该部分负责估计每个anchor位置的目标边界框的高度和宽度,与Re-ID特征没有直接关系,但是定位精度将影响对象检测性能的评估。
ID嵌入分支的目标是生成可以区分不同对象的特征。理想情况下,不同对象之间的距离应大于同一对象之间的距离。文章在主干特征之上应用了具有128个内核的卷积层,以提取每个位置的身份嵌入特征。
对于图像中每个GT框KaTeX parse error: Undefined control sequence: \bbox at position 1: \̲b̲b̲o̲x̲[white, 3px]{\t…, 首先计算目标中心KaTeX parse error: Undefined control sequence: \bbox at position 1: \̲b̲b̲o̲x̲[white, 3px]{(c…,则其对应的特征图上的位置为KaTeX parse error: Undefined control sequence: \bbox at position 1: \̲b̲b̲o̲x̲[white, 3px]{(\…。heatmap上 ( x , y ) (x,y) (x,y)处的响应为KaTeX parse error: Undefined control sequence: \bbox at position 1: \̲b̲b̲o̲x̲[white, 3px]{M_…,其中 N N N表示目标数量, σ c \sigma_c σc表示标准偏差。则heatmap损失函数定义为
KaTeX parse error: Undefined control sequence: \bbox at position 2: \̲b̲b̲o̲x̲[white, 3px]{L_…
将大小和偏移分别记为 S ^ ∈ R W × H × 2 \hat{S}\in R^{W\times H\times 2} S^∈RW×H×2和 O ^ ∈ R W × H × 2 \hat{O}\in R^{W\times H\times 2} O^∈RW×H×2。对于GT框 b i \textbf{b}^i bi,大小为KaTeX parse error: Undefined control sequence: \bbox at position 1: \̲b̲b̲o̲x̲[white, 3px]{s^…。同理,KaTeX parse error: Undefined control sequence: \bbox at position 1: \̲b̲b̲o̲x̲[white, 3px]{o^…。将对应位置的大小和偏移记为 s ^ i , o ^ i \hat{s}^i, \hat{o}^i s^i,o^i,则这两个heads的loss为
KaTeX parse error: Undefined control sequence: \bbox at position 2: \̲b̲b̲o̲x̲[white, 3px]{L_…
对于每个GT框 b i \textbf{b}^i bi,在其heatmap目标中心位置上提取出ID特征 E x i , y i E_{x^i, y^i} Exi,yi并学习将其映射到一个类分布向量 p ( k ) p(k) p(k)上。将GT类标签的one-hot表示记为 L i ( k ) L^i(k) Li(k),类别数目记为 K K K,则softmax loss为
KaTeX parse error: Undefined control sequence: \bbox at position 2: \̲b̲b̲o̲x̲[white, 3px]{L_…
网络推理:在预测的heatmap之上,根据heatmap得分执行非最大抑制(NMS),保留得分大于阈值的关键点的位置。然后根据据估计的偏移量和框大小来计算相应的边界框,并在估计的目标中心提取ID嵌入。
在线框连接:使用标准的在线跟踪算法,根据第一帧中的估计框来初始化多个小轨迹。在随后的帧中,根据通过Re-ID特征和IoU测量的距离将这些框链接到现有的轨迹。文章还使用卡尔曼滤波器预测轨迹在当前帧中的位置。如果距离连接的检测目标距离太远,则将相应的成本设置为无穷大。
与anchor-based的方法相比,文章anchor-free方法受对齐误差问题的影响较小,并且MOTA得分明显更高。尤其是当stride为4时,ID转换数量从137显著减少到93。更重要的是,当将stride从8减小到4时,文章方法会受益匪浅。将stride进一步减小到2会降低结果的质量,因为引入了较低层级的特征会使表示形式对外观变化的鲁棒性降低。
本部分评估骨干网中多层功能聚合的影响。文章评估了许多主干网,如vanilla ResNet ,FPN,HRNet和DLA-34。为了公平比较,将方法的其余因素控制为相同。对于本实验中的所有方法,最终特征图的stride为4。实验表示,在改善ID嵌入方面,多层融合相对于使用更深的网络具有明显的优势,而由于多层特征聚合,DLA-34中Re-ID特征的判别能力得到了提高。
文章还评估了主流的多层聚合方法,例如HRNet,HRNetV2和FPN。所有方法均比ResNet-34获得更好的MOTA分数。改进不仅来自增强的检测结果,还归因于Re-ID功能的改进的区分能力。但是DLA-34比HRNetV2具有更多的判别性Re-ID特征。
这里评估了多个维度选择。当维度从512减少到128时,TPR持续提高,这表明使用低维度特征的优势。将尺寸进一步减小到64会开始降低TPR,因为Re-ID功能的代表功能受到影响。尽管MOTA分数的变化非常微小,但ID转换的数量实际上从210个大大减少到136个。这实际上在改善用户体验方面起着至关重要的作用。同时,通过减少Re-ID特征的维数,推理速度也略有提高。
这篇文章仅与JDE进行比较,实验结果表明,文章的方法在两个数据集上都比JDE方法表现优秀很多。ID转换的数量从218个减少到80个,这在改善用户体验方面有很大的提高。两种方法的推理速度都接近视频速率,但本文方法更快。
这里将本文方法与最新的在线跟踪器进行了比较,表中展示了在2DMOT15,MOT16,MOT17和MOT20数据集的测试集的结果。文章提出的方法在四个数据集上都取得了第一的成绩。
文章为one-shot多对象跟踪提供了一个简单的基准。文章首先研究以前的one-shot方法无法获得与两步法类似结果的原因。并相应地提出了一种简单的anchor-free方法,该方法在30 fps的几个基准数据集上表现均优于先前的最新技术。