【多目标跟踪论文阅读笔记——FairMOT】

[阅读心得] 多目标跟踪经典论文——FairMOT

  • 写在前面
    • 1. Abstract
    • 2. Unfairness Issues in One-shot Trackers
      • 2.1 Anchor机制
      • 2.2 特征图
      • 2.3 特征图尺寸
    • 3. FairMOT
      • 3.1 Backbone
      • 3.2 Multi-Task Learning
      • 3.3 Association
    • 4. Experiments
      • 4.1 Visualization
      • 4.2 Run-time
      • 4.3 Compare with SOTA
    • 参考

【论文】https://arxiv.org/pdf/2004.01888.pdf
【代码】https://github.com/ifzhang/FairMOT

写在前面

作者提出,目前的跟踪算法设计过程中,将REID任务作为Detection的下游任务,这导致了其精度很大程度上取决于Detection效果。这对REID任务来说是“不公平的”。因此本文分析了这种“不公平”的来源(第2节)并设计了一种基于anchor-free机制的网络(第3节)。在保证实时性情况下,性能得到了进一步提升。

1. Abstract

论文主要做了如下工作:

  1. 分析了JDE模式(one-stage)下REID任务和Detection任务不公平的问题来源
  2. 提出一种简介有效的方法“FairMOT”,顾名思义,公平地在一个网络完成两个任务,表现优异

2. Unfairness Issues in One-shot Trackers

提出3种对REID任务不公平的成因,认为这导致了整体算法性能下降
【多目标跟踪论文阅读笔记——FairMOT】_第1张图片

2.1 Anchor机制

现有的one-stage模式跟踪算法(JDE、Track R-CNN)都采用的anchor机制的网络,但是发现这种机制可能不利于获得优秀的REID特征,原因如下:

  1. ,先检测再REID,会导致REID效果极大地受到检测任务的影响
  2. 一个anchor对应多个ID,如Fig2. (b),则REID网络会被迫提取两个不同ID的外形特征,效果不理想不言而喻
  3. 多个anchor对应一个ID,如Fig2. ©

2.2 特征图

目前的one-stage跟踪算法,Detection和REID的任务共享了绝大部分的特征(feature),但是这两个任务实际上需要来自不同层的特征来获得最优性能,按照原作者所说:

Object detection requires deep feature toe estimate object classes and positions
RE-ID requires low-level appeareance features to distinguish different instances of the same class

2.3 特征图尺寸

先前的工作中,REID网络主要学习高维的特征图。但作者认为REID网络学习低维特征更好。原因有三:

  1. 从高维学习REID特征可能会伤害Detection效果
  2. 不同于单纯的REID任务,MOT中对应的任务相对更简单,不需要那么高维的特征学习
  3. 推理速度更快

3. FairMOT

【多目标跟踪论文阅读笔记——FairMOT】_第2张图片

3.1 Backbone

基于anchor-free机制、不同任务的侧重特征维度不同两个思路,设计了DLA-34网络,具体细节见原论文。主要的设计思想就是前面说的两个。

3.2 Multi-Task Learning

L t o t a l = 1 2 ( 1 e w 1 L d e t e c t i o n + 1 e w 2 L i d e n t i t y + w 1 + w 2 ) \mathcal L_{total} = \frac {1}{2} (\frac{1}{e^{w_1}}\mathcal L_{detection} + \frac{1}{e^{w_2}}\mathcal L_{identity} + w_1 + w_2) Ltotal=21(ew11Ldetection+ew21Lidentity+w1+w2)
其中, w 1 , w 2 w_1, w_2 w1,w2是可学习的参数

笔者认为,这部分基本与JDE中多任务平衡的做法相同,只不过FairMOT没有把所有平衡或者Alignment的任务都寄托在这个环节,而是依靠前面更精细的backbnone和head设计思路分担了这个压力,所以最终获得了更好的平衡效果。

3.3 Association

基本按照MOTDT提出的方法进行

4. Experiments

4.1 Visualization


证明了anchor-free机制和DLA-34网络的有效性

4.2 Run-time

【多目标跟踪论文阅读笔记——FairMOT】_第3张图片

4.3 Compare with SOTA

1.与同范式的前作JDE、Track R-CNN进行对比
【多目标跟踪论文阅读笔记——FairMOT】_第4张图片
JDE的作者特意提到的IDs过高的问题明显改善了,证明anchor-free机制确实更利与REID部分的表现。
此外,整体性能提升,帧数不降反升。笔者认为这是因为在网络设计上更加精细,舍弃了FPN的三通道结构,且用了更轻量的网络原型(ResNet34 v.s. Darknet)作基础,因此速度上表现十分优异。

2.与SOTA对比(不仅包含one-stage,甚至包含two-stage~)
【多目标跟踪论文阅读笔记——FairMOT】_第5张图片

参考

[1] Object Track(六):经典论文FairMOT速读

你可能感兴趣的:(目标跟踪,计算机视觉,人工智能)