【论文阅读】A Simple Baseline for Multi-Object Tracking

A Simple Baseline for Multi-Object Tracking

概述

基于tracking by detection的策略,沿用JDE的核心思想(即联合检测和嵌入向量的模型),将检测方法由anchor-base换成anchor-free,超越了现有的SOTA算法。

关键词: One-shot、实时
研究机构: 华科、微软亚研院

主要思想

论文分析对照之前的算法思路,得出以下三点结论。

Anchor-base vs Anchor-free

【论文阅读】A Simple Baseline for Multi-Object Tracking_第1张图片
TrackRCNN是在Mask RCNN顶部添加re-id分支,使用ROI-Align为所有正anchors提取ReID特征;
JDE是在YOLOv3顶部添加re-id分支,在所有正anchors的中心点提取ReID特征。

存在的问题:
1. Track R-CNN是级联式的,它首先计算目标候选框,然后将正样本中的ReID特征汇集起来,估计相应的ReID特征,导致ReID特征的质量严重依赖于候选框的质量
2. 可能出现一个anchor包含两个目标或多个anchor对应一个目标的情况
3. 特征提取时通常需要8次下采样来平衡精度和速度,得到的feature map对ReID任务而言太过粗糙

解决思路:
检测分支使用anchor-free方法,并添加并行分支提取像素级ReID特征

Multi-Layer Feature Aggregation

多层特征聚合能使One-shot方法更好地适应尺度变换,从而减少ID切换次数。

Two-step方法:
将检测到的目标裁剪并缩放至相同大小后送入embedding网络,对于ReID任务而言目标尺度相似
One-shot方法:
检测和ReID分支并行,需要考虑尺度变换问题

Dimensionality of the ReID Feature

低维特征对MOT任务而言效果更好

  1. 减小过拟合风险
  2. 减少计算时间
  3. 提升特征匹配鲁棒性

网络结构

【论文阅读】A Simple Baseline for Multi-Object Tracking_第2张图片
采用ResNet-34作为backbone,以便在准确性和速度之间取得良好的平衡。 为了适应不同尺度的目标,将DLA的一种变体应用于backbone。它在低维特征和高维特征间建立更多的跳跃连接,类似于特征金字塔网络(FPN),并在上采样模块中使用可变形的卷积层代替的所有卷积层,以便它们可以根据物体的尺寸和姿势动态调整感受野。
检测分支基于CenterNet,也可以使用HRNet替换。Heatmap Head估计目标中心的位置,Center Offset Head负责更精确地定位对象,Box Size Head负责估计每个锚点位置的目标边界框的高度和宽度。ReID分支使用128核的卷积层进行特征提取。

loss

Heatmap Loss

使用Focal loss解决one-stage目标检测中正负样本比例严重失衡的问题,从而提升检测精度

Offset & Size Loss

L1 loss

Identity Embedding Loss

将该任务视作分类任务,使用softmax

你可能感兴趣的:(论文阅读,计算机视觉)