TrackFormer: Multi-Object Tracking with Transformers

TrackFormer: Multi-Object Tracking with Transformers

    • 简介
    • 模型介绍
    • Transformer结构
    • 训练
    • 实验
    • 总结

​​
​​​​​​​​​​​​TrackFormer: Multi-Object Tracking with Transformers_第1张图片

简介

MOT传统的方法主要是遵循tracking-by-detection范式的,但是最近的方法中涌现出了一些tracking-by-regression范式,这种方法中,检测器不仅仅提供帧级的检测,更是将数据关联部分替换为每个轨迹到其变化位置的一个连续回归,这种方法隐式地实现了数据关联。在这篇文章里,作者提出了tracking-by-attention范式,不仅在数据关联中使用注意力机制,而且利用一个统一地方式执行检测和跟踪。

论文标题

TrackFormer: Multi-Object Tracking with Transformers

论文地址

http://arxiv.org/abs/2101.02702

论文源码

https://github.com/timmeinhardt/trackformer/

模型介绍

TrackFormer: Multi-Object Tracking with Transformers_第2张图片

上图是Trackformer整体的流程图,首先当前帧图片被送入ResNet提取特征,feature map经过encoder进行self-attention之后,输出的特征被输入进decoder,decoder的输入还有object queries(白色框框)和track queries(带颜色的框),类似于detr,数量为N object + N track,object queries用于查询当前帧的目标,track queries为上一帧已成功跟踪的目标,它通过当前帧encoder输出的特征进行查询,得到一个output embedding,用于bbox回归和类别预测。

Track query成功查询到的目标(红色和绿色)会被赋予相同的id,未查询到的目标则表示在当前帧(蓝色),object queries检测成功(没有打叉的部分,打叉的为背景类)则被初始化为新目标(红色),接着,这些更新目标的output embedding被输入进下一帧的decoder作为track queries,一直自回归下去。

​​​​

Transformer结构

TrackFormer: Multi-Object Tracking with Transformers_第3张图片
值得注意的是,Track queries首先经过一个多头注意力进行预处理,再和object queries以及encoder的输出进行融合。

训练

实验

TrackFormer: Multi-Object Tracking with Transformers_第4张图片

TrackFormer: Multi-Object Tracking with Transformers_第5张图片
如图为Trackformer在MOT17和MOT20s上的实验结果。

总结

上面是我写的一些阅读笔记,还会继续更新,Trackformer也是比较早将transformer引入MOT的论文,结构和transtrack比较相似,虽然精度并不是很高,但是思路还是很不错的,框架也是比较简洁清晰。

你可能感兴趣的:(多目标跟踪,目标跟踪,深度学习,人工智能)