transformer with mot

encoder的意义在于:全局特征 可以知道这个物体在图中的位置

decoder的意义在于 :移除冗余框 互相通信之后,知道每个query可能得到什么样的一个框 不要去做重复的框

BOT-SORT性能

在这里插入图片描述

TransTrack(20.12)------TrackFormer(21.1)-----TransCenter(21.3)-----TransMOT(21.4)-----MOTR(21.5) 

前三篇是2021 cvpr  分类:大体上分三类 TransMOT单独一类,因为它用的是graph transformer。TransCenter也是单独一类,因为其用的是中心点(学习热度图),而不是bbox。

cvpr2022有两篇 Unified Transformer Tracker for Object Tracking

Global Tracking Transformers

先重点学习一下 TransTrack(20.12)------TrackFormer(21.1)

TransTrack解读

TransTrack解读_周先森爱吃素的博客-CSDN博客_transtrack

TBD的问题:一方面,这种两个任务分开进行会造成它们不能共享有效的信息带来额外的算力消耗;另一方面,连续两帧间的无序目标对和每帧中不完整的检测都为跟踪算法带来了极大的挑战。

Deformable DETR_weixin_43981952的博客-CSDN博客_deformable detr传统的 attention module 的每个 Query 都会和所有的 Key 做attention,而 Deformable Attention Module 只使用固定的一小部分 Key 与 Query 去做attention,所以收敛时间会缩短。

你可能感兴趣的:(transformer,深度学习,人工智能)