多目标跟踪MOT论文阅读记录2(持续更新中...)

以下内容都是个人理解,有不当的地方烦请批评指正。

前文:

多目标跟踪MOT论文阅读记录1_阿珩#的博客-CSDN博客

1 综述

2 检测后跟踪 (tracking by detection)

2.1 Separate Detection and Embedding (SDE)

1) 2022年 MotionTrack: rethinking the motion cue for multiple object tracking in USV videos

网络结构:

 关联伪代码:

多目标跟踪MOT论文阅读记录2(持续更新中...)_第1张图片

kalman更新公式:

多目标跟踪MOT论文阅读记录2(持续更新中...)_第2张图片

论文地址:MotionTrack: rethinking the motion cue for multiple object tracking in USV videos | SpringerLink

代码地址:lzq11/MotionTrack: MotionTrack: Rethinking the Motion Cue for Multiple Object Tracking in USV Videos (github.com)

创新点:在bytetrack的基础上添加一级高斯距离匹配,以观测为中心的kalman校正

为什么:USV跟踪存在的观测平台摆动、物体非线性运动、小目标等问题的影响

怎么做:1)高斯距离匹配:在bytetrack的基础上添加第三次匹配,即对第二次未匹配的轨迹和第一次未匹配的高分检测框进行高斯距离匹配;2)观测为中心的kalman校正:直接使用检测结果作为跟踪结果,以更新kalman,也就是令更新公式里的噪声R为0

总结:使用YOLOv7作为检测器,不使用reid,速度很快(接近SORT),适合水面目标跟踪

(如果进行行人跟踪还是添加外观更准确一些?)

2) 2022年CVPR Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking

网络结构:

多目标跟踪MOT论文阅读记录2(持续更新中...)_第3张图片

OCM:

多目标跟踪MOT论文阅读记录2(持续更新中...)_第4张图片

论文地址:[2203.14360] Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking (arxiv.org)

代码地址:noahcao/OC_SORT: [CVPR2023] The official repo for OC-SORT: Observation-Centric SORT on video Multi-Object Tracking. OC-SORT is simple, online and robust to occlusion/non-linear motion. (github.com)

创新点:1)以观察为中心的重新更新(ORU)(针对KF);2)以观察为中心的动量(OCM)(针对关联)

为什么:SORT的三个局限;1)KF对状态估计噪声敏感、2)目标消失后,随时间推移的KF预测误差累积;3)以估计为中心的KF导致即使重新关联也很容易再次丢失

怎么做:1)ORU:在一条轨迹inactive一段时间后,重新关联成功时,利用上一次最后的检测点和当前帧的新检测点,在两点之间,使用恒定速度生成一条虚拟轨迹,并沿着这条虚拟轨迹执行一遍kalman预测、更新,以达到清除误差累计的目的;2)OCM:如上图2,计算AC与BD夹角(越小越好),将这个夹角的度量加入关联代价矩阵中;3)OCR:第二次关联:在未匹配的检测,和未匹配的轨迹的最后一次检测之间进行关联尝试

总结:检测器使用bytetrack训练的YOLOX,没使用reid,fps高达793,主要是针对遮挡和快速非线性目标运动问题的,适合DanceTrack这样的数据集和场景

3) 2022年CVPR MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking

网络结构:

交互模块:

多目标跟踪MOT论文阅读记录2(持续更新中...)_第5张图片

相关性计算:

多目标跟踪MOT论文阅读记录2(持续更新中...)_第6张图片

论文地址:MotionTrack: Learning Robust Short-Term and Long-Term Motions for Multi-Object Tracking (thecvf.com)

代码地址: https://github.com/qwomeng/MotionTrack

创新点:1)交互模块估计目标的复杂运动用于短期轨迹关联;2)Refind模块学习轨迹长期运动用于长期关联

为什么:短期:密集人群;长期:极端遮挡

怎么做:1)交互模块:自注意力机制,得到轨迹之间的不对称交互,以矩阵形式表示,取其中交互影响大的保留,对每个轨迹使用图卷积聚合交互影响,根据这个影响进行轨迹的短期预测替代卡尔曼),将预测结果和检测作IOU匹配;2)Refind模块:(实际上是一个二次匹配+轨迹插值)将第一次匹配剩下的检测框,和lost的轨迹,计算它们之间的相关性(如何计算相关性这部分我没看懂),相关性高的做贪婪匹配,如果匹配成功,对这条轨迹消失的这段时间作虚拟轨迹的校正,也就是使用重新匹配的检测框和最后一帧未丢失的框计算斜率(大概斜率的意思),用来校正之前的预测

总结:检测器使用bytetrack训练的YOLOX,没使用reid;将KF预测替换为交互模块;二次匹配和轨迹插值使用Refind模块;主要是针对密集人群和长期遮挡问题

4) 2023年 DEEP OC-SORT: MULTI-PEDESTRIAN TRACKING BY ADAPTIVE REIDENTIFICATION

网络结构:

多目标跟踪MOT论文阅读记录2(持续更新中...)_第7张图片

论文地址:https://arxiv.org/abs/2302.11813

代码地址:https://github.com/GerardMaggiolino/Deep-OC-SORT

创新点:OC-SORT基础上添加:1)相机运动估计模块CMC;2)自适应特征更新因子DA;3)外观代价矩阵自适应权重AW

为什么:觉得外观重要吧

怎么做:1)CMC:同BOTSORT;2)DA:将EMA特征更新中的α换成随置信度自适应调节的,也就是说检测置信度大,则提高这次外观嵌入的权重,如果检测置信度很低,那这次就不更新特征了,保留上一次的;3)AW:在代价矩阵C中的外观代价A部分,添加了因子,使外观矩阵中,相似度最高的,和次高之间的差距足够大,这样才是更突出的外观关联。

总结:检测器使用bytetrack训练的YOLOX,reid使用botsort相同的fast-reid,效果比ocsort好一点, 没提到fps,应该是大大下降了

5) 2023年 CVPR Simple Cues Lead to a Strong Multi-Object Tracker

inactive轨迹距离:

动态域适应:

论文地址:https://arxiv.org/abs/2206.04656

代码地址:https://github.com/dvl-tum/GHOST

创新点:1)分别对active和inactive轨迹进行匹配;2)动态域适应

为什么:inactive轨迹用常规的外观或运动距离难以区分开;不用数据集的分布不同,会影响ReID模型的迁移性能

怎么做:1)对active轨迹,使用常规的外观度量(即检测的外观特征与轨迹上一帧的外观特征之间的距离),对inactive轨迹,di(检测的外观)与t(轨迹)的k个历史外观分别计算距离,然后求和取均值,作为最终的外观距离;同时两者的外观代价阈值不同;2)动态域适应:调整BN层统计数据以反映数据集的分布变化,提高ReID模型跨数据集的应用效果(大概是个针对数据集的迁移学习,是ReID领域的思想)

总结:两个思想均可应用于其他跟踪器,运动模型使用线性模型(作者发现线性模型和kalman相比相差不大)

2.2 Joint Detection and Embedding (JDE)

1) 2020年 Rethinking the Competition Between Detection and ReID in Multiobject Tracking

网络结构:

多目标跟踪MOT论文阅读记录2(持续更新中...)_第8张图片

REN网络:

多目标跟踪MOT论文阅读记录2(持续更新中...)_第9张图片

SAAN网络:

多目标跟踪MOT论文阅读记录2(持续更新中...)_第10张图片

论文地址:Rethinking the Competition Between Detection and ReID in Multiobject Tracking | IEEE Journals & Magazine | IEEE Xplore

代码地址:GitHub - JudasDie/SOTS: Single object tracking and segmentation.

创新点:引入了一种互惠网络(REN)尺度感知注意力网络(SAAN)来改善检测和ReID的竞争和协作。

为什么:1)JDE方法共享网络的检测和reid任务存在矛盾,即检测需要学习同一类别的相似性,reid需要学习每个目标的差异性;2)使用FPN的检测网络中,不同尺度关注不同大小的目标,即一个目标只出现在一个尺度的bbox中,也就是reid只能嵌入对应这个尺度下bbox的特征,而作者希望reid能够嵌入多个尺度下同一个目标的特征,也就是作者提到的“语义级错位

怎么做:在JDE的基础上:1)REN:在网络的head和neck中间添加REN,用以解耦特征,具有自关系权重和交叉关系权重的学习(为什么一定要学交叉?为了任务之间的协作吗?);2)SAAN:reid头换成了SAAN,里面应用了空间注意力SAM(学习哪里的特征重要)和通道注意力CAM(融合通道,学习什么特征重要)

总结:使用YOLOv5作为检测器,除了这些创新点外和JDE基本一致,轻量版本CSTrack-S34.6FPS

2) 2021年 One More Check: Making “Fake Background” Be Tracked Again

网络结构:

多目标跟踪MOT论文阅读记录2(持续更新中...)_第11张图片

 Re-check Network结构:

多目标跟踪MOT论文阅读记录2(持续更新中...)_第12张图片

论文地址:[2104.09441] One More Check: Making "Fake Background" Be Tracked Again (arxiv.org)

代码地址:JudasDie/SOTS: Single object tracking and segmentation. (github.com)

创新点:提出重新检查网络来恢复被错误分类为“假背景”的边界框。

为什么:检测结果不可靠,会将一些目标判定为背景

怎么做:在JDE(CSTrack)的基础上:添加一个re-check network用于预测轨迹在当前帧的位置,具体来说,(transductive detection module)比较上一帧的特征嵌入E和当前帧的特征F的相似性,得到特征响应图,保留最大响应(类似于nms),(refinement module)去除已消失目标在transductive模块造成的错误预测,得到最终的预测响应图Mp,Mp代表是前景的概率,与检测器生成的原始bbox结合,得到“假背景”检测Dtrans,与检测器的Dbase相加得到最终检测结果。

同时,为了减少图像四周(只露出一部分的人)的漏检,将回归机制修改为边界感知回归(BAR),能够根据可见部分预测对象的不可见部分。

总结:同一个作者对CSTrack的改进,是一个即插即用模块

3) 2023年 CVPR Tracking Multiple Deformable Objects in Egocentric Videos

网络结构:

 MDN和PAN:

多目标跟踪MOT论文阅读记录2(持续更新中...)_第13张图片多目标跟踪MOT论文阅读记录2(持续更新中...)_第14张图片

 多目标跟踪MOT论文阅读记录2(持续更新中...)_第15张图片

论文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Huang_Tracking_Multiple_Deformable_Objects_in_Egocentric_Videos_CVPR_2023_paper.pdf

代码地址:https://mingzhenhuang.com/projects/detracker.html

创新点:1)可穿戴相机拍摄的狗的存在形变数据集;1)DETracker:联合检测跟踪运动相机的可行变目标

为什么:针对强相机移动(穿戴式相机)和物体形变

怎么做:DETracker:三个部分,MDN、PMN、PAN。1)MDN:用于估计运动光流,为了处理以自我为中心的视频中常见的大相机运动,将成本体积搜索范围扩展到整个帧像素;2)PAN:目标分块,然后每块分别在下一帧搜索关联目标,最后整合成一个bbox,做到联合检测跟踪,包含注意力思想;3)PMN:将匹配成功的和不匹配的块的外观信息保留到一个缓存区,其中不匹配的用来以后对形变进行关联

总结:分块和保存缓冲的思想很有意思,用CenterNet检测器初始化新目标

2.3 其他方法

1) 2022年 Decode-MOT: How Can We Hurdle Frames to Go Beyond Tracking-by-Detection?

网络结构:

自监督跟踪上下文学习流程:

论文地址:Decode-MOT: How Can We Hurdle Frames to Go Beyond Tracking-by-Detection? | IEEE Journals & Magazine | IEEE Xplore

代码地址:https://github.com/reussite-cv/Decode-MOT 

创新点:在线MOT期间自动选择使用TBD还是TBM(tracking by motion)的决策器Decode-MOT

为什么:TBM速度快,TBD精度高,为了平衡精度,交替使用TBM和TBD

怎么做:1)场景上下文学习的长期注意力:使用长短期注意力的场景上下文学习,以在连续帧之间生成更具辨别力的特征;2)决策器Decode-MOT:使用最近一次TBD帧和当前帧的不相似性及注意力机制,决策出当前帧是使用TBM还是TBD;3)分层置信度关联策略:(在bytetrack的基础上)添加了轨迹置信度的二次关联,一共三层:D(high)+T(high),D(high)+T(high+low),D(high+low)+T(high+low);4)自监督学习:基于跟踪基数和运动上下文相似性(IOU),相似性低,则生成TBD伪标签,相似性高则TBM伪标签。

总结:TBM的方法适合固定相机场景,因此TBM+TBD的也比较适合相机运动不大的场景。可以和知识蒸馏、多孔金字塔池化、多头注意力模块结合。

2)2023年 CVPR Referring Multi-Object Tracking

网络结构:

早期融合模块:

多目标跟踪MOT论文阅读记录2(持续更新中...)_第16张图片

论文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Wu_Referring_Multi-Object_Tracking_CVPR_2023_paper.pdf

代码地址:https://github.com/wudongming97/RMOT

创新点:一个语言expression+视频的多目标跟踪数据集refer-KITTI;及对应的网络TransRMOT

为什么:目前RMOT的基准存在问题:1)一个表达式难以描述多目标;2)一个表达式难以描述目标的短期状态(时间差异

怎么做:数据集:1)标注成本低:鼠标点两下;2)目标灵活:expression描述多个物体;3)高时间动态性:expression描述的时间长短不一。

网络:基于DETR,包含特征提取器、跨模态编码器、解码器、refer头。1)跨模态编码器:包含早期融合模块用于降低计算,早期融合模块针对图像特征和语句特征进行注意力机制。2)编码器:以当前帧的检测查询(用于预测新目标)和上一帧的跟踪查询(已存在的目标)作为输入,得到可以作为下一帧解码器输入的跟踪信息(?)。3)头:头输出类别、框、referent score,referent score指目标符合expression的可能性

总结:自然语言处理+视频MOT更关注语句描述的目标Transformer结构,还能加载各种传统MOT方法上(如bytetrack、fairmot)

3)2023年 Follow Anything: Open-set detection, tracking, and following in real-time

论文地址:[2308.05737] Follow Anything: Open-set detection, tracking, and following in real-time (arxiv.org)

代码地址:alaamaalouf/FollowAnything (github.com)

创新点:1)一种开放式多模式方法,用于实时检测、分割、跟踪和跟踪任何对象。可以通过输入文本提示、图像、边界框或点击来指定感兴趣的对象。2)可部署到机器人上。3)重新检测机制。

怎么做:流程:分割—区域特征计算+匹配—跟踪

  • 使用SAM分割图像,形成多个区域对应的seg mask;使用DINO提取图像的像素特征(逐像素提取),聚合seg mask对应的区域特征,将聚合区域特征与目标特征作像素相似度计算(类似ReID特征匹配),匹配成功的用SiamMask做跟踪。
  • 目标可以通过  点击图像、提供文本描述、手动画bbox、提供其他检测器得到的bbox  获取,即文中的查询q,可以提供多个目标。
  • 如果使用文本信息,则将DINO替换为CLIP(这里超出我的知识面了)
  • 重新检测机制:1)用户查找(需要人来交互);2)等待目标重新出现然后分割关联;3)主动搜寻:在目标的周围区域(seg mask分割出来的或者是跟踪器选定的可能区域)计算区域特征并与目标特征计算相似度,特征会以均值的方式存储

总结:FPS=9左右,提出了一系列用于提高速度的分割和VIT优化技巧,使用分割获取检测,其他思想和多目标跟踪常规方法思路一致

3 联合检测跟踪 (joint tracking and detection)

网络结构:

论文地址:

代码地址:

创新点:

为什么:

怎么做:

总结:

问题:

你可能感兴趣的:(计算机视觉,人工智能)