大家好,这里是【来一块葱花饼】,这次带来了目标跟踪的论文分享,与你分享~
之前做了一段时间的目标跟踪算法(以单目标跟踪SOT为主)的研究,学习了四十多篇顶会论文。所以,我新成立了专栏目标跟踪(SOT)|顶会论文|学习笔记,论文笔记与大家分享,方便大家快速了解目标跟踪的进展,掌握不同算法思想。欢迎大家讨论,在评论区写出自己的想法~
本文是CVPR-10篇(2)的目标跟踪论文笔记,与大家分享。具体论文分析笔记,见专栏中的其他文章,欢迎关注。
具体论文分析笔记,见专栏中的其他文章,欢迎大家关注,链接如下:
目标跟踪|近三年|45篇顶会论文整理
目标跟踪|七大数据集|整理
目标跟踪|论文笔记分享|ICCV-6篇
目标跟踪|论文笔记分享|ICCV-2篇
目标跟踪|论文笔记分享|ECCV-6篇
目标跟踪|论文笔记分享|CVPR-12篇
目标跟踪|论文笔记分享|CVPR-10篇(1)
目标跟踪|论文笔记分享|CVPR-10篇(2)
论文题目 |
---|
Learning to Filter: Siamese Relation Network for Robust Tracking |
STMTrack: Template-free Visual Tracking with Space-time Memory Networks |
LightTrack: Finding Lightweight Neural Networks for Object Tracking via One-Shot Architecture Search |
Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation |
Graph Attention Tracking |
CapsuleRRT: Relationships-aware Regression Tracking via Capsules |
Progressive Unsupervised Learning for Visual Object Tracking |
Towards More Flexible and Accurate Object Tracking with Natural Language:Algorithms and Benchmark |
Siamese Natural Language Tracker: Tracking by Natural Language Descriptions with Siamese Trackers |
Rotation Equivariant Siamese Networks for Tracking |
主要的想法:将nlp和cv结合、使用transformer进行目标跟踪;使用无模板的siamese;处理存在旋转的跟踪对象;更精确的bbox提取;使用对比学习、元学习、胶囊网络;轻量级神经网络
面向更灵活和准确的自然语言目标跟踪:算法和基准
本文讲的是自然语言跟踪,属于nlp和目标跟踪的交叉。这几年也陆续有将nlp和视频结合起来处理的文章,实现通过输入语言和视频,来进一步提高视频处理精度。比如MDETR。
也是一个很好的有潜力的创新方向,但是估计对算力要求很高
本文提出的TNL2K数据集是专门为通过自然语言规范跟踪而设计的,包含多个具有显著外观变化和对抗样本的视频**。它**还包含自然视频、动画视频、红外视频、虚拟游戏视频等
提出了一种简单但强大的基线方法(称为AdaSwitcher),用于未来的工作比较,它可以自适应地局部跟踪系统和global grounding module(将语言中的对象在视频中进行定位)之间切换。这里也使用了自适应机制。
STMTrack:使用时空记忆网络的无模板视觉跟踪
又是一篇使用自适应的文章,无模板跟踪
本文提出了一种基于时空记忆网络的跟踪框架。该框架摒弃了传统的基于模板的跟踪机制,使用多个内存帧和前后台标签映射在查询帧中定位目标。
在时空记忆网络中,通过查询帧自适应地检索存储在多个记忆帧中的目标信息,使跟踪器对目标变化具有较强的自适应能力。
记忆网络的像素级相似度计算使跟踪器能够生成更精确的bbox
Siamese自然语言跟踪:跟踪的自然语言描述与Siamese跟踪
又是一篇将cv和nlp结合的论文,实现了目标跟踪的更好的效果,一个很好的nl跟踪器。其实nl跟踪器很少,在本文之前,也就只有两个。。
针对所有暹罗跟踪器,本文提出了一种新颖且通用的暹罗自然语言区域建议网络(SNL-RPN),通过NL描述基线提供了广泛的强跟踪类。从视觉和语言模式的预测的动态聚合,提出了将SNL-RPN转换为实时暹罗自然语言跟踪(SNLT)。
提出的SNLT持续地提高了SiamFC[1]、SiamRPN[25]和SiamRPN++[24]的性能**,但速度略有降低。它的性能也超过了迄今为止所有的NL追踪器
本文是把视觉和NL结合起来,那是否也可以加上别的思路(无模板或者多种相似度计算的方法),这样是不是就是一个新的文章?
经过旋转等变的Siamese网络,进行跟踪
本文针对跟踪对象产生旋转这一情况,加入旋转等方差,来改进效果。
1.提出了旋转等变siamese网络(RE-SiamNets),它是通过使用由可控制滤波器组成的群等变卷积层构建的。旋转equivariance。加强cnn中旋转等方差的一种更鲁棒的方法是使用可导向滤波器。可导向过滤cnn (sfcnn)也将权重共享的概念从平移组扩展到旋转组。对于可导向滤波器的旋转等方差,网络必须对每个滤波器的不同旋转版本进行卷积
为了设计RE-SiamNets,将常规CNN层替换为旋转等变层,并使用组池层对每个输入在单一方向输出特征。对于基本的Siamese跟踪器,我们使用SiamFC,它的变体SiamFCv2和SiamRPN++
但是大部分实验还是使用siamesefc
2.提出了一个针对旋转的数据集。
3.而且SiamNets允许在无监督的方式下估计对象的方向变化,因此也便于在相对的2D姿态估计中使用。
是一个很好的思路,而且本方法的旋转处理模块,也可以迁移到别的siamese网络上。作者推测,引入其他类型的等方差来对视频中可实现的运动类型施加更多的约束,将产生更健壮的跟踪器。—这是一个很好的思路,可以使用别的约束来提高处理旋转对象的内容
Alpha-Refine:通过精确的bbox估计,提高跟踪性能
视觉目标跟踪的目的是精确估计给定目标的bbox,现有方法精度有限,各阶段的耦合严重制约了方法的可移植性。
本文提出了一种新的、灵活的、精确的细化模块Alpha-Refine (AR),可以显著提高基跟踪器的bbox估计质量。之前的SiamMask被设计为一个独立的跟踪器而不是一个细化模块,这对于细化其他跟踪器是不合适的,也不经济的。
作者提出了一种新的用于视觉跟踪的Alpha-Refine方法,它是一种精确而通用的细化模块,可以有效地提高不同类型跟踪器的即插即用式跟踪性能。
通过探索多个设计选项,发现提取和保持精确的空间信息是精确的框估计的关键。
Alpha-Refine最终采用了精确的像素相关层、Key-Point风格的预测头和辅助掩模头。
算是一点小的改动吧,但是也确实因为更关注提取和保持精确的空间信息,实现了涨点。
可以学习。
胶囊:使用胶囊网络,实现关系感知的回归方法的目标跟踪
本文使用胶囊网络改进目标跟踪算法
但是胶囊网络和我们的研究发现不太贴切、之前了解也不是很多,所以直接过
图注意力跟踪
本文使用图注意力机制,来优化目标跟踪
但是图注意力机制和我们的研究方向相去甚远、我了解也不多,所以直接过
用于视觉目标跟踪的渐进无监督学习
对比学习区分前景和背景,使用训练好的对比学习模型,对无标注视频进行无监督训练,并且使用一个新的噪声鲁棒损失来优化结果。
用于跟踪的学习特征表示的渐进无监督学习(PUL)概述。
首先使用对比学习来学习背景识别(BD)模型,应用基于锚的hard negative挖掘。找出对应的正负样本。
为了学习时间对应(TC),将BD模型应用于挖掘时间对应的斑块。由于挖掘出的patch对是有噪声的(即它们缺乏精确的空间对应),提出了一个噪声鲁棒(NR)损失函数用于TC学习。在时间挖掘的patches中,估计的目标中心为红色的“x”,而真正的目标中心为绿色的圆。
该算法的效果优于别的无监督跟踪算法。
是一个很好的想法,使用对比学习来进行目标跟踪!而且实现了无监督训练!
学习过滤:鲁棒跟踪的siamese关系网络
本文引入了两个有效的模块,即关系检测器(RD)和精炼模块(RM)。
RD采用元学习的方式来获得从背景中过滤干扰物的学习能力,而RM的目标是将所提出的RD有效地集成到Siamese框架中,以生成准确的跟踪结果。
为了进一步提高跟踪器的可识别性和鲁棒性,我们引入了一种对比训练策略,不仅尝试学习匹配同一目标,还尝试学习如何区分不同的目标。因此,在面对背景杂波、快速运动和遮挡时,我们的跟踪器能够获得准确的跟踪结果
但是主要采用了元学习和对比学习的一些思想,和我们的研究方向不是很贴切、我也了解不多,就简单看了下。
LightTrack:通过一次架构搜索,寻找用于目标跟踪的,轻量级神经网络
本文首次尝试利用神经结构搜索来设计轻量级目标跟踪器。—在工业上有很好的前景
该方法。LightTrack重新制定了专门用于目标跟踪的一次性NAS,并引入了有效的搜索空间。在多个基准上的广泛实验表明,LightTrack实现了最先进的性能,同时使用了更少的Flops和参数。此外,LightTrack可以在各种资源受限的平台上实时运行。
神经结构搜索(NAS),NAS旨在实现神经网络架构设计的自动化。最近的研究大多采用一次性权重分摊策略来摊销搜索成本。关键思想是训练一个单一的超参数化超网络模型,然后跨子网共享权值。具有均匀采样的单路径方法是一种具有代表性的一次性采样方法。在每次迭代中,它只对一条随机路径进行采样,并使用一批数据对该路径进行训练。一旦训练过程完成,子网就可以根据共享权值进行排序。
作者提出了一种新的用于目标跟踪任务的一次性NAS算法。然后,设计了一个由深度可分离卷积和反向残差结构组成的轻量级搜索空间,允许构建高效的跟踪架构。最后,提出了LightTrack的管道,该管道能够针对不同的部署场景搜索不同的模型。
过程完成,子网就可以根据共享权值进行排序。
作者提出了一种新的用于目标跟踪任务的一次性NAS算法。然后,设计了一个由深度可分离卷积和反向残差结构组成的轻量级搜索空间,允许构建高效的跟踪架构。最后,提出了LightTrack的管道,该管道能够针对不同的部署场景搜索不同的模型。
之后我将在专栏目标跟踪(SOT)|顶会论文|学习笔记中,分享近三年的四十多篇顶会文章的详细笔记,方便大家快速入门。
感兴趣的同学点赞+收藏+关注,直接进入专栏进行学习~你们的支持就是我最大的动力~
感兴趣的同学点赞+收藏+关注,直接进入专栏进行学习~你们的支持就是我最大的动力~
感兴趣的同学点赞+收藏+关注,直接进入专栏进行学习~你们的支持就是我最大的动力~