RGB-T追踪——【综述】A Survey for Deep RGBT Tracking.

目录

  • 基于MDNet
    • 通用网络框架
    • 框架特点
    • 相关论文
  • 基于Siamese网络
    • 通用网络框架
    • 框架特点
    • 相关论文
  • 基于MDNet vs 基于Siamese
  • 其它的深度学习追踪器

1. A Survey for Deep RGBT Tracking
2. MDNet: Learning Multi-Domain Convolutional Neural Networks for Visual Tracking
3. CMPP: Cross-Modal Pattern-Propagation for RGB-T Tracking
4. APFNet: APFNet: Attribute-Based Progressive Fusion Network for RGBT Tracking
5. ADRNet:Learning Adaptive Attribute-Driven Representation for Real-Time RGB-T Tracking

本篇论文总结了RGBT追踪中那些基于深度学习的方法,并在GTOT, RGBT210, RGBT234 和LASHER这四个公认的Benchmark上面进行对比(应该是直接搬用的论文里面的实验数据,所以并不是所有对比的Tracker都有四个Benchmark的结果)

基于MDNet

通用网络框架

MDNet是单目标追踪领域早期将CNN引入目标追踪的一篇论文,以VOT2015的冠军之名扬名立万。RGB-T追踪作为单目标追踪下的子应用自然会借鉴许多在单目标追踪分支中表现优异的追踪器。下图为基于MDNet设计的RGBT追踪器的框架。
RGB-T追踪——【综述】A Survey for Deep RGBT Tracking._第1张图片
如图所示,该框架的主体部分有三:特征提取分支、特征融合分支、目标分类分支。

框架特点

  1. 对特征提取分支、特征融合分支进行离线训练。这样做的优势就是能利用CNN网络在大量而丰富的数据集上训练,以求得到的特征包含了高度有效的语义特征,保证追踪测试阶段的精度。
  2. 目标分类分支的全连接层的参数进行在线更新。 这一操作是考虑到不同目标的特征辨识是不一样的。换句话说,同一个网络对于不同的图片提取的特征必定不同,对于识别车的特征与识别动物的特征肯定有不同的侧重点,所以这个目标分类分支是在每一个测试序列开始的时候都是重新初始化的,目的就在于适应目标特定(object-specific)的序列。
  3. 虽然图中没有画出来,但实验中会参与的目标框的回归分支(计算最大概率的目标的四个顶点),只有目标的分类分支(判断是候选框包含的是前景还是背景)。因为分类分支只是简单的判断现有的候选框(这个大小是预先设置的,固定大小)包含目标的概率有多少,而这个框其实是很粗糙的,并不贴合目标,所以就需要回归头,对原始框的坐标+大小(x, y, w, h),用一个权重函数映射到一个新的坐标+大小(x, y, w, h)。【MDNet中采用的就是R-CNN中的回归头】

相关论文

许多基于MDNet的论文就是改进特征提取和特征特征融合分支 这两部分模块。Transformer的火热也使得大家热衷于引入它来增强特征和融合特征,它提取的特征以一种Global的方式。引入Transformer的CMPP是一篇2020年的文章,但是它的精度与2022的新论文APFNet也不逊色。而近期一个新思路——针对数据集中有挑战性的属性(如:快速运动、遮挡等等)分别设计特征提取的分支,CAT、ADRNet、APFNet都是从这个思路出发设计的追踪器。

基于Siamese网络

通用网络框架

RGB-T追踪——【综述】A Survey for Deep RGBT Tracking._第2张图片
SiamFC是单目标追踪中引入Siamese网络的开山之作。通用的基于Siamese的追踪框架的主体部分有4部分:共享权重的特征提取网络、特征融合模块(用于计算两个模态中的相似度,实现自适应地为RGB-TIR模态计算权重)、分类头、回归头。

框架特点

  1. 因为是离线训练为主,所以整个网络可以实现端到端的训练和测试。但是效果很难说,可能是因为确实训练数据的缘故,感觉基于Siamese分支的方法并没有在精度上很亮眼,速度也没有达到说可以适当忽略精度那样。

相关论文

许多基于Siamese的论文就是改进特征融合分支来获取更精准的权重——相似度评分。一般思路是将单目标追踪中的有效Siamese追踪器扩展成处理两个模态的追踪器。SiamCDA就是以SiamRPN++为基础设计的RGBT追踪器。

基于MDNet vs 基于Siamese

  1. 速度
    • 基于Siamese的追踪器速度更快,因为它是端到端训练,所以它在测试的时候,直接输入序列的图片,输出序列图片的预测边界框;
    • 基于MDNet的追踪器一样有一个FC层,需要每个序列都重新训练,并且是在测试的时候,采样一些正负样本,去先训练一个这个序列目标特定的FC层再完成序列的测试任务。所以很明显MDNet的这个必须的训练过程拖慢了速度。
  2. 效果
    • **基于MDNet的追踪器通常能获得更高的追踪精度。**因为通常基于MDNet相关的追踪器会设计多分支的丰富的模态相关的特征提取和特征融合模块。它可以提取模态特有的特征,也可以同时考虑模态共有的特征。并且在线更新的机制使其对测试序列的适应性更强。
    • 基于Siamese的追踪器就是用一个共有的网络去提取两种模态中相似的部分,并且在特征融合过程中两种模态的特征进行交互,训练出它们在不同训练场景下的权重。可以看到这个过程非常依赖训练数据的丰富性,换句话说,当训练数据不充足,缺乏大规模的标注数据时,这类追踪器就很难达到理想的效果。所以为了提高效率,也会出现LSS等包含合成的热红外图片和视频的数据集。

其它的深度学习追踪器

  • mfDiMP是在单目标追踪领域重量级追踪器——DiMP的扩展。在单目标追踪领域中,DiMP被分类为基于相关滤波的追踪器。而基于相关滤波的追踪器主要是针对单目标追踪中如何在特征中更精准生成目标的预测框,即改进分类分支。
  • JMMAC将ECO——一个也是在单目标追踪中很出名的基于相关滤波的追踪器,作为基础。JMMAC一共有两个处理分支:在外观模型中,利用ECO分别对两个模态生成目标的响应图,然后自己设计一个多模态特征网络为响应图加权;在运动模型中利用卡尔曼滤波器对目标运动建模,还用特征点匹配建模相机运动。这两个分支并不互补,而是当外观模型生成的预测框不理想的时候,切换运动模型来处理。

呜呜呜,国强则实验强,论文强。

你可能感兴趣的:(RGB-T追踪,Paper,SOT,深度学习,人工智能,计算机视觉)