RGB-T追踪——【多模态融合】APFNet: Attribute-Based Progressive Fusion Network for RGBT Tracking

目录

  • 文章侧重点
  • 网络结构
  • 训练策略
    • 为什么需要分三段训练模型?
    • 训练 Attribute-Specifc Fusion Branches
    • 训练Aggregation Fusion Module
    • 训练Attribute-Based Enhancement Module
  • 在线更新策略
  • 训练集的选取

论文
代码

文章侧重点

现有的RGB-T多模态的融合模型通常是设计一个大而复杂的融合模型,或是生成模态相关的置信分数来自适应性地融合RGB模态和TIR模态特征,或是充分考虑模态共享特征-模态独有特征-模态生成响应图这三个方面设计融合模型。这样复杂模型所带来的问题就是需要大量的训练数据,且尽可能包括各种有挑战属性的场景。

本篇文章作者之一的李成龙大佬实验室曾在2020年发表文章Challenge-Aware RGBT Tracking中提出一个RGB-T追踪的新思路:针对五个典型的挑战(如光照变化(IV)、快速运动(FM)、尺度变化(SV)、遮挡(OCC)和热交叉(TC))设计不同的分支提取相应特征,再融合起来。这样的设计好处在于减少了模型对训练数据的依赖,因为可以将训练数据按照属性分类对应这些分支进行单独训练,只有在训练融合模型的时候再合起来。这时候这个融合模型的参数会比上面所说的模型参数少很多

这篇文章与以往文章的不同之处在于,重新设计了不同分支的融合模块,提出了基于属性的逐步融合网络【Attribute-Based Progressive Fusion Network,APFNet】
RGB-T追踪——【多模态融合】APFNet: Attribute-Based Progressive Fusion Network for RGBT Tracking_第1张图片
其中,(a)是普通的融合模型,(b)是成龙大佬组2020和2021的相似基于属性的论文思路,(c)是本篇文章的思路框架。

本篇文章的贡献点:

  1. 通过属性对融合过程进行解耦,能够使用较少模型参数实现多模态数据的有效融合,克服了对大规模训练数据的依赖。
  2. 针对挑战属性分支设计融合。
  3. 设计基于Transformer的增强融合模块,既增强了模态特有信息和上一步融合的分支特征,也将模态信息和分支特征融合起来。

网络结构

RGB-T追踪——【多模态融合】APFNet: Attribute-Based Progressive Fusion Network for RGBT Tracking_第2张图片
从图中看出:

  • 整个网络的输入:RGB-TIR图片对
  • 第一层APF模块:
    • 第一步:属性专属的融合分支。 为了简单起见,这五个属性的分支直接是相同的结构。而这五个属性是GTOT和RGBT234中最常出现的五个属性,这里考虑到了RGB专属属性之光照变化和TIR专属属性之热交叉。当然也可以纳入更多的属性,这是未来工作了。这里的内部模型设计思想借鉴了SKNet实现用channel-wise特征融合。
    • 第二步:基于属性的特征融合分支。 利用SKNet的思想,对每个分支计算相对重要性(产生channel-wise的weights)来实现自适应融合。
    • 第三步:模态专属特征与模态共享特征的增强融合分支。 引入最原始的Transformer,用Encoder增强了模态特有信息和上一步融合的分支特征,用Decoder模态信息和分支特征融合起来。
  • 第二层APF模块的结构同第一层APF模块
  • 第三层APF模块的结构同第一层APF模块
  • 输出预测头:由三个全连接层组成,可以在线更新以适应目标域的变化,生成预测结果。这里借鉴了MDNet。FC4,FC5各有512个输出单元,并设计有ReLUs和Dropouts,FC6是一个二分类层。

训练策略

为什么需要分三段训练模型?

  1. 如果直接用训练集整个训练模型,会使得任意属性的训练数据的loss都会反向传播到所有属性分支。
  2. 训练数据带有属性标注,但是测试数据没有。
  3. 想要增强序列数据有的属性分支,压制序列数据没有的属性分支。换句话说就是增强序列数据的属性分支的自适应性。

训练 Attribute-Specifc Fusion Branches

  1. 每个属性分支都是独立训练。
  2. 移除分支融合的模块。两分支的CNN的参数+前两个全连接层(FC4、FC5)的参数用pretrained imageNet-vid初始化。
  3. 这个阶段保存 Attribute-Specifc Fusion Branches 的参数。

训练Aggregation Fusion Module

  1. 固定第一阶段训练好的 Attribute-Specifc Fusion Branches 的参数,用所有的训练数据训练Aggregation Fusion Module。
  2. 保存Aggregation Fusion Module和FC4、FC5的参数。

训练Attribute-Based Enhancement Module

  1. 用所有数据训练Attribute-Based Enhancement Module并对其他模块进行微调。
  2. 保存模型所有参数。

在线更新策略

对于每个测试序列,都初始化一个新的FC6来进行目标域适应。固定其他模块的参数,用第一帧的patch来微调FC4、FC5、FC6。

  1. 第一帧中,生成500个正例和5000个反例来微调三个全连接层的参数。
  2. 从前一帧中采样256个候选区传入当前帧的预测,选取分数最高的5个候选区进行平均作为预测结果。
  3. 每10帧更新一次。

训练集的选取

  1. 在GTOT数据集测试,则将RGBT234作为训练集。
  2. 在RGBT234和LasHeR测试,将GTOT作为训练集。

文终但念强不止。

你可能感兴趣的:(论文阅读,RGB-T追踪,深度学习,人工智能,神经网络)