目录
说明
一.论文作者介绍
二.内容摘要
三.介绍
四.相关工作
4.1Transformer Tracking
4.2Attribute-based Progressive Fusion Network
4.3Dual-stream Hierarchical Architecture
4.4Three-stage Training Algorithm
4.4.1训练阶段一
4.4.2训练阶段二
4.4.3训练阶段三
4.5APFNet在线跟踪
五.实验
5.1测评数据集和评价指标
5.2实验细节
5.3实验结果
5.4消融实验
六.结论
Attribute-based Progressive Fusion Network for RGBT Tracking论文研读笔记
APFNet训练+测试复现过程记录
GTOT和RGBT234测评工具箱使用
Cross-Modal Object Tracking: Modality-Aware Representations and a Unified Benchmark
Interact, Embed, and EnlargE: Boosting Modality-Specific Representations for Multi-Modal Person Re-identification
Attribute-Based Progressive Fusion Network for RGBT Tracking
RGBT目标跟踪通常面临着很多的挑战,比如目标快速运动(FM)、目标尺度的改变(SV)、遮挡(OCC)、光照变化(IV),热交叉(TC)等。(其中,前三个问题是RGB和热红外图像中都会存在的问题,而光照变化主要影响RGB图像,热交叉影响热红外图像)已有的研究工作都是研究复杂的融合的大模型,模型含有更多的参数,意味着需要更大的数据集,进而很难应用在现实世界当中。
本篇文章将融合过程进行解耦,提出了基于属性的渐进融合网络APFNet,APFNet含有更少的参数,减少的对大数据集的依赖。我们设计了五个特定属性的融合分支去整合RGB和热红外图像的特征,五个特定属性即上面提到的目标快速运动、目标尺度的改变、遮挡、光照变化,热交叉。由于这一解耦操作,在训练时每一特定属性的分支之间是相互独立的,因为每个分支只需要关注特定属性下的特征融合,使得每一个分支的模型参数量较小,且仅需要已有数据集的子集去更新模型参数。之后,为了具有适应性地融合五个分支,我们基于SKNet设计了一个聚合融合模块。最后,设计了增强融合的Transformer,去加强聚合特征和特定模态的特征(RGB或Thermal)的融合。上述就是本文的主要的三个创新工作。
目前,根据APFNet的性能可知,APFNet已是SOTA的方法。
RGBT目标跟踪是使可见光和热红外图像相融合,二者优势互补,可以实现更好的目标跟踪性能,如热交叉对可见光图像影响很小,而光照、自然天气雨雪雾霾尘等对热红外图像影响较小。但是RGBT目标跟踪也面临着很多挑战,如目标快速运动(FM)、目标尺度的改变(SV)、遮挡(OCC)、光照变化(IV),热交叉(TC)等。
图3.1 三种融合模型
如图3.1所示,图(a)是通用的融合模型,图(b)是基于属性的属性感知模型,该模型在某些属性下提取特征并融合,图(c)是本文提出的基于属性的渐进融合模型。
我们使用双流分层结构,逐步地集成基于属性的渐进式融合网络如图3.2所示。训练使用三阶段训练方式,实验在三个基准数据集GTOT、RGBT234、LasHeR上完成。
图3.2 APFNet网络结构
本文的主要贡献如下:
Transformer的核心是注意力机制,专注于全局信息,最开始用于NLP机器翻译领域,近些年也应用在视觉跟踪领域,并取得较大突破。
如图3.2所示,APFNet的主要组件是APF模块,它包括五个特定属性融合分支、基于属性的聚合模块、增强融合Transformer。使用VGG-M的前三层作为网络骨架,并将其扩展为双流结构。首先输入可见光图像和热红外图像,网络骨架提取特定模态的特征,五个属性融合分支同时进行融合,之后进行自适应聚合模块。接下来,将特定模态的特征和聚合特征发送到增强融合Transformer中,得到的输出用于下一个卷积层和APF模块。APFNet中总共含有三个这样的APF模块,在其之后使用三个全连接层用于提取分类和回归的全局特征。
图4.2.1
图4.2.2
图4.2.3
其中,,C、H、W分别是特征矩阵的通道数,高度和宽度。
解码器是用来交互增强第i层APF模块中的聚合融合模块的输出特征和特定模态的特征
和
,得到的输出
和
作为下一个APF模块的输入。如下所示:
图4.2.4
我们使用双流层次网络来分离地提取RGB图像和热红外图像的特征,网络骨架是VGG-M的前三层,卷积核的大小分别是7×7、5×5、3×3。三个卷积核的初始化参数来自于预训练权重imageNet-vid。为了更好地融合特征,网络骨架的每一层当中都加入了APF模块。最后,在最后一次卷积层之后有三个全连接层,最后一个全连接层FC6与MDNet类似,可以适应不同的域。
三阶段训练算法提出的原因:
第一阶段,单独地训练每个特定属性的融合分支。双流CNN网络通过imageNet-vid预训练权重参数进行初始化,该预训练模型包括三个卷积层和两个全连接层FC4和FC5。之后初始化特定属性融合分支的参数,并添加新的分类分支FC6。超参数设置如下:特定属性融合分支(除光照变化属性分支外)和FC6的学习率分别设置为0.001和0.0005,其中光照变化属性分支的训练数据比较小,所以该特定属性融合分支下的学习率为0.002。采用随机梯度下降(SGD)方法,动量为0.9,权重衰减设置为0.0005,周期是200。在这个阶段,只保存特定属性融合分支以消除FC层的影响。
这一阶段,固定上一步训练的特定属性的融合分支,并且使用所有训练数据训练聚合融合模块,随机初始化聚合融合模块和FC6的参数,学习率分别设置为0.001和0.0005,训练期数为500。其他设置与第一阶段相同。在此阶段,我们保存聚合融合模块、FC4、FC5的参数。
这一阶段,训练增强融合Transformer,以及微调其他模块的参数。随机初始化增强融合Transformer和FC6的参数,对于增强融合Transformer,学习率设置为0.001,对于FC6,学习率设置为0.0005,对于网络中的其他模块,学习率设置为0.0001。训练期数为1000。其他设置与第一阶段相同。在此阶段,我们保存参数在整个模型中。
对于每个新的视频序列,随机初始化FC6,固定之前训练的模型参数并微调FC4、FC5、FC6.在第一帧中,根据给定的初始目标,采集500个正样本和5000个负样本进行微调全连接层,这里设置与gt框的iou大于0.7为正样本,小于0.5为负样本。并且在第一帧中采集1000个样本训练回归器。上一帧的跟踪结果采集256个候选样本用于当前帧的跟踪,从这256个候选框中选择前五个得分最高的跟踪框,并用它们的平均来作为当前帧的跟踪框。当跟踪框得分大于0时则跟踪成功,此时使用回归器使定位更加精确。正常情况下每10帧动态更新一次网络参数,但是当跟踪得分小于0时立马更新,更新的方式是使用20个正样本和100个负样本进行更新。
GTOT数据集包含50个不同场景和条件下的视频对,帧数大约15K,整个数据集按照属性的不同划分为7个子集。RGBT234数据集是由RGBT210数据集扩展而来,总共约234K帧的对齐视频对,以及注释了12个属性。LasHeR是全球最大的RGBT跟踪数据集,目前,它包含1224个对齐的视频序列,其中包括更多不同的属性注释,其中245个序列被单独划分为测试数据集,其余的作为训练数据集。
评价指标使用PR、SR来作为一次评估(OPE)的量化评价指标。PR表示跟踪框和gt框之间距离小于阈值的帧占所有帧的百分比。在GTOT数据集中将阈值设置为5像素,在其他数据集中为20个像素。SR表示跟踪框和gt框之间覆盖面积大于阈值的帧占所有帧的百分比。
为了测试GTOT数据集,使用从RGBT234中提取的相应的基于属性的训练数据,来训练特定属性融合分支。然后使用整个RGBT234数据集来训练基于属性的聚合SKNet和增强融合Transformer。对RGBT234和LasHeR数据集的测试,使用GTOT做训练集,训练过程同上。
在本文中,我们提出了一种基于属性的渐进式融合网络(APFNet),以充分利用多模型属性之间的信息。我们为每种属性类别设计了特定属性融合分支来学习不同的融合参数,并使用基于属性的聚合融合模块,用于聚合多种属性特征。最后,引入增强融合Transformer来增强聚集特征和特定模态特征。对三个基准数据集证明了我们的最先进的跟踪器。未来我们将在更多挑战下探索更多融合结构,以充分探索多模型之间的信息属性。