Duality-Gated Mutual Condition Network for RGBT Tracking

摘要:

        低质量模态在RGBT跟踪中不仅包含大量的噪声信息,而且包含判别特征。然而,现有的RGBT跟踪算法并没有很好地探索低质量模态的潜力。在这项工作中,提出一种新的双门控互条件网络,充分利用所有模态的判别信息。同时抑制数据噪声的影响。具体来说,设计了一个互条件(mutual condition)模块,该模态以一个模态的判别信息为条件,指导另一个模态中目标外观的特征学习。该模态在存在低质量的模态下,可以有效地增强所有模态的目标表示。为了提高条件的质量并且进一步减少数据噪声,提出了一种双门控机制(duality-gated mechanism),并将其集成到互条件模块中。为了解决在RGBT跟踪中,由于相机的快速运动导致的跟踪失败问题。设计了一种基于光流算法(optical flow algorithms)的重采样策略。由于我们只在模型预测不可靠时进行光流计算,在检测到相机突然运动时进行重采样,因此不会增加太多的计算成本。

1.引言

本文所解决的问题:

(1)目前许多RGBT跟踪方法尝试引进模态权重使得两种模态进行更好的融合。但是这些方法都没有很好地挖掘低质量模态的潜能,挖掘低质量模态的潜能,在增强特征和降噪方面起着至关重要的作用,有助于RGBT跟踪性能的调高。

(2)在RGBT跟踪任务中,摄像机的突然运动容易影响跟踪性能。主要原因是,在快速运动的挑战下,搜索窗口很难覆盖目标对象,这将导致跟踪失败。

针对问题(2),目前常用的尝试方法是扩大搜索区域,进行全局搜索会带入更多背景信息,从而增加模型漂移的风险。同时,计算成本也大大增加。因此,本文作者为解决上述问题,提出了一种基于快速光流算法DisFlow的简单而有效的重采样方法。通过与预先设定的阈值进行比较,判断摄像机是否发生了突然运动。如果发生,沿着相机的运动方法和幅度重新抽样候选目标区域,需要注意的是,重采样方法并没有增加太多的计算成本,因为只有在检测到由于摄像机的突然运动导致的跟踪失败时才进行重采样,光流计算只有在目标物体周围的局部区域进行。

本文主要贡献

(1)提出一种有效的方法来处理RGBT跟踪中的低质量模式。该方法能够增强低质量模式的识别能力,抑制低质量模式的数据噪声影响,从而在跟踪精度和鲁棒性方面有很大提升。

(2)设计了一个对偶门互条件模块(a duality-gated mutual condition module),以一个模态的判别信息为条件,自适应指导另一个模态目标外观的特征学习。

(3)开发了一种简单有效的重采样策略,以应对摄像机突然运动带来的跟踪失败,同时加入该策略对跟踪速度的影响不大。

2.方法:

如图为总体框架,主要由主干结构、双门控互条件模块( duality-gated mutual condition module )和重采样模块组成。

Duality-Gated Mutual Condition Network for RGBT Tracking_第1张图片

 2.1 主干网络

       输入为裁剪的图像对,这些patches被调整为107x107,主干网络借用了VGG-M的前三层网络,卷积核分别为7x7x96,5x5x256,3x3x512。第一层和第二层的卷积之后是Relu激活函数和局部响应归一化(LRN)、以及一个最大池化。第三层卷积之后是RELU激活函数。第三层卷积后执行二分类,分别包括三个全连接层,其输出维度为:512,512,2。然后使用多域学习策略对实例物体的外观变化进行建模。正如MANet中使用多模态信息对目标表示进行鲁棒建模一样,本文使用模态适配器来提取特定模态的特征。具体来说,模态适配器由卷积层、Relu激活函数、批处理归一化、dropout和最大池化层组成,不同模态的每一层模态适配器设置相同。三层卷积核的大小分别为3x3x96,1x1x256,1x1x512。

2.2 Duality-Gated Mutual Condition Module

       虽然主干网络可以提供鲁棒的目标表示,但忽略了模态之间的相互作用,在增强多模态表示的识别能力的同时抑制噪声起着至关重要的作用。为了解决上述问题,本文提出了一种新的duality-gated mutually condition module来实现两种模态之间的bi-directional conditional feature modulation(双向模态特征调制)。

2.2.1 RGB-to-T Feature Modulation.

       特征调制是影响或改变模型输出特征的一种有效方法。作者希望利用RGB数据的鉴别特征来指导热数据中目标外观的特征学习。本文想法是受到FiLM的启发,利用先验信息构造了两个条件,分别是尺度和位移特征。 然而,将FiLM应用于跟踪任务时,有几点问题需要解决。

(1)尺度和变化条件的多样性较低,条件特征学习的潜力还没有被充分挖掘。

(2)RGB信息可能包含噪声,因为不知道它是否高质量,基于RGB的条件可能不利于热数据的特征学习。

       为了解决第一个问题,提出了一个新的方案,以产生高质量和多样化的缩放和转移条件。首先,在RGB模态适配器输出的基础上,采用多尺度变换对热模态适配器的输出进行调制。具体来说,设计了一个MSConv层(标记为),该卷积层用来在不同的层次上实现,以获取多尺度特征信息,生成尺度条件。在第一层中,特征图的感受野较小,模态间变化较大。因此使用四种不同的卷积从不同大小的感受野获取多尺度信息。使用1x1和3x3卷积来捕获局部信息,使用空洞率为2的3x3的空洞卷积和5x5的卷积对全局信息进行建模。在中高层,分别使用1x1,3x3和1x1的卷积实现MSConv层,RGB模态的多尺度缩放条件可以表达为:

是在RGB模态适配器的特征图,*代表卷积操作,代表多尺度缩放条件。

       然后,基于RGB和热模态适配器的输出,采用 a multi-modal shifting transformation(多模态移位变换)进一步调制热模态适配器的上述尺度特征。一方面,利用热模态生成多尺度特征,因为这些特征有利于增强目标在热模态中的表征;另一方面,融合多尺度热模态特征和RGB特征,形成高质量的rich shifting conditions,条件生成的细节如图4所示,因此我们可以将RGB和T特征调制表示为:

 代表乘操作, 分别表示调制的热模态特征 和 多尺度热模态特征以及RGB特征的融合特征。需要注意的是是RGB到T调制的融合特征,但是是T到RGB调制的尺度特征。

 Duality-Gated Mutual Condition Network for RGBT Tracking_第2张图片

           为了解决第二个问题(RGB信息可能包含噪声,),设计了一种双门控策略,以避免产生条件下的RGB模态噪声信息。图4为duality-gated结构的细节,两个门具有相同的内部结构,表达式为:

代表1x1卷积和sigmoid函数的运算。f表示输入特征。因此,将duality-gated公式嵌入到RGB-to-T调制中,如下:

G1和G2表示两个门,以减轻多尺度条件下的噪声和融合特征。

 2.2.2 T-to-RGB Feature Modulation

 在这项工作中,作者希望利用不同模态的所有判别信息,不论是低质量模态还是高质量模态。因此,采用双向条件特征学习结构来充分挖掘所有模态的判别特征。T-to-RGB feature modulation的木结构和RGB-to-T的特征调制的结构是对称的。 从而得到T-to-RGB feature modulation如下:

表示调制的RGB特征。

2.3 Re-Sampling Module

      在RGBT跟踪任务中,摄像机的突然运动是一个常见的问题,对跟踪性能影响很大。主要原因是在这样的挑战下,搜索窗口不能覆盖目标对象,从而导致跟踪失败。常见的尝试是扩大搜索区域,进行全局搜索,但这些方法带来了更多的背景信息,从而增加了模型漂移的风险。同时,计算成本也大大增加。

      为了解决这些问题,本文提出了一种基于快速光流算法的重采样方案,具体来说,当模型状态不稳定时,利用光流检测摄像机的运动状态,然后确定是否执行重采样。首先,当检测到跟踪失败,即预测目标得分小于0时,开始光流估计。其次,使用Disflow计算目标物体周围局部区域内的所有像素,然后计算平均位移矢量[dx,dy]。在这项工作中,该局部区域以上一帧的目标位置为中心,其大小为目标包围框大小的三倍。第三,通过将[dx,dy]的幅值与预先设定的阈值u进行比较,判断摄像机是否发生突然运动。如果dx,dy小于阈值u,则认为故障不是由摄像机突然运动引起的,不进行重采样。否则,判断摄像机发生突然运动,并使用[dx,dy]引导重新采样。第四,根据[dx,dy]进行重新采样,具体来说,沿着判断的与摄像机运动相反地方向对16个候选区域进行经验重采样,采样步骤设置如下。在水平方向上,以目标包围框的四分之一作为步长,在垂直方向上以目标包围框高度的四分之一作为步长。最后,将这些样本和高斯抽样结果送入到网络中,计算分数,计算出最终的预测结果。

2.4 网络训练

       采用随机梯度下降(SGD)算法来有效地训练网络。首先,加载在ImageNet数据集上训练的预训练模型,然后使用多域学习算法学习骨干网和前两个全连接层的参数,同时随机初始化其他子网的参数。然后,利用RGBT数据集,采用softmax交叉熵损失算法对整个网络进行200epoch迭代训练,并对不同的子网络设置不同的学习速率。其中,我们将骨干网、前两层全连接层和binary gate layer的学习速率设置为0.01,模态特定子网和互条件子网的学习速率设置为0.02。在每次迭代中,我们从每个视频序列中随机选择8帧,构建一个小批。接下来,我们从每帧中抽取32个阳性样本,从每帧中抽取96个阴性样本,形成小批量的输入数据。在这里,我们使用RGBT234数据集作为训练数据集,对GTOT数据集进行评估。相比之下,在对RGBT234和RGBT210数据集进行评估时,我们使用GTOT数据集作为训练集,因为RGBT234和RGBT210在视频中存在一些重叠。

 3. ONLINE RGBT TRACKING

结论:

        在本文中,提出一个双门控互条件网络,以充分利用所有模态特别是低质量模态的判别信息。该方法利用互条件模块将RGB和热模态的有效信息转化为互条件,充分增强两种模态的判别能力。为了提高生成条件的质量,还引入了双门控机制。

你可能感兴趣的:(论文阅读,算法)