LEARNING TARGET-ORIENTED DUAL ATTENTION FOR ROBUST RGB-T TRACKING

Rui Yang, Yabin Zhu, Xiao Wang, Chenglong Li, Jin Tang

Hefei, Anhui Province, China

2019 IEEE International Conference on Image Processing (ICIP)

1.摘要

       RGBT跟踪试图利用互补的视觉和热红外数据定位目标。现有的RGBT跟踪器通过鲁棒特征表示学习自适应模态加权来融合不同的模态。然而,如何整合双注意机制进行视觉跟踪仍是一个尚未研究的课题。本文中,提出了提出两种视觉注意机制用于鲁棒的视觉跟踪。具体来说,局部注意力通过利用RGB和T数据的共同注意力来训练深度分类器来实现。同时还介绍了全局注意力,这是一个多模态目标驱动的注意力估计网络。它可以为分类器提供全局建议以及从先前跟踪结果中提取的局部建议。

2.引言:

       本文提出一种新的双视觉注意引导的RGBT跟踪算法:局部注意力和全局注意力。训练过程包含前向和后向两步。在前向步骤中,将成对的RGB和T样本送入深度跟踪检测网络中,估计出相应的分类分数。在返向步骤中,沿着从最后一个全连接层到第一个卷积层的方向,对输入的成对RGB-T样本进行分类分数的部分验证。将第一层的偏导数输出作为RGB和热输入的共同注意图。此注意力图上的每个像素值指示输入RGB-T样本的对应像素对影响分类精度的重要性。在此过程中,在损失函数中加入注意图作为正则化项,使分类器更加关注目标区域。

       局部搜索策略

       本文将论文1中首次提出的目标驱动注意估计网络,扩展到RGB-T的全局注意力机制上,来处理由于局部搜索策略所引起的问题。具体来说,将RGB、T和原始目标图像作为输入,并将从卷积网络中提取出的特征图连接起来,将这些特征送入上采样网络,来生成相应的注意力图。高质量的全局建议(global proposal)可以从注意区域(attention region)中提取,并与局部建议一起送入分类器。因此,局部和全局注意力图的互补将会进一步提高RGB-T目标跟踪器的鲁棒性和准确性。

本文贡献:

(1)提出一种利用视觉注意局部注意机制,用于RGB-T跟踪。

(2)为进一步提高RGB-T目标跟踪器的鲁棒性,将目标驱动的全局注意机制扩展到多模态形式

3.方法:

3.1 网络结构:

LEARNING TARGET-ORIENTED DUAL ATTENTION FOR ROBUST RGB-T TRACKING_第1张图片

该网络主要包括两个模块:基于RGBT跟踪的局部注意力和多模态驱动端额全局注意估计网络。

3.1.1 局部注意网络:

        常规跟踪检测框架通常将目标对象定义为正类,将背景定义为负类来训练一个二分类器,例如MDNet。本文采用MDNet作为RGBT跟踪器的核心,因为其具有强大的特征表示能力。具体来说,对于输入的RGB和T样本对,使用三个卷积层和两个全连接层来提取特征,为了减少计算负担,将不同模态的特征连接起来并送入到域特定层来获得分数图。交叉熵损失用于优化:

N 是mini-batch size,yi 是第i对RGBT样本对真值标签。Pi是对应RGBT样本对的预测。为了使分类器在跟踪过程中更加关注目标,在MDNet中加入一个基于交叉熵函数的正则化项,加入此项的动机是,我们可以为输入对获得两个注意力图,即positive attention map Ap和 the negative attention map An。对于每个正样本,希望与目标对象相关的Ap的每个像素值较大,而An的像素值较小。正则化项如下定义:

      

分别代表均值和方差。

最终的损失函数设置为:

是用于平衡这两项的标量参数,在后续的实验中,还检查了这两个参数的影响。

基于式子4,可以通过标准反向传播和链式规则进行交互学习。在分类训练器的每次迭代中,可以获得每个输入训练数据的注意力图,分类器将更多地关注目标对象而不是背景,在跟踪阶段,分类器将学习关注RGB和热图像对。

虽然使用局部注意力机制已经获得比较好的性能,但是这种改进的跟踪检测框架仍然采用这种局部搜索策略,会导致对严重遮挡,视野外和快速运动等挑战敏感。因此,本文引用RGB-T目标驱动的全局注意网络来处理这个问题,

3.1.2 全局注意网络:

在本小节中,提出了RGB-T目标驱动的全局注意力网络,以补充鲁棒视觉跟踪的局部建议,如网络图所示:该模块的输入为RGB、热红外和相应的目标对象,采用截断的VGG网络来提取这些输入的特征表示,并连接成一个特征图。确切地说,首先将全部的输入图像resize成192x256x3,对应的特征图为12x16x512,因此,连接后的特征图为12x16x2048,然后送入上采样网络,上采样网络是反向的VGG网络,其输出与输入具有相同的分辨率

 

 

 

 

 

 

 

 

 

 

 

 

 

 

论文1 :Xiao Wang, Chenglong Li, Rui Y ang, Tianzhu Zhang,Jin Tang, and Bin Luo, “Describe and attend to track:Learning natural language guided structural representation and visual attention for object tracking,” arXiv preprint arXiv:1811.10014, 2018.

你可能感兴趣的:(论文阅读)