CVPR-2021- Graph Attention Tracking 阅读笔记

目录

  • 一、 动机
  • 二、 主要贡献
  • 三、 主要内容
    • 图注意信息的嵌入
    • 目标感知的图形注意力跟踪
  • 四、 实验结果

论文地址:
https://openaccess.thecvf.com/content/CVPR2021/papers/Guo_Graph_Attention_Tracking_CVPR_2021_paper.pdf
代码地址:
https: // git. io/ SiamGAT

创新点:
提出了一个图形注意模块(GAM)来实现部分到部分的信息传播,而不是模板和搜索区域之间的全局信息传播。

一、 动机

由于目标特征区域的大小需要预先确定,在使用互相关的方法中要么保留了大量不利的背景信息,要么丢失了大量的前景信息。此外,目标和搜索区域之间的全局匹配也在很大程度上忽略了目标结构和部分信息。于是,作者提出用完全二分图建立目标和搜索区域之间的部分对应关系,并应用图注意机制将目标信息从模板特征传播到搜索特征。此外,我们研究了一种目标感知区域选择机制来适应不同对象的大小和纵横比变化,而不是使用预先固定的区域裁剪来进行模板-特征区域选择。

二、 主要贡献

①提出了一个图形注意模块(GAM)来实现信息嵌入局部到局部的匹配。与传统的基于互相关的方法相比,所提出的GAM可以极大地消除它们的缺点,并有效地将目标信息从模板传递到搜索区域。
②提出了一个目标感知的孪生图注意力跟踪(SiamGAT)网络与GAM的一般目标跟踪。这个框架简单而有效。与先前使用预先固定的全局特征匹配的工作相比,所提出的模型自适应于不同对象的大小和纵横比变化。
③在包括GOT-10k、UAV123、OTB-100和LaSOT在内的多个挑战性基准上的实验表明,所提出的SiamGAT优于许多最先进的跟踪器,并实现了领先的性能。

三、 主要内容

SiamGAT框架:
CVPR-2021- Graph Attention Tracking 阅读笔记_第1张图片
这项工作的研究重点是让更多的有效信息从目标模板传送到搜索区域。整体框架主要由三个模块组成:用于特征提取的孪生网络、用于嵌入目标信息的图注意模块和用于目标定位的分类回归分支。(a)是整体架构。(b)是图注意模块。

图注意信息的嵌入

现有的基于相关性的信息嵌入方法绝大部分都是将整个目标特征作为一个整体来匹配搜索特征。由于该操作忽略了目标和搜索区域之间的局部对应关系,因此在目标形状和姿态变化的情况下,匹配是不准确的。此外,这种全局匹配方式会极大地压缩传播到搜索特征的目标信息。为了解决这些问题,作者用完全二分图建立目标模板和搜索区域之间的部分到部分的对应关系。
给定模板补丁T和搜索区域S的两个图像,我们首先通过孪生网络来提取Ft和Fs两个特征图。为了生成图形,我们将特征图的每个1 × 1 × c网格视为一个节点(部分),其中c代表特征通道的数量。设Vt是包含Ft所有节点的节点集,设Vs是Fs的另一个节点集。受图注意力网络的启发,我们使用完全二分图G = (V,E)来建模目标和搜索区域之间部分到部分的对应关系,其中V = Vs∪ Vt,E = {(u,v)|∀u∈ Vs,∀v∈ Vt}。我们进一步用Gt = (Vt,∅)和Gs = (Vs,∅).)定义了G的两个子图。
对于每个(i,j)∈ E,让eij表示节点i∈ Vs和节点j∈ Vt的相关分数:
在这里插入图片描述
其中h_si∈Rc和h_tj∈Rc是节点i和节点j的特征向量。由于搜索区域中的位置与模板的局部特征越相似,它越有可能是前景,并且更多的目标信息应该被传递到那里。为此,我们希望得分e_ij与两个节点特征的相似性成正比。我们可以简单地使用特征之间的内积作为相似性度量。为了自适应地学习节点之间的更好的表示,我们首先对节点特征应用线性变换,然后取变换后的特征向量之间的内积来计算相关分数。形式上,
在这里插入图片描述
其中W_s和W_t是线性变换权重矩阵。为了平衡发送到搜索区域的信息量,我们使用softmax函数归一化e_ij:
CVPR-2021- Graph Attention Tracking 阅读笔记_第2张图片
a_ij直观地衡量追踪器应该对与j节点对应的第i部分给予多少关注。
然后,利用从Gt中所有节点传递到Gs中第i个节点的关注,我们用以下公式计算节点i的聚合表示
CVPR-2021- Graph Attention Tracking 阅读笔记_第3张图片
其中W_v线性变换权重矩阵。
最后,我们可以将聚合特征与节点特征h_s^i融合,以获得由目标信息支撑的更强大的特征表示:
在这里插入图片描述
其中||表示矢量拼接。我们并行计算所有的(h_s^i ) ̂〖 ∀〗_i∈V_s,这便为后续任务提供了响应图。

目标感知的图形注意力跟踪

传统的基于互相关的方法受到预先固定的核大小的限制。它们简单地裁剪模板Ft的中心区域作为目标特征,以与搜索区域Fs匹配,这向响应图传递了许多背景信息,尤其是当模板目标以极端的纵横比给出时。作为一种替代互相关的新的信息嵌入方法,所提出的图注意模块(GAM)可以不受约束,同时可以使用可变模板进行操作。在下文中,我们提出了我们的目标感知视觉跟踪框架。
为了产生自适应适应不同目标比例和长宽比的可变模板,我们研究了一种目标感知模板特征区域选择机制,该机制在模板补丁中标记的包围盒Bt的监督下进行。通过将Bt投影到特征图Ft上,我们可以获得感兴趣区域Rt。只有Rt中的像素被作为模板特征:
CVPR-2021- Graph Attention Tracking 阅读笔记_第4张图片
通过这个简单的操作,得到的特征图(F_t^ ) ̂是维数为(w,h,c)的张量,其中w和h对应于模板包围盒Bt的宽度和高度,c是Ft的通道数。
每个元素(F_t ) ̂(i,j,:)被认为是模板子图Gt中的一个节点。同时,每个元素F_s (m,n,:)被认为是搜索子图Gs中的一个节点。这两个子图作为图注意模块的输入嵌入信息。由于Gt中的元素在特征映射(F_t^ ) ̂上以网格模式排列,我们可以用1 × 1卷积实现线性变换。然后通过矩阵乘法来计算所有的相关分数,这有望大大提高效率。
在实验中,我们观察到在每次卷积后应用批量归一化可以有效地提高性能。然而,对应于不同跟踪对象的尺寸w和h不能被预先确定,因此我们不能用尺度变量(F_t^ ) ̂直接应用批量归一化操作。为了解决这个问题,我们重新计算(F_t^ ) ̂如下:
CVPR-2021- Graph Attention Tracking 阅读笔记_第5张图片
除了保持比例不变之外,这种目标感知的思想使得所提出的方法可扩展到需要非矩形ROI的任务(例如,视频中的实例分割)。
结合目标感知区域选择,我们用提出的GAM构建了跟踪网络,用于有效的信息嵌入。如图3(a)所示,我们的SiamGAT简单地由三个块组成:用于特征提取的孪生网络、用于目标包围盒预测的跟踪头和桥接它们的GAM块。大量工作表明,跟踪器可以大大受益于更好的特征提取方法。通过用深度CNN特征代替经典的HOG特征和颜色特征,跟踪精度有了显著的提高。后来,深化主干网络和融合多层特征进一步提高了跟踪性能。由于GoogLeNet 能够以少得多的参数和更快的推理速度来学习多尺度特征表示,这里我们采用GoogLeNet作为我们的主干(也执行消融来研究使用不同主干的SiamGAT的性能)。
受无锚跟踪器成功的鼓舞,我们利用SiamCAR 的分类回归头网络作为跟踪头。它包含两个分支:预测每个位置的类别信息的分类分支,以及计算该位置的目标边界框的回归分支。这两个分支共享GAM输出的相同响应图。

四、 实验结果

训练数据集:COCO、ImageNet DET 、ImageNet VID、YouTube-BB、GOT-10k
评测数据集:OTB100 UAV123 GOT-10k LaSOT
修改后的GoogLeNet( Inception v3) 被用作特征提取的主干网络
20 epochs batchsize 76
CVPR-2021- Graph Attention Tracking 阅读笔记_第6张图片
CVPR-2021- Graph Attention Tracking 阅读笔记_第7张图片
CVPR-2021- Graph Attention Tracking 阅读笔记_第8张图片
CVPR-2021- Graph Attention Tracking 阅读笔记_第9张图片

你可能感兴趣的:(目标跟踪之孪生网络文献阅读,目标跟踪,深度学习,计算机视觉)