SiamGAT:Graph Attention Tracking

Abstract

        基于孪生网络的跟踪器将视觉跟踪任务描述为相似度匹配问题。几乎所有流行的孪生跟踪器都是通过目标分支和搜索分支之间的卷积特征互相关来实现相似学习的。然而,由于需要预先确定目标特征区域的大小,这些基于互相关的方法要么保留了大量的不利背景信息,要么丢失了大量的前景信息。此外,目标与搜索区域之间的全局匹配也在很大程度上忽略了目标的结构和部分信息。为了解决该问题,本文提出了一种简单的目标感知Siamese图注意网络用于一般目标跟踪。我们提出用一个完全二部图建立目标与搜索区域的部分-部分对应关系,并利用图注意机制将目标信息从模板特征传播到搜索特征。此外,我们研究了一种目标感知的区域选择机制来适应不同对象的大小和长宽比变化,而不是使用预先固定的区域裁剪来进行模板特征区域选择。
SiamGAT:Graph Attention Tracking_第1张图片
目标用红框标出。目标、背景和搜索区域的CNN特征分别对应绿色、白色和蓝色。一个重要的问题是,通过固定区域裁剪(橙色标记)得到的模板特征可能会引入大量的背景信息或丢失大量的前景信息,特别是当模板目标的长宽比发生剧烈变化时。而且,在跟踪过程中,目标的形状和姿态是不断变化的,但全局匹配没有考虑不变的部分级信息和变换的身体形状。

Related Work

       近年来,Siamese跟踪因其卓越的性能而备受关注。这些跟踪器的主要结构可以概括为三个部分:用于模板和搜索区域的特征提取的Siamese网络、用于两个Siamese分支的信息嵌入的相似性匹配模块、以及用于从相似性图中进行特征解码的跟踪头。许多研究人员致力于优化Siamese模型以获得更好的特征表示,或者设计新的跟踪头以实现更有效的包围盒回归。然而,在信息嵌入方面几乎没有做什么工作。
       开创性的方法SiamFC[2]构建了一个特征提取的Siamese网络模型,并利用互相关层嵌入两个分支。它以模板特征为核,直接对搜索区域进行卷积运算,得到单通道响应图。本质上,这里的相关性可以看作是模板和搜索区域之间的相似度计算,得到的响应图是用于目标位置预测的相似度图。在这项相似性学习工作之后,许多研究人员试图增强特征表示的Siamese模型,但仍然利用信息嵌入的互相关性[11,12,30,9]。DSiam [11]增加了在线学习模块,以解决目标外观变化和背景抑制转换,从而改善特征表示。它着重于增强模型更新能力,而目标的位置仍然是基于单通道响应图计算的。SA-Siam[12]利用双重暹罗网络来训练语义分支和外观分支。每个分支都是一个相似性学习的Siamese网络,单独训练,但在测试时组合在一起,以相互补充。RASNet [30]引入了空间注意和通道注意机制,以增强深度模型的辨别能力。GCT [9]采用时空图卷积网络进行目标建模。由于在测试过程中会搜索多个标尺来处理对象的标尺变化,因此这些Siamese踪器非常耗时。
       利用区域提议网络(RPN) [24],李等人[16]提出了Siamese区域提议网络SiamRPN。他们在Siamese特征提取网络的末端添加了两个用于区域提议的分支:一个用于锚的背景-前景分类的分类分支,以及一个用于提议细化的回归分支。为了嵌入锚的信息,SiamRPN [16]通过级联多个独立的互相关层来进行上行信道互相关层(Up-Xcorr),以输出多信道响应图。基于SiamRPN [16],DaSiamRPN [37]设计了一个注意力分散器感知模块来执行增量学习,并获得了更多针对语义注意力分散器的区别特征。为了解决数据不平衡,C-RPN [8]提出在暹罗网络中从深层高层到浅层低层级联一系列RPN。简单的负锚可以在早期级联阶段过滤掉,硬样本可以跨阶段保存。SiamRPN++ [15]和SiamDW [35]都研究如何加深神经网络以提高跟踪性能。这些基于RPN的跟踪器在性能上取得了巨大的成功,同时也摒弃了传统的多尺度测试。主要缺点是它们对与锚相关的超参数敏感。
       除了深化Siamese网络,SiamRPN++[15]还提供了一个深度方向的互相关层(DW-Xcorr),以嵌入目标模板和搜索区域分支的信息。具体来说,它使用两个分支的特征图执行逐通道相关操作。通过用深度方向的互相关代替上行通道的互相关,解决了两个分支参数分布的不平衡,使得训练过程更加稳定,信息关联对于包围盒的预测更加有效。这方面的后期工作致力于消除主播的负面影响。提出了一些无锚跟踪器,如SiamFC++ [33]、SiamCAR [10]、SiamBAN [3]和Ocean [36],它们实现了最先进的跟踪性能。他们将跟踪任务作为一个联合分类和回归问题来处理,并采用一个或多个头来直接预测客观性,并以每像素预测的方式从响应图中回归包围盒。Ocean[36]进一步应用在线更新模块来动态调整跟踪器。通过丢弃锚点和建议,这些无锚点跟踪器摆脱了繁琐的超参数调整和为数据集提供先验信息(例如,数据比例和比率分布)的要求。
       Liao等人[18]观察到,传统的互相关操作会带来许多背景信息,这可能会淹没目标特征,并导致对类似干扰物的敏感性。为了解决这个问题,他们提出了一种像素-全局匹配的方法来抑制背景的干扰。然而,类似于互相关,这种PG相关仍然采用固定比例的裁剪区域作为模板特征。

Method

       本研究中最重要的研究是,通过大量有效的信息从目标模板传播到搜索区域,可以显著提高Siamese跟踪器的性能。首先介绍图形注意模块,它建立了孪生分支之间的部分到部分的对应关系。在此基础上,提出了目标感知图式注意跟踪器。
SiamGAT:Graph Attention Tracking_第2张图片
SiamGAT(a) SiamGAT的网络架构,主要由三个模块组成:特征提取的Siamese子网络,目标信息嵌入的graph attention模块,目标定位的分类回归子网络。(b)建议的图形注意模块的说明。利用注意机制将所有邻近目标节点的信息聚合起来,重构出每个搜索节点的表示形式。注意:目标节点的数量不是固定的,而是通过目标感知区域选择机制随不同的目标模板而变化。

Graph Attention Information Embedding

       现有的基于相关性的信息嵌入方法[2,16,15]将整个目标特征作为一个整体来匹配搜索特征。由于该操作忽略了目标和搜索区域之间的部分级对应,因此在目标的形状和姿态变化下,匹配是不准确的。此外,这种全局匹配方式可能极大地压缩向搜索特征传播的目标信息。为了解决这些问题,我们用一个完全二分图建立了目标模板和搜索区域之间的部分与部分对应关系。
       在给定模板图像T和搜索区域图像S的情况下,首先利用Siamese特征提取网络得到两幅特征图 F t F_{t} Ft F s F_{s} Fs。为了生成一个图,将特征图的每个 1 × 1 × C 1×1×C 1×1×C的网格视为一个结点部分。其中C为特征通道数。
       设 V t V_{t} Vt F t F_{t} Ft的所有结点集, V s V_{s} Vs F s F_{s} Fs的另一个结点集。受图注意网络的启发,利用完全二部图 G = ( V , E ) G=(V,E) G=(V,E)来建模目标与搜索区域的结点部分层级关系。其中 V = V s ∪ V t , E = ( ( u , v ) ∣ ∀ u ∈ V s , ∀ v ∈ V t ) V=V_{s}∪V_{t},E= ((u,v)|∀u∈V_{s},∀v∈V_{t}) V=VsVtE=((u,v)uVsvVt)
       对于每个 ( i , j ) (i,j) (i,j),用 e i j e_{ij} eij表示结点 i i i和结点 j j j的互相关得分,其中 i ∈ V s , j ∈ V t i∈V_{s},j∈V_{t} iVsjVt
                         e i j = f ( h s i , h t j ) , e_{ij}=f(h^i_{s}, h^j_{t}), eij=f(hsi,htj)
       其中 h s i h^i_{s} hsi h t j h^j_{t} htj分别为结点 i i i j j j的特征向量。因为搜索区域中的位置与模板的局部位置越相似,越有可能是前景,并且应该向那里传递更多的目标信息。为此,作者希望分数 e i j e_{ij} eij与两个结点特征的相似度成正比。我们我们可以简单地使用特征之间的内积作为相似性度量。为了自适应地学习节点之间更好的表示,我们首先对节点特征应用线性变换,然后取变换后的特征向量之间的内积来计算相关得分。形式上,
在这里插入图片描述
其中 W s W_{s} Ws W t W_{t} Wt为线性变换矩阵。
       为了平衡发送到搜索区域的信息量,我们使用softmax函数对eij进行规整:
在这里插入图片描述
       根据 j j j部分(模板)的结点, a i j a_{ij} aij能够衡量出跟踪器应该在 i i i部分给予多少的关注。
       进一步定义G的两个子图, G t = ( V t , ∅ ) G_{t} = (V_{t},∅) Gt=(Vt,) G s = ( V s , ∅ ) G_{s} = (V_{s},∅) Gs=(Vs,)
       利用从 G t G_{t} Gt中的所有节点传递到 G s G_{s} Gs中的第 i i i个节点的关注度,我们计算节点 i i i的聚合表示:
在这里插入图片描述
其中 W v W_{v} Wv为线性转换矩阵。
       最后,我们可以将聚合的特征与节点特征 h s i h^i_{s} hsi进行融合,得到一个更强大的特征表示,该特征被目标信息授权:
在这里插入图片描述
其中||为向量之间的叠加concat,这产生了后续任务的响应图。

Target-Aware Graph Attention Tracking

       我们提出了图形关注模块(GAM)来实现零件间的信息传播。在实现目标感知视觉跟踪之前,我们需要应对另一个挑战。也就是说,如何产生一个可变的模板,以适应不同的对象比例和纵横比。
       传统的基于互相关的方法简单地裁剪模板 F t F_{t} Ft的中心区域作为目标特征,以与搜索区域 F s F_{s} Fs相匹配,这为响应图提供了许多背景信息,尤其是当模板目标以极端的纵横比给出时。为了解决这个问题,我们研究了一种目标感知模板特征区域选择机制,该机制在模板补丁中标记边界框 B t B_{t} Bt的监督下进行。通过将 B t B_{t} Bt投影到特征地图 F t F_{t} Ft上,我们可以获得感兴趣区域 R t R_{t} Rt。只有 R t R_{t} Rt中的像素被作为模板特征:
SiamGAT:Graph Attention Tracking_第3张图片
       通过这个简单的运算,得到的特征映射 F t F_{t} Ft是维数(w,h,c)的张量,其中 w w w h h h对应于模板包围盒 B t B_{t} Bt的宽度和高度,c是 F t F_{t} Ft的通道数。
       每个元素的 F t ( i , j , : ) F_{t}(i,j,:) Ft(i,j,:)被认为是模板子图 G t G_{t} Gt中的一个节点。同时,每个元素 F s ( m , n , : ) F_{s}(m,n,:) Fs(m,n,:)被认为是搜索子图 G s G_{s} Gs中的一个节点。这两个子图作为信息嵌入的图形注意模块的输入。由于 G t G_{t} Gt中的元素在特征映射 F t F_{t} Ft上以网格模式排列,我们可以用1×1卷积实现上一节中的线性变换。然后通过矩阵乘法计算所有的相关分数,有望大大提高效率。
       在实验中,我们观察到在每次卷积后应用批量归一化可以有效地提高性能。然而,对应于不同跟踪对象的尺寸 w w w h h h不能被预先确定,因此我们不能直接应用具有尺度变量 F t F_{t} Ft的批量标准化操作。为了解决这个问题,我们重新计算 F t F_{t} Ft如下:
在这里插入图片描述       除了保持尺度不变,这种目标感知的思想使得所提出的方法可扩展到需要非矩形感兴趣区域的任务(例如,视频中的实例分割)。
       由于GoogLeNet能够以更少的参数和更快的推理速度学习多尺度特征表示,这里我们采用GoogLeNet作为我们的主干(也执行消融实验以研究使用不同主干的孪生网络的性能)。
       受无锚追踪器成功的鼓舞,我们利用暹罗[10]的分类回归头网络作为追踪头。它包含两个分支:一个分类分支预测每个位置的类别信息,一个回归分支计算该位置的目标包围盒。这两个分支共享GAM输出的相同响应图。

你可能感兴趣的:(目标跟踪,孪生网络,计算机视觉,python,人工智能,深度学习)