Paper: Masked Graph Attention Network for Person Re-identification
Code(暂无)
主流的行人再识别方法(ReID)主要关注个体样本图像与标签之间的对应关系,而忽略了整个样本集中丰富的全局互信息。为此,我们提出了一种掩码图注意网络(MGAT)方法。MGAT利用所提取的特征信息构建完整的图,节点在标签信息的引导下以掩模矩阵的形式定向地关注其他节点的特征。利用MGAT模块,将之前忽略的全局互信息转化为具有更强鉴别能力的监督信息,去优化特征空间。同时,我们建议将MGAT模块学习到的优化信息反馈到特征嵌入网络中,以增强映射的可扩展性,从而避免测试阶段大规模图数据处理的困难。为了评价我们的方法,我们在三个常用的reid数据集上进行了实验。结果表明,我们的方法优于大多数主流方法,并与最先进的方法具有很强的可比性。
行人再识别(ReID)的目标是匹配来自多个非重叠摄像机的不同轨迹的行人。由于其在监测[29]、活动分析[19]和跟踪[38]等方面的重要应用,近年来受到越来越多的关注。尽管这个任务很重要,但它仍然是一个具有挑战性的问题,因为在摄像机视点、人类姿势、光线、遮挡和背景混乱方面存在复杂的变化。
然而,如图1所示,目前主流的方法学习特征嵌入网络时,都是在identical loss下,对单个特征的类标签进行独立估计,而忽略了由所有特征构造的图中的丰富的相互信息。换句话说,他们只注意特征的分类特点,这表示特征在多大程度上对应他们正确的标签,而特征的聚类特点未能得到尽可能多的关注,可是聚类特点表明同一个类的特征是如何聚集到一块儿,不同类的特征是分如何被分开。判别分析表明,要想有更多的判别特征,则需要有更好的聚类特征,而现有的方法很少考虑这一点。
这里有几种现有的方法试图克服这一缺陷,如流形学习 manifold learning [3,18]和重新排序re-ranking [44,9,35]。它们都能利用互信息来改善特征空间的聚类特性。但是正如Yantao等人在[23]中总结的那样,它们都有两个主要的局限性“:一是大多数的流行学习和重新排序方法都是弱监督或无监督的,不能充分利用提供的训练标签到学习过程中。另一种是这两种方法不涉及训练过程(在测试阶段使用),对特征学习没有好处。
新兴的图注意力网络(GAT)[26]显示出它具有利用节点中的互信息来改善聚类特性的潜力,这归因于其从其他节点的特征中聚合信息的内在能力。 GAT成功地将注意力机制引入了图神经网络(GNN)[21],通过该机制,节点能够关注其邻域特征,并为邻域中的不同节点指定不同的权重。更重要的是,它不需要计算密集型的矩阵运算。然而,常规的GAT仅利用没有标签信息的节点的相对重要性,该能力能够聚集相似的节点,但是难以直接分离不同类别的节点。
我们提出了一种新的GATs的扩展方法,称为掩码图注意网络(MGAT),以利用特征之间丰富的互信息。MGAT的核心在于用于节点更新的掩蔽注意机制,这与传统的GATs不同,后者仅通过注意力矩阵(attention matrix) 聚集相似的节点。具体来说,我们首先将特征嵌入网络学习到的特征转化为一个完整的图,然后我们的MGAT使用一个注意矩阵(attention matrix )提供更新的权值,并使用一个带标签信息的掩模矩阵(mask matrix)来决定更新的方向(例如,将同一个类的节点拉近或推远不同类的节点)。因此,这些特征最后得到了一个改进的聚类特征。
MGAT的优化输出特性直接受到ID损失(identification loss)的监督,以确保分类特性。 此外,通过使用优化反馈(OF)损失(ptimization feedback (OF) loss),将从MGAT学习的优化信息进一步反馈到原始特征。 其目的是增强特征嵌入网络的映射能力,从而避免诸如重新排序之类的任何后期或非端到端的过程。
简要地介绍一下自己认为重要的部分
除了通过ID loss来改善分类特征的特征表示学习外,还有一些初步尝试将gallery图像之间的亲和力纳入排序过程(ranking process)[27、34、35、44、3、18]。首先,利用流形学习manifold learning [3,18,37]和重新排序方法re-rank approaches[44,34,35,9]来增强行人重识别模型的性能。 Bai等人[3]引入了Supervised Smoothed Manifold,其目的是估计其他每对行人图像的上下文,因此样本之间的学习关系在流形上是平滑的。 Loy等人[18]引入了manifold ranking,以通过大量gallery图像揭示流形结构。 Zhong等人[44]利用 k-reciprocal en-oding,对于一个probe sample,使用排名在前k个gallery中的实例之间的关系来优化排名列表(optimize the ranking list result by exploiting relationships between top rank gallery instances for a probe sample)。请注意,上面提到的所有方法都是在测试(test)过程中作为后处理过程进行的,无法通过端到端的训练(train)来优化功能嵌入网络。
Shen et al等人[22]提出了Group-Shuffling Random Walk Network,以在训练和测试阶段利用gallery图像之间的亲和力信息,该方法尝试通过简单的矩阵运算,基于gallery-gallery(G2G)亲和力信息来优化probe-gallery(P2G)亲和力,该矩阵可以集成到深度神经网络中。 他们在[23]中还提出了一个名为“Similarity-Guided Graph Neural Network(SGGNN)”的深度学习框架,以利用不同特征对之间的关系,图节点是不同probe-gallery image pairs的关系特征,并且节点更新是通过消息传递来执行的,消息传递将其他节点的信息考虑在内,以进行相似性估计。
许多计算机视觉任务所涉及的数据无法用通常使用的网格状结构(如图)表示。在[21]中引入的GNNs是作为递归神经网络的推广,它可以直接处理更一般的图。然后Bruna et al等人 [4]和Duvenaud等人[8]分别以频谱和非频谱方式开始了图卷积网络(GCN)的研究。Petar Velickovic等人在[26]中引入了一种基于注意力的结构,名为Graph Attention Networks (GATs),它直接作用于图,利用掩码的自我注意力层(masked self-attentional layers)来解决先前基于图卷积或其近似的方法的缺点。通过堆叠层,其中的节点能够关注它们的邻域特征,从而可以在不需要任何计算密集型矩阵操作或预先了解图形结构的情况下,对一个邻域内的不同节点随意指定不同的权重。
如上图的左边所示,该框架主要由三个部分组成,第一部分是特征提取,接下来是基于该MGAT的特征优化操作,第三部分是利用损失将倾斜的(leaned)优化信息反馈给CNN(特征嵌入网络)
给定一个Batch的图像,我们首先使用CNN提取一组特征X,其中每个特征都唯一地反映了对应图像的视觉信息。 然后将特征的集合视为一组节点,构造一个完整的图,在该图上,每个边都表示了连接节点(包括自联接)之间的相似性。受[30]的启发,相似函数可以用多种方法实现。然后将构建的图输入到提出的MGAT中进行优化。需要注意的是,MGAT的输出特征 X’ 直接受到ID loss的监督,以保证分类的特性。
同时引入the OF loss的概念来约束输出特征与原始特征之间的差异,将MGAT学习到的优化信息反馈到特征嵌入网络中,使特征嵌入网络无需在测试阶段使用MGAT或任何后处理方法即可直接生成优化的特征。The probe and gallery sets总是非常大,将它们作为图直接处理是低效的甚至不可能的。
总体而言,整个网络架构的原则是利用提出的MGAT所获得的优化信息,来增强特征嵌入网络的学习能力,从而为ReID任务找到更有鉴别能力的特征空间。
MGAT的设计是为了解决人员重新识别的场景,该场景忽略了大量有价值的相互信息,使用MGAT从而可以获得最优的聚类特征。与[26]的注意结构一样,MGAT的注意设置(attention setup)也遵循Bahdanau等人[2]的工作,但注意机制(attention mechanism)不同。我们首先描述了MGAT的输入和输出,然后重点构建有趣的掩码注意机制。
MGAT的输入是CNN提取的一组特征(即我们实现中的ResNet50)
X = { x ⃗ 1 , x ⃗ 2 , ⋯ , x ⃗ N } , x ⃗ i ∈ R d X=\left\{\vec{x}_{1}, \vec{x}_{2}, \cdots, \vec{x}_{N}\right\}, \vec{x}_{i} \in \mathbb{R}^{d} X={ x1,x2,⋯,xN},xi∈Rd,其中N为特征数,d为单个特征的维数。提出的MGAT生成一组新的优化特征 X ′ = { x ⃗ 1 ′ , x ⃗ 2 ′ , ⋯ , x ⃗ N ′ } , x ⃗ i ′ ∈ R d ′ X^{\prime}=\left\{\vec{x}_{1}^{\prime}, \vec{x}_{2}^{\prime}, \cdots, \vec{x}_{N}^{\prime}\right\}, \vec{x}_{i}^{\prime} \in \mathbb{R}^{d^{\prime}} X′={ x1′,x2′,⋯,xN′},xi′∈Rd′作为输出。从而利用优化后的特征对原始数据进行进一步的监督特征。我们指定输出的维数与输入的维数相同,即 d ′ = d d^{\prime} = d d′=d。
MGAT对有着图结构的数据进行处理。将输入特征集X作为节点集,任意两个节点之间的距离作为边集E,构造一个完全图G(X,E)。在我们的实现中,我们使用欧氏距离来确定两个节点节点 x i ⃗ \vec{x_i} xi和 x j ⃗ \vec{x_j} xj间的边 e i j e_{ij} eij:
MGAT的核心在于其创新的掩码注意机制,它是专门为了边(edge)而设计的,以达到提高聚类特性的目的,即基于注意的方式(attention manner)对同类节点进行聚集,对不同类节点进行分离。具体来说,我们的掩码注意机制包括两个主要组件,即注意矩阵(attention matrix )A和掩码矩阵(mask matrix)M,如图2所示。
注意机制通常用来揭示两个特征之间的相对重要性。在我们的图中,由于两个节点之间的关系是由边唯一决定的,我们可以简单地定义一个注意函数(attention function) f : R → R f: \mathbb{R} \rightarrow \mathbb{R} f:R→R 来将边dege映射到注意attention。在实践中,我们将注意力定义为:
上面的 α i j \alpha_{ij} αij指定第 j j j节点到第 i i i个节点的相对重要性, γ \gamma γ 是一个超参数,它有助于在接近零的小范围内映射注意力。我们可以观察到,越短的边,越高的注意。在许多GCNs实现中,为了集成图数据结构,一个节点通常考虑其相邻一阶域内节点的影响。然而,由于我们构造的图是一个完全图,它仅仅只包含一个Batch的特征,因此我们可以计算每个节点与所有其他节点的注意力,以捕获全局信息,而不必担心计算复杂性。为了使不同节点之间的关系更加密切,我们对节点进行L1归一化处理:
对于一个包含N张图像的一个Batch,我们可以得到一个行标准化的N×N注意矩阵A(attention matrix A),其中第i个节点对所有节点的注意值是第i行。
注意矩阵(attention matrix)表示图中节点的相互重要性信息,传统算法和GATs利用这个信息来更新节点,因为他们假设图中连接的节点可能共享相同的标签[13]。然而,这种假设可能会限制建模能力,因为它只考虑了相似性,而忽略了差异性,它也不能处理难样本(hard samples)。
为了解决这个问题,仅与注意力矩阵(attention matrix)一起,我们引入了一个掩码矩阵(mask matrix)来决定我们在哪个方向上聚合节点(以缩短或延长边)。 例如,我们以注意力的方式(in an attention manner)缩短具有相同标签的节点之间的边,否则延长边。 更具体地说,我们使用的大小为N的Batch中包含M个ID,每个ID具有K个图像,其中标签分布具有以下结构:
掩码矩阵(mask matrix)的作用是作为一个注意力掩码 (attention mask),当其逐元素与注意矩阵相乘时,它确保同类节点之间的注意值(the attention values)是正的,而来自不同类的节点之间的注意值是负的。这样,同一类的节点间的相似度增加(更短的边),而不同类的节点间的相似度减少(更长的边)。简而言之,掩码矩阵(mask matrix)将节点的标签所携带的信息转化为注意力监督信息(the supervision for attention),从而得到优化的聚类特性。
负掩码会破坏归一化结果令人怀疑,但实际上归一化的作用是使注意值具有可比性,而这样的操作也有权值衰减的效果。
将特征集合 X X X和 X ′ X^{\prime} X′表示为矩阵形式的 X \mathbf{X} X和 X ′ \mathbf{X^{\prime}} X′。更新时,回顾传统的GATs仅利用注意矩阵A(attention matrix A),通过线性组合得到节点的输出特征:
在我们的工作中,通过引入一个额外的掩码矩阵 M(mask matrix M),我们得到了标签监督的定向信息来处理节点特征的聚类特性。输出的表达式如下:
MGAT与传统GATs的节点更新过程如图3所示:
请注意,GATs使用注意值(attention values)来计算相应节点的特征的线性组合作为输出节点的最终特征,然而,传统的GATs不涉及标签监督来直接分离不同类别的节点。作为比较,给定掩码矩阵(mask matrix)的掩码信息(mask information),我们的MGAT对不同类的节点应用不同的注意处理(见图3黄色部分)。直观地,公式9的第一项描述了第i个节点到同一类节点的聚合,而第二项描述了第i个节点到不同类节点的分离。 在这样的更新过程之后,每个节点都要经受来自周围环境的信息传输。 因此,被期望可以获得改善的聚类特性,并导致对诸如ReID这种以节点为中心的识别任务的性能的显著提升。
正如3.1节所提到的,在测试阶段将probe集和gallery集作为图来处理总是不好的。我们提出利用OF loss的方法使CNN能够直接生成最优的特征。我们采用最简单的实现方法,即使用均方误差(MSE)损失来约束MGAT的输出特征与原始特征之间的差异。
需要注意的是,OF loss是MGAT增强CNN学习的一个辅助组件,为了避免在测试阶段进行大量的图形构建工作,所以我们没有独立研究OF loss对最终结果的影响。
自己的一点疑问:
1、从公式11到公式12的转换
参考:https://blog.csdn.net/qq_17403617/article/details/82797565
参考:https://www.pianshen.com/article/41811094104/