期刊合集:最近五年,包含顶刊,顶会,学报 >> 网址
文章来源:ECCV 2022
代码:无
现有研究主要集中在通过将不同的模态嵌入到同一特征空间来学习模态共享表示,然而,这些方法通常会破坏特征中包含的特定于模态的信息和识别信息。为了解决上述问题,文章提出新的跨模态转换器(Cross-Modality Transformer, CMT)来分别探索 模态级对齐模块 和 实例级对齐模块 的 VI-ReID。
采用 ResNet50 作为骨干网络,减小了的步幅从 2 到 1 的最后一个卷积块。对于每个小批量,从每个模态中随机选择 8 个身份,并为每个身份抽取 8 个人物图像。
CMT 主要由两个模块组成:(1) 模态级对齐模块旨在通过 Transformer 的编码器-解码器结构来补偿模态特定信息的缺失。(2) 实例级对齐模块则是通过查询自适应特征调制机制将库实例与同一类中的查询实例对齐。
为了实现模态级对齐,文章遵循 Transformer 的架构,设计了一个表示编码器(Representation Encoder)和一个模态补偿解码器(Modality Compensation Decoder),能够自适应补偿模态特殊信息的缺失。与以往依赖于小批量信息的模态补偿方法不同的是,文章设计了两组可学习的模态原型来提供全局模态信息,从而实现更鲁棒的模态补偿。
采用基于 ResNet-50 的双流网络作为 RGB 和 IR 模态的特征提取器,其中前两个阶段是参数独立的,后三个阶段是参数共享的。具体做法:首先使用特征提取器 φ 来提取给定可见光图像和红外图像的特征映射。然后,按照基于部分特征的方法,使用区域池化策略将特征图水平分割为 p 个不重叠的部分(作为部分特征)。通过以上操作,RGB 和 IR 图像可表示为和,作为 Transformer Encoder 的输入。
在 representation encoder 中采用注意力机制来捕获局部人体部位之间的关系:
其中 W Q∈R d×d,W K∈R d×d,W V∈R d×d 为线性投影,Q、 K、V ∈ R p×d。
通过 scaling operation (缩放操作)和 Softmax 归一化的内积得到查询 Q 和键 K 之间的注意力权重,根据它,可得到经过细化的部分特征值 V ∈ R p×d。
这部分属于 Transformer 常规操作
Modality Compensation Decoder.
在模态补偿解码器中,引入可学习的模态原型分别表示 RGB 和 IR 模态的全局模态信息,可表示为:
按照 Transformer 的标准结构,首先使用一个自注意力层来在原型之间合并本地上下文信息,与 Representation Encoder 类似,但这里的键、查询和值都是来自于 IR / RGB 模态原型。随后,通过模态原型与部分特征之间的 交叉关注 来弥补缺失的模态特征(有点东西)。
经过特征提取器之后的特征向量,再经过 Representation Encoder 得到的输出为:
以 RGB 特征为例,来解释模态补偿的整个过程,IR 模态原型 P I 用来补偿查询 Q I,部分特征 ~F R 作为模态补偿的键 K R 和值 V R。经过模态补偿之后:
然后就可以得到查询 Q I 和键 K R 之间的 dot-production attention 得分,可看作是模态原型与部件特征之间的软对应。
为了弥补缺失的情态特征,可以根据注意权值将部分特征投影到相应的情态空间中,具体来说,补偿后的 IR 部分具有如下特征:
,RGB 样本为所有值 V R 的加权和:
最后,结合原始特征和补偿后的模态特征,得到完整的模态特征:
其中 R 和 I 分别是完整的 RGB 和 IR 模态特征。这些完整的特征位于共享嵌入空间当中,在共享嵌入空间中,具有不同模态的样本可以很好地对齐。通过这种方式,模态补偿解码器可以实现鲁棒的模态级对齐并弥合跨模态差异,从而促进更好的跨模态检索。
Modality Consistency Loss.
由于没有补偿模态特征的 ground truths(标准答案),解码器学习起来相当困难。为了解决这个问题,作者设计了模态一致性损失来指导模态原型的学习,它约束补偿后的 RGB/IR 特征与真实的 RGB/IR 模态特征保持一致。
具体实现如下:首先计算小批量中两个模态的每个单位的两个质心特征:
其中,FR i , j,FI i,j 表示小批中第 i 个人的第 j 个 RGB/IR 图像特征,CRi, CIi表示第 i 个人的 RGB/IR 形心特征。基于质心,定义 RGB/IR 模态一致性损失 LR cyc 和 LI cyc 为:
在模态一致性损失的约束下,模态原型必须学习相应的模态信息来接近真实的模态特征,从而实现更可靠的模态补偿。
ID Loss.
为了引导完整的特征 R 和 I 能够集中在与 ID 相关的判别信息上,作者设计了一个由身份分类损失 Lcls 和基于异质中心的三元组损失 Lhc−tri 组成的 ID 损失,公式为:
其中 p() 是正确预测的概率,E 表示期望。式 (11) 中,C a 为当前小批中 RGB 特征 R 或 IR特征 I 计算出的质心特征。C a 和 C p 形成了属于同一个人但形态不同的正对质心特征,C a 和 C n 形成了属于不同人的负对质心特征,α 为间隔参数。
为了解决由视角变化、背景杂波等较大的类内变化所引起的同一个 ID 身份的不同样本特征分布的巨大差异的问题,文章提出实例级对齐模块,在模块中,利用给定查询的特征,通过查询自适应调制器自动适应实例特征。具体来说,调制器采用仿射变换通过学习到的调制参数来激发与查询相关的通道。
Parameter Generator.
实例级对齐模块是可见和红外模态的对齐。给定 RGB 或 IR 模态中当前 mini-batch 中的任意样本特征 X ∈ R p×d,将其作为查询特征,并将其转换为调制参数,提出两个参数发生器 gγ 和 gβ 来获得通道级调制参数,即缩放参数 γ 和移动参数 β。
每个生成器包含两个线性层,第一层后面是一个 ReLU 激活函数。调制参数 γ 和 β :
经过端到端训练后,参数生成器 gγ 和 gβ 可以提取查询特征中的关键特征,并将它们投射到调制权重中,表明哪些通道可以在实例级对齐中有用。参数生成器是来调制其他样本,而不是增强样本本身。
Query-adaptive Modulation.
调制参数揭示了 X 最具鉴别性的模式,并用于对当前小批中的其他样本特征 Y 进行查询自适应调制,以实现实例级对齐。具体来说,查询自适应调制层在 Y 上通过缩放参数 γ 和移动参数 β 进行仿射变换:
其中 ⊙ 表示逐点向量乘法,Yi 表示样本 Y 的第 i 部分特征,¯Yi 是经过调制之后的特征。在调制过程中,基于 γ 和 β 的调制权值,可以增强 Y 中与查询相关的通道,抑制不相关通道。通过这种方式,与查询具有相同 ID 的实例可以更好地排列在一起。在测试过程中,查询自适应特征调制将根据查询特征调整图库表示,促进了查询与相同 ID 的图库对齐,有助于更好地检索。
Modulation Discriminative Loss.
为了帮助调制特征保持识别能力,作者提出调制判别损失来抑制调制特征,其形式与三元组损失类似:
其中 X 和 ¯Yp 组成属于同一个人的正特征向量对,X 和 ¯Yn 组成属于不同人的负特征向量对,α 是一个间隔参数。
总损失如下:
在测试阶段,首先提取查询特征,然后根据查询特征生成调制参数来调整图库的特征嵌入。最后,将特征维重构为R p×d,用于特征检索。
在本文中,我们提出了一种新的跨模态转换器(Cross-Modality Transformer, CMT)来共同探索VIREID的模态级对齐模块和实例级模块。所提出的模态级对齐模块能够通过Transformer编码器-解码器体系结构补偿模态特定信息的缺失。我们还设计了实例级对齐模块,通过查询自适应特征调制实现样本特征的自适应调整。在两个标准基准上的大量实验结果表明,我们的模型优于最先进的方法