Discover Cross-Modality Nuances for Visible-Infrared Person Re-Identification(超详细分析,一看就懂)

Discover Cross-Modality Nuances for Visible-Infrared Person Re-Identification(发现用于可见光-红外行人重识别的跨模态细微差别)—学习笔记

原文来源:CVPR2021

研究背景

  可见光-红外人识别(Re-ID)旨在匹配来自不同模态的相同身份的行人图像。现有的研究主要集中于通过调整不同模态的特征分布来缓解模态差异。在本文中,提出了一种联合模态和模式对准网络(MPANet)来发现可见红外人Re-ID不同模式中的跨模态细微差别,该网络引入了模态缓解模块和模式对准模块来联合提取识别特征。

实施过程

  首先,文章提出一种模态缓解模块,目的是从提取的特征图中去除模态信息。然后,设计一个模式对齐模块,它为一个人的不同模式生成多个模式图,以发现细微差别。最后,引入一种互均值学习方式来缓解模态差异,并提出了一种中心聚类损失来指导身份学习和细微差别发现。在公共SYSU-MM01和RegDB数据集上的大量实验证明了MPANet优于现有技术。

网络结构

Discover Cross-Modality Nuances for Visible-Infrared Person Re-Identification(超详细分析,一看就懂)_第1张图片
  所提出的MPANet采用预训练的单流CNN从可见光和红外模态中提取特征图。由卷积块3和4提取的特征图被分别馈送到模态缓解模块(MAM),该模块细化特征图以缓解模态差异。为了学习细微差别和区别特征,模式对齐模块(PAM)生成模式图,旨在发现 人的不同模式中的细微差别。这两个模块通过相互平均学习方式级联并联合优化,以学习与模态无关的特征,同时,通过交叉熵中心聚类损失进行监督,以学习可见红外人Re-ID的身份特征。

  具体地说,MAM使用实例规范化来缓解模态差异,同时最大限度地保持区分。通过一个轻量级生成器,模式对齐模块生成一组模式图,这些图关注不同的模式以发现细微差别。为了以无监督的方式发现细微差别,设计了一个区域分离约束,以确保每个模式图都关注不同的模式。然后,文章提出了一种中心聚类损失,以减少相同身份的某些图案特征之间的距离,同时增加不同身份的特征中心之间的距离。

创新点

1)为了发现细微差别并提取判别性特征,提出了模式对齐模块 (PAM),以无监督方式发现不同模式中的细微差别,通过通道注意力来保护身份ID,并提出中心簇损失和分离损失。

2)为了在保留身份信息的同时减轻模态差异,提出了模态缓解模块(MAM),它在相互均值学习方式的指导下选择性地应用实例归一化。
 大佬:Ancong Wu等人在公共空间中提出了一种深度零填充网络学习特征,并构建了第一个名为 SYSU_MM01 的大规模可见红外数据集。**

论文细节

模态缓解模型(MAM)

  为了缓解模态差异,文章应用了实例规范化(IN),可以减少实例之间的差异。然而,直接应用IN可能会损坏识别信息,从而对重新识别任务产生不利影响。为了克服这些缺点,应用了信道注意力引导IN来缓解模态差异,同时保留身份信息:
在这里插入图片描述
其中,⊙ 表示逐元素乘法,mc是指示与身份相关的信道掩码,ˆZ是输入Z的实例归一化结果。注意,F的形状与Z相同
  
遵循SE_Net,我们通过以下方式生成维度掩码mC
在这里插入图片描述
其中g( )表示全局平均池,W1和W2是两个无偏置全连接(FC)层中的可学习参数,随后是ReLU激活函数δ( )和Sigmoid激活函数σ( )
  
无参数IN定义为:
在这里插入图片描述

模式对齐模块(PAM)

   PAM旨在发现不同身份之间不同模式的细微差别。首先使用一个轻量化的网络,将特征映射拆分为l个模式的特征图(M=M1…Ml)
在这里插入图片描述
   通过注意力机制生成模式图M至关重要,A是卷积核为1x1的卷积层。模式图M涵盖了一个人的不同模式(M1…Ml),以便识别出不同模式之间的细微差别。使用这些模式图,我们就可以将特征图F分解为l个模式
在这里插入图片描述
最后经过全局平均池化pk=g(Pk),得到PAM的最终输出。
在这里插入图片描述
为了确保模式映射能够捕获不同的模式,文章应用分离损失(the separation loss)来强制每个映射关注不同的模式。将特征图M(h×w×l)整形成M(hw×l),通过最小化每两个掩模之间的重叠区域,分离损失可以监督模式图从不同模式中学习特征。
在这里插入图片描述

模态学习(ML)

给定可见模态的特征fv 和 红外模态的特征fr,模态特定分类器提供其预测。这些分类器以有监督的交叉熵损失方式进行训练:Discover Cross-Modality Nuances for Visible-Infrared Person Re-Identification(超详细分析,一看就懂)_第2张图片
其中Cv(f iv|θv)是可见模态的分类器预测,同理Cr(f jr |θr)
  
  由于馈送给每个分类器的训练图像来自特定模态,分类器仅从其对应模态学习知识。因此,给定一个特征f,无论它来自哪个模态,如果两个模态特定分类器提供相同的预测,这意味着该特征可以被视为来自两个模态。换句话说,模态差异被消除
  
Discover Cross-Modality Nuances for Visible-Infrared Person Re-Identification(超详细分析,一看就懂)_第3张图片
  这种损失鼓励特定于模态的分类器为相同的身份特征提供一致的预测,无论它来自什么模态。然而,如果直接训练模型将使两个分类器的预测很快变得相似,因为分类器从另一个模态中学习知识,而不是学习模态无关的特征。
  
  为了解决上述问题,文章提出了两个与模态特定分类器具有相同网络结构的均值分类器,以提供对来自另一模态的样本的预测。这样,上述等式可以修改为
Discover Cross-Modality Nuances for Visible-Infrared Person Re-Identification(超详细分析,一看就懂)_第4张图片
  E[θv]和E[θr]表示这两个平均分类器的参数,这些参数以时间平均的方式进行更新。Et和Et-1分别代表这一轮iteration和上一轮网络的参数。平均模型的初始化:E(0)[θv] = θv,E(0)[θr] = θr。
Discover Cross-Modality Nuances for Visible-Infrared Person Re-Identification(超详细分析,一看就懂)_第5张图片

Objective Functions

  共享模态ID损失
Discover Cross-Modality Nuances for Visible-Infrared Person Re-Identification(超详细分析,一看就懂)_第6张图片
此外,文章提出了中心簇损失来学习身份之间的关系,并确保每个模式映射总是始终集中于特定的模式。其中hyi是当前批次中标记为yi的特征的平均值,P是当前批次的身份数,ρ是中心中的最小边距。使每个特征到簇中心的距离尽可能小,使每个簇中心的距离尽可能大于p。
Discover Cross-Modality Nuances for Visible-Infrared Person Re-Identification(超详细分析,一看就懂)_第7张图片

总损失

在这里插入图片描述

实验结果

Discover Cross-Modality Nuances for Visible-Infrared Person Re-Identification(超详细分析,一看就懂)_第8张图片

Discover Cross-Modality Nuances for Visible-Infrared Person Re-Identification(超详细分析,一看就懂)_第9张图片
  文章总体精确度较为理想,可以尝试复现。

可视化分布

Discover Cross-Modality Nuances for Visible-Infrared Person Re-Identification(超详细分析,一看就懂)_第10张图片
  根据图像可以看出,( a ) 初始特征具有显著的模态差异,分布较广,很难在模态之间匹配到同一个人。( b ) 尽管通过基线提取的方式,大多数特征可以很好地聚类,但同一性内模态差异仍然明显。还收集到了一些身份(如浅蓝色、粉色和灰色)的红外图像,可能与错误的可见图像进行匹配。反观( c ) ,使用MPANet的不同模态的学习特征按身份进行了很好的分组。
结果表明,MPANet 能较好地缓解模态差异,提高区分能力。

你可能感兴趣的:(跨膜态行人重识别,论文阅读,神经网络,深度学习)