2020 AAAI之ReID:Attend to the Difference: Cross-Modality Person Re-identification via Contrastive

Attend to the Difference: Cross-Modality Person Re-identification via Contrastive Correlation
当前的问题及概述
本文针对1,在feature embedding中,以往的工作通常经过GAP和全连接层,输出的是二维向量(如1×1×2048),不能保持很好的空间特征,人类在比较两个相似物体时通常会注意到它们之间的差异这一特点,提出了一种双路径交叉模态特征学习框架。
该框架由两个主要部分组成:Dual-path Spatial-structure-preserving Common Space Network(DSCSN)和Contrastive Correlation Network(CCN)。前者在不丢失空间结构的情况下将交叉模态图像嵌入到一个普通的三维张量空间中,而后者通过动态比较输入图像对提取对比特征。

模型及loss
2020 AAAI之ReID:Attend to the Difference: Cross-Modality Person Re-identification via Contrastive_第1张图片
本文提出的框架主要由两部分组成:双路空间结构保持公共空间网络(DSCSN)和对比相关网络(CCN)。具体地说,DSCSN利用部分共享结构,同时对模态特征信息和模态共享信息进行建模,学习RGB-IR结构共同空间特征,在不丢失空间结构的情况下将交叉模态图像嵌入到一个普通的三维张量空间中。CCN是通过关注两个相似对象的差异来模拟学习机制。
1 Dual-path Spatial-structure-preserving Common Space Network
本模块的目的是为了提取输入RGB和IR图像的三维卷积特征图形状的共同特征,通过双分支结构分别提取两个模态特征,在经过公共特征嵌入部分通过权重共享提取两个模块的共有特征,公式一中CR和CI说明的是从RGB图像和IR图像输入到公共空间特征的变换函数R和I表示各自的输入图像,FR和FI表示提取的共同特征:
在这里插入图片描述
可以看到,与Visible thermal person re-identification via dual-constrained top-ranking文中提出的基于一维特征向量的特征嵌入函数的双路径网络不同,本文中该模块提取到的公共空间为三维特征张量,保留了一定的空间结构信息,为后面的Contrastive Correlation Network模块提供了更完善的公共空间信息。
2.Contrastive Correlation Network
这一部分由内核生成模块和对比相关模块组成,内核可以理解为权重
2.1Kernel generator:该模块为人的图像生成个性化的内核(生成特定于I或R的内核),旨在强调人相对于一般人的明显特征。然后计算出两个个性化内核之间的差异。
以R为例,每个核试图说明人图像R的局部特征。通过采样FR可以得到位于(i, j)处的核:
在这里插入图片描述
采样不等于卷积,没有参数运算。其中Kij R为从FR裁剪出的局部patch,其中hT为高度,wT为宽度,(i, j)为FR的坐标,表示裁剪核的位置,cropping代表裁剪运算,即将(i,j)坐标转换为水平步长和竖直步长,公式3中的KR表示从FR中采样的一组内核:
在这里插入图片描述
stride v和stride h分别表示垂直和水平的步长,将3×3窗后在FR(8×4×2048)上滑动进行采样。这样使得从三维公共特征张量中采样的个性化内核有望捕捉一个人的内在特征,而不受光照、姿态、视角、模式等因素的影响。
RGB (IR)图像的对比内核则是根据成对的IR (RGB)图像动态生成的,期望注意它们在输入成对人之间的差异,为了实现两个图像的个性化内核差异,将对比内核定义为:
在这里插入图片描述
2.2 contrastive correlation module:通过与对比内核进行相关处理,提取出被比较图像的动态对比特征。计算了FR与FI的相关关系,并与KRI作了对比:
2020 AAAI之ReID:Attend to the Difference: Cross-Modality Person Re-identification via Contrastive_第2张图片
叉乘符号表示相关操作,相关操作是卷积操作,得到的值越大,相似度越高,如下图:
2020 AAAI之ReID:Attend to the Difference: Cross-Modality Person Re-identification via Contrastive_第3张图片
在获得R和I的对比特征后,在全连通(FC)层使用sigmoid激活函数计算R和I之间差值分数DIR和DR I,其中WD代表FC层的权重:
在这里插入图片描述
Sigmoid函数为:在这里插入图片描述
然后计算两个差值分数的平均值:在这里插入图片描述
2.3Overall Loss Function:
提出了Pairwise BCE loss.和ID loss作为最终的总loss。
其中,同一个人的DRI差值预期为0,而不同人的DRI差值预期为1,为了使同一人对的差值最小化,使不同人对的差值最大化,采用了二元交叉熵损失,即Pairwise BCE loss:
在这里插入图片描述
其中lRI是输入RGB-IR person pair的标签,lRI = 0表示I和R是同一个人,lIR = 1表示I和R是不同的人,M表示person pair的数量。
对FR和FI进行全局平均池化后,分别得到I和R的全局特征GI和GR,对每一个人来说,其自身的特性表明,即使在不同的姿态、光照、视角变化等情况下,同一人的特征也应具有高度的相似性。因此,我们在全局特征的基础上进行识别(ID)损失,如下式所示::
2020 AAAI之ReID:Attend to the Difference: Cross-Modality Person Re-identification via Contrastive_第4张图片
其中,WID是ID loss的最后一个全连接层的权值,pR和pI是R和i的预测标签概率分布,C是人的身份数。yR和yI分别是R和I的one-hot coding ID标签,N是每种模态的样本数,总loss为:
在这里插入图片描述
实验
数据集:RegDB和 SYSU- MM01

不同框架的测试结果:
2020 AAAI之ReID:Attend to the Difference: Cross-Modality Person Re-identification via Contrastive_第5张图片
消融实验:
2020 AAAI之ReID:Attend to the Difference: Cross-Modality Person Re-identification via Contrastive_第6张图片
其中:w/o ID表示不使用ID loss,S/F表示是简化版还是完全版,完全版:使用DRI来表示两幅图像的相似性。DRI越小,两个图像越相似。即公式12。简化版:通过使用全局特性GR和GI计算查询和图库图像之间的余弦相似性。即没有PBCE loss。
2020 AAAI之ReID:Attend to the Difference: Cross-Modality Person Re-identification via Contrastive_第7张图片
Samlpe操作:3×3窗口在FR(8×4×2048)滑动,当步长为1时,可以求得kernel数量为12,步长为2时,kernel数量为8…以此类推,可以看到当步长最小,kernel最多,效果最好。

你可能感兴趣的:(ReID,多模态)