行人重识别 A Pose-Sensitive Embedding for Person Re-Identification with Expanded Cross Neighborhood Re-...




Cho [2]定义了四个不同视角(前视,左视,右视,后视),通过学习对应的匹配权重来强化相同视角行人图像的匹配。

Cheng[3,4] 首次基于图像结构提出了更加细微的姿态表示方法,更加注重于匹配个体部分。

Zheng[5] 提出使用利用CNN的外部姿态估计器,基于行人的姿态,对图像进行归一化。进一步使用原图和归一化后的图训练深度re-id网络。Su[6] 采用了相似的方案。首先,子网络估计出姿势图,然后用来裁剪不同的身体部位。最后,学习局部和全局人体表示,并进行融合处理。姿势的变化也受到了重识,比如,[7]通过检测框架显式检测身体部位,[8]依赖于视觉注意图,或者[9]身体部位专用注意力模型。


Shen [10]使用KNN来产生新的排序表,并基于此表重新计算距离。

Carcia [11]提出对排序表中上下文和内容信息进行联合学习的方法,来去除较高排序中相邻的待选项,提高识别性能。[12]扩展了这一方法,通过内容和上下文相似性的融合修改初始排序表。

Li [12] 首次提出使用每幅图的最近邻域的相对信息来提高重排序。

Ye [13] 将全局和局部特征的常规最近邻域结合起来,作为新的序列。通过将新的序列聚合进新的排序表中,达到修改排序表的目的。

[14] 利用不同基准方法中,不同邻域的相似性和不似性线索提出了一种排序聚合方法来提高re-id。

[16] Jegou 使用相应邻域,并提出计算上下文不似性方法(CDM)。

[17] 正式使用k相应邻域方法计算排序表。

Zhong [18] 使用这些方法,通过序列扩展,排序融合以及欧氏距离,设计了一个有效的重排序距离。





re-id CNN 的旁路分支加入了三元视角分类器。主网络的末尾处分为了三个相等的单元,来复制现有的层。视角分类器的三个视角预测得分作为每个单元输出的权重,以调节通过该单元的梯度。比如,对于具有很强“前向”特性的训练样本,只有“前向”单元会获得较大的权重,进而对梯度的更新产生较大的影响。这一过程使得每一个单元学习一个针对某一视角的特征图。并不对最终的嵌入值或者预测向量进行融合,相反,对每个特征图进行加权。


作为人体姿态的细节表示,我们使用了人体主要的14个位置信息。为了获取这一信息,我们使用现成的DeepCut模型。我们并不使用这一信息来显式地对输入图像进行归一化。相反,通过对14个关键位置加入额外的输入通道,我们把这一信息包含到了训练过程中去。这些通道用来指引CNN的注意力,使得它获得了很大的灵活性,以便自学怎样将联合信息应用到结果嵌入中。为了进一步增加灵活性,我们并不依赖于DeepCut的最终关键点,而是将每个关键点的全置信图提供给RE-id CNN。这就避免了任何基于硬关键点决策导致的错误输入,给我们的网络留出了可以补偿的机会,或者至少识别出不可靠的姿势信息。











