行人重识别 A Pose-Sensitive Embedding for Person Re-Identification with Expanded Cross Neighborhood Re-...

基于姿态的Re-Id

人的体态特征对于完成Re-Id任务来说是一个非常重要的线索。

SDALF[1]利用两轴代表体态特征,进一步推演出具有姿态不变性的特征。

Cho [2]定义了四个不同视角(前视,左视,右视,后视),通过学习对应的匹配权重来强化相同视角行人图像的匹配。

Cheng[3,4] 首次基于图像结构提出了更加细微的姿态表示方法,更加注重于匹配个体部分。

Zheng[5] 提出使用利用CNN的外部姿态估计器,基于行人的姿态,对图像进行归一化。进一步使用原图和归一化后的图训练深度re-id网络。Su[6] 采用了相似的方案。首先,子网络估计出姿势图,然后用来裁剪不同的身体部位。最后,学习局部和全局人体表示,并进行融合处理。姿势的变化也受到了重识,比如,[7]通过检测框架显式检测身体部位,[8]依赖于视觉注意图,或者[9]身体部位专用注意力模型。

Re-Ranking

Shen [10]使用KNN来产生新的排序表,并基于此表重新计算距离。

Carcia [11]提出对排序表中上下文和内容信息进行联合学习的方法,来去除较高排序中相邻的待选项,提高识别性能。[12]扩展了这一方法,通过内容和上下文相似性的融合修改初始排序表。

Li [12] 首次提出使用每幅图的最近邻域的相对信息来提高重排序。

Ye [13] 将全局和局部特征的常规最近邻域结合起来,作为新的序列。通过将新的序列聚合进新的排序表中,达到修改排序表的目的。

[14] 利用不同基准方法中,不同邻域的相似性和不似性线索提出了一种排序聚合方法来提高re-id。

[16] Jegou 使用相应邻域,并提出计算上下文不似性方法(CDM)。

[17] 正式使用k相应邻域方法计算排序表。

Zhong [18] 使用这些方法,通过序列扩展,排序融合以及欧氏距离,设计了一个有效的重排序距离。


姿态敏感嵌入式架构

姿态敏感嵌入

1.视角信息

使用“前视”“后视”“侧视”来量化人体相对摄像头的朝向作为粗姿态信息。鉴于这一信息和摄像头与人体相关,所以称为“视角信息”。

re-id CNN 的旁路分支加入了三元视角分类器。主网络的末尾处分为了三个相等的单元,来复制现有的层。视角分类器的三个视角预测得分作为每个单元输出的权重,以调节通过该单元的梯度。比如,对于具有很强“前向”特性的训练样本,只有“前向”单元会获得较大的权重,进而对梯度的更新产生较大的影响。这一过程使得每一个单元学习一个针对某一视角的特征图。并不对最终的嵌入值或者预测向量进行融合,相反,对每个特征图进行加权。

2.整体姿态

作为人体姿态的细节表示,我们使用了人体主要的14个位置信息。为了获取这一信息,我们使用现成的DeepCut模型。我们并不使用这一信息来显式地对输入图像进行归一化。相反,通过对14个关键位置加入额外的输入通道,我们把这一信息包含到了训练过程中去。这些通道用来指引CNN的注意力,使得它获得了很大的灵活性,以便自学怎样将联合信息应用到结果嵌入中。为了进一步增加灵活性,我们并不依赖于DeepCut的最终关键点,而是将每个关键点的全置信图提供给RE-id CNN。这就避免了任何基于硬关键点决策导致的错误输入,给我们的网络留出了可以补偿的机会,或者至少识别出不可靠的姿势信息。

3.训练细节

基于重排序的扩展交叉邻域距离

        ECN距离能够加速计算,同时不需要严格的排序表对比。对于一对图来说,将每幅图紧邻的邻域的距离累计起来,可以得到较好的重排序。

        对于探针图片和图集

        和之间的欧式距离表示为

      计算所有图片和探针集之间的距离,对每幅图来说,初始排序可以通过对计算的距离进行升序排序即可。

        已知图片集和探针集所有图片的初始排序表,定义探针的扩展邻域为多个集合。是探针的个最接近的紧邻域,包含集合中的个最接近的邻域。

        每个图像集可以根据其紧邻和邻域获得相似的扩展邻域多集合。集合和集合的总的邻域数为。一对图像的扩展交叉邻域距离定义为

表的相似度通过两个表前K个邻域的位置得到,对于一个含有N个图像的排序表,表示图像n在排序好的表中的位置。只考虑表中前K个邻域,排序表的相似性为

其中,

[1] M. Farenzena, L. Bazzani, A. Perina, V. Murino, and M. Cristani. Person re-identification by symmetry-driven accumulation of local features. In Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, pages 2360–2367. IEEE, 2010

[2] Y.-J. Cho and K.-J. Yoon. Improving person re-identification via pose-aware multi-shot matching. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1354–1362, 2016

[3] D. S. Cheng, M. Cristani, M. Stoppa, L. Bazzani, and V. Murino. Custom pictorial structures for re-identification. In BMVC, volume 2, page 6, 2011

[4] D. S. Cheng and M. Cristani. Person re-identification by articulated appearance matching. In Person Re-Identification, pages 139–160. Springer, 2014.

[5] L. Zheng, Y. Huang, H. Lu, and Y. Yang. Pose invariant embedding for deep person re-identification. arXiv preprint arXiv:1701.07732, 2017.

[6] C. Su, J. Li, S. Zhang, J. Xing, W. Gao, and Q. Tian. Posedriven deep convolutional model for person re-identification. In Proceedings of the IEEE Conference on Computer Vision ICCV, pages 3960–3969, 2017

[7] H. Zhao, M. Tian, S. Sun, J. Shao, J. Yan, S. Yi, X. Wang, and X. Tang. Spindle net: Person re-identification with human body region guided feature decomposition and fusion. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1077–1085, 2017

[8] A. Rahimpour, L. Liu, A. Taalimi, Y. Song, and H. Qi. Person re-identification using visual attention. arXiv preprint arXiv:1707.07336, 2017

[9] L. Zhao, X. Li, J. Wang, and Y. Zhuang. Deeply-learned partaligned representations for person re-identification. ICCV, 2017.

[10] X. Shen, Z. Lin, J. Brandt, S. Avidan, and Y. Wu. Object retrieval and localization with spatially-constrained similarity measure and k-nn re-ranking. In Computer Vision and Pattern Recognition (CVPR), pages 3013–3020. IEEE, 2012.

[11] J. Garcia, N. Martinel, C. Micheloni, and A. Gardel. Person re-identification ranking optimisation by discriminant context information analysis. In ICCV IEEE International Conference on Computer Vision, pages 1305–1313, 2015.

[12] Q. Leng, R. Hu, C. Liang, Y. Wang, and J. Chen. Person re-identification with content and context re-ranking. Multimedia Tools and Applications, 74(17):6989–7014, 2015.

[13] W. Li, Y. Wu, M. Mukunoki, and M. Minoh. Common-nearneighbor analysis for person re-identification. In Image Processing (ICIP), 2012 19th IEEE International Conference on, pages 1621–1624. IEEE, 2012

[14] M. Ye, J. Chen, Q. Leng, C. Liang, Z. Wang, and K. Sun. Coupled-view based ranking optimization for person reidentification. In International Conference on Multimedia Modeling, pages 105–117. Springer, 2015

[15] M. Ye, C. Liang, Y. Yu, Z. Wang, Q. Leng, C. Xiao, J. Chen, and R. Hu. Person reidentification via ranking aggregation of similarity pulling and dissimilarity pushing. IEEE Transactions on Multimedia, 18(12):2553–2566, 2016

[16] H. Jegou, H. Harzallah, and C. Schmid. A contextual dissimilarity measure for accurate and efficient image search. In Computer Vision and Pattern Recognition,CVPR, pages 1–8. IEEE, 2007

[17] D. Qin, S. Gammeter, L. Bossard, T. Quack, and L. Van Gool. Hello neighbor: Accurate object retrieval with k-reciprocal nearest neighbors. In Computer Vision and Pattern Recognition (CVPR), pages 777–784. IEEE, 2011

[18] Z.Zhong,L.Zheng,D.Cao,andS.Li. Re-ranking person re-identification with reciprocal encoding. pages1318–1327, 2017

你可能感兴趣的:(行人重识别 A Pose-Sensitive Embedding for Person Re-Identification with Expanded Cross Neighborhood Re-...)