[论文阅读]Learning Discriminative Features with Multiple Granularityfor Person Re-Identification

Learning Discriminative Features with Multiple Granularityfor Person Re-Identification

这篇论文是CVPR2018 ACM Multimedia 2018 的文章,作者是上交和云从科技的大牛。是目前为止,在Market-1501数据集上效果最好的方法。单张图片检索(single query)的rank-1达到了95.7%,mAP达到了86.9%;在re-rank之后,更是高达96.6%和94.2%。本文的主要思想就是通过区域分割,来获得不同粒度的特征,比如全局和局部特征以及更细粒度的局部特征,通过一个网络的不同分支得到这些特征,每个分支都对不同的分割块进行特征提取。

Introduction

如上图,随着人体分割的块数越大,就越容易聚焦到人体局部的特征上,而这些特征恰是更具区分性的。而深度学习网络能在这些不同的分割的图像块上关注区分性的局部,提取特征。

一般而言,有3种不同的部件或者说区域分割的方法。

  1. locating partial regions with strong structural information such as empirical knowledge about human bodies or strong learning-based pose information:即按照人体直立的先验,将人水平分,如六等分,七等分(按照网络特征图的大小),或者利用姿态估计的方法,按照得到的姿态去分割人的不同部分。
  2. locating partial regions with region proposal methods
  3. Enhancing features by middle-level attention on salient parts:利用深度网络(RNN)的注意力机制,隐式地注意不同部位,去提取特征。

算法框架

  1. 利用Resnet-50提取输入图片的特征,由于使用了hard triplet loss,所以是输入P个人的K张图片
  2. 在res_conv4_2产生分支,三个不同的分支是三种不同的分割。
  3. global branch:在res_conv5_1上使用了2的步长,以和后面的分支相区别。在pooling之前,特征图的大小为12*4,有2048维,经过Maxpooling,再经过一个降维的全卷积层,得到256维的特征。这里要注意的是,降维之前的特征去计算softmax loss,降维之后的特征去计算triplet loss。这个分支只有全局的特征。
  4. 在这个分支提取全局特征和局部特征,并且只利用全局特征去计算triplet loss. 相当于局部特征只是来分类,是由于人体对齐的问题,可能会破坏模型。但是感觉将两个局部特征联和去计算triplet loss,是更有效的(待验证)。
  5. 这个分支和上面的分支一样。不过局部分支是选择降维后的去分类,论文中解释说,这是出于模型收敛问题的考虑而这样设置。
  6. 测试时,将所有特征取平均值,进行测试。

总结

之前有论文,是用类似的分割,得到全局和局部的特征。而本文用了不同的分支,其实每个分支里都含着全局和局部特征。

你可能感兴趣的:(person,re-id,深度学习)