论文阅读(七)Learning Visibility-aware Part-level Features for Partial Person Re-identification

论文阅读(七)Learning Visibility-aware Part-level Features for Partial Person Re-identification_第1张图片

1.要解决什么问题:识别数据集中,或者现实生活中拍摄的,目标行人残缺的情况,匹配会发生对不齐现象

2.用了什么解决方法:提出VPM网络,以自监督训练为主要方法,使得网络自发的更关注共存的区域,对于不可见区域在计算距离时产生作用小,可见区域起的作用大。同时自监督训练使用交叉熵损失训练网络进行区域分类,使用三元损失寻来你网络进行身份分类。最终消除局部区域错位匹配现象。

3.效果如何。达到目前最优水准 mAP 90.8,R1 93.0

4.还存在什么问题

5.可借鉴之处:区域定位生成的概率图的方法可以借鉴

Abstract

这篇文章考虑了行人再识别的局部区域Reid的问题,在partial re-ID情况下,图像也许只包含行人的部分外观。如果直接将部分行人图像与整体图像比较,那么空间错位会损害所学到的识别能力。于是,提出了一个Visibility-aware Part Model (VPM),该模型可以通过监督学习来感知区域可见性,也就是说可以发现哪些人的图像是不完整的。VPM模型关注的是局部特征,当比较两个图片时,VPM会只关注他们都共同存在的区域,就不去比较被遮挡的部分了。VPM对Reid任务有两方面好处,(1)VPM学习局部细粒度特征。(2)VPM关注两张比较图片都存在的区域,抑制比较错位。

论文阅读(七)Learning Visibility-aware Part-level Features for Partial Person Re-identification_第2张图片

1. Introduction

Reid在实际应用中面临的一个主要问题是,行人可能部分被遮挡,或者一部分走出了视野,摄像机捕捉不到完整行人。使用不完整局部行人图像进行检索面临着两个问题:

(1)空间错位错位问题,如图1a所示。

(2)当比较两个完整度不同的行人image时,相对完整对应的多出部分变相的称为了噪声。当图像中人体比例不相同时也会出现这种情况。如图1b

所提出的VPM可以缓解上述两个问题,首先在行人图像上定义一些区域,如图1c所示,然后在训练时候,给定部分行人图像,VPM学着在卷积特征图上去定位所有预先定义的区域,在定位每个区域后,VPM感知哪些区域可见并学习区域特征。在测试过程中,假设两幅图像要进行比较,vpm首先计算它们共享区域之间的局部距离,然后得出总距离。

VPM效果好主要由于两方面因素,一方面学习了区域细粒度特征,VPM捕捉两张图片共同存在的区域消除了错位带来的噪声。

此外,VPM可以自我监督的来学习区域可见性感知(region visibility awareness),方法是从整体数据集中随机抽取部分行人图像,然后生成人体区域标签,由此产生自我监督。自我监督使VPM能够学习定位预先定义的区域。它也有助于VPM在特征学习过程中关注可见区域。

论文阅读(七)Learning Visibility-aware Part-level Features for Partial Person Re-identification_第3张图片

 

2. Related Works

作者发现,例如PCB这种基于分块的Reid方法,当遇到不完整行人时效果会有明显下降。这是由于若使用分块方法,必须保证两张图分块区域相互对应,这样导致对于错位更加敏感。不同于PCB与SPReID,在测试阶段,VPM首先计算彼此之间的区域距离,然后基于高可见置信度动态的将区域距离作为总体距离。

自我监督是这项工作中的主要工具,作者使用自我监督学习可见区域感知,不同于其他方法,VPM首先定义了一个在整体图像上的分割,然后给分割区域进行标注,(应该是网络识别过程中可以自动识别出该身体区域属于哪个标签,即哪部分)然后VPM就可以直接预测行人图像中的身体区域属于哪部分。

3. Proposed Method
3.1. Structure of VPM

VPM采用全卷积设计,VPM输入行人图像,输出区域特征和一系列区域可见性得分。

首先将完整的原图统一分割,然后将对应的图像的局部图resize到固定大小输入到VPM中,经过完整的Resnet50,得到三维特征图T(C*H*W)。T上的一个像素点视为C维特征向量g,接着跟着一个区域定位器和一个区域特征提取器,定位器用于发现T中不同的区域,提取器用于提取这些不同区域的特征。

区域定位器,使用1x1的全卷积结合softmax,将T中的特征向量g分类。通过分类获得3个概率图,图表示每一个g属于3个不同区域的概率。根据概率图,预测出可见区域得分(visibility score C),计算方法为分别求g在3个概率图上的概率和,如过一个区域可见,那么对应的得分就会高,若不可见,得分接近于0。

特征提取器,通过加权为各个区域生成对应的特征,同时除以Ci作为维持区域尺寸的范数不变性。

3.2. Employing VPM

假设给定两个输入I^{k}I^{l},VPM使用上述公式抽取区域特征和区域可见得分{f_{i}^{k}C_{i}^{k}},{f_{i}^{l}C_{i}^{l}},使用欧式距离计算对应区域的距离,

计算全局距离通过如下公式:

论文阅读(七)Learning Visibility-aware Part-level Features for Partial Person Re-identification_第4张图片

可见区域的visibility score的分高,从而两张图片共享的区域得分高,由此最终的距离由共享区域把控。相反缺失的区域对距离计算的贡献就减少。

3.3. Training VPM

向量T使用端到端训练提取特征,该特征用于后来的区域定位与区域特征提取,同时训练还采用自我监督的方法。

将完整图片裁剪出的残缺图片上预先定义好的区域通过ROI映射,映射到特征向量T上,若分为三个区域(如图中所示)则标签就为1,2,3,这样就可以知道T中的g是属于哪个区域的。

自监督主要分三个方面:

1、自监督使用的对应区域所属的真实标签

2、使用交叉熵损失分类,使得VPM关注可见区域

3、使用三元损失,使VPM关注共享区域

论文阅读(七)Learning Visibility-aware Part-level Features for Partial Person Re-identification_第5张图片

还可以参考:http://www.sohu.com/a/320544964_500659

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(论文阅读)