Spatial-Temporal Person Re-Identification 阅读笔记

Spatial-Temporal Person Re-Identification(2019) 阅读笔记

中山大学赖剑煌老师团队发表在AAAI2019上的一篇文章,在有监督的reid上结合了时空数据做多模态融合,架构用ResNet50和PCB架构,在Market-1501和Duke两个数据集上达到了超越所有纯视觉有监督方法的效果。

Introduce

现有的挑战大概有:估算分布复杂的人员ReID时空格局极为困难。尽管我们可以基于有限的数据集中找到一个良好的公式去描述复杂的时空分布,但是由于行走轨迹和速度的不确定,它仍然是不可靠的。给出了可靠的视觉外观相似度和不可靠的时空分布,由于时空分布不可靠并且很难为这两种类型的指标分配适当的加权因子,因此难以建立可靠的联合指标。

Contribution

在文章中,提出了一种新颖的双流时空ReID(st-ReID)的框架,该框架能够同时挖掘视觉语义信息和时空信息。为此,文章引入了采用Logistic(LS)的联合相似性度量,将两种异构信息集成到一个统一的框架中。为了估算复杂的时空概率分布,我们开发了一种快速的直方图(HP)方法。由于时空约束,st-ReID模型消除了许多不相关的图像,从而缩小了图像数据库的范围。

Overview

非常简单的架构,用ResNet50+PCB提取视觉特征和视觉相似度,在从数据集中提取时间和摄像头编号构造行人迁移的时空模型,算出时空相似度,然后对两个分数做一点精修再相乘,得到融合的分数。相当于特征表示和度量学习的融合。
Spatial-Temporal Person Re-Identification 阅读笔记_第1张图片
在一个统一的框架内开发特征的相似性和时空约束。为此,提出了一个包含三个子模块的双流架构,即视觉特征流、时空流、联合度量子模块。
(1)视觉特征流:在次模块中,文章用的是上述我们所说的PCB架构,通过PCB架构我们可以得出两个图像的相似性分数:在这里插入图片描述
(2)时空流:时空流将捕获时空互补信息以辅助视觉特征流。文章开发了一种直方图-Parzen方法。也就是说,我们首先估计时空直方图,然后使用Parzen窗口方法对其进行LS。得出时空相似性分数:Spatial-Temporal Person Re-Identification 阅读笔记_第2张图片
(3)联合度量子模块:首先,将相似性得分直接用作视觉相似性概率是不合理的。其次,时空概率p不可靠且确定,即一个人可能随时随地出现。(就好比当检索小偷的图像时,因为他可能比普通人走得快并且时空概率低,所以就可能不会检索到他)直接使用p作为时空概率函数当保持相同的精度时会导致较低的查全率。为此,文章进行了两个方面的改进,拉普拉斯平滑运算减轻不可靠概率估计的基本思想;逻辑函数可用于二元分类问题。
在这里插入图片描述
在这里插入图片描述
Spatial-Temporal Person Re-Identification 阅读笔记_第3张图片
基于这两个函数,文章提出了一种逻辑平滑方法,该方法既可以调整稀有事件的概率,又可以在给定特定信息的情况下计算属于同一ID的两个图像的概率,故能够有效地将两个分数精修再相乘。

Experience

论文在数据集Market-1501,DuckMTMC-reID进行实验,评价指标使用rank-1准确率和mAP进行实验评估。由于实验较多,本文就放一个实验表如下:(左Market-1501,右DuckMTMC-reID)
Spatial-Temporal Person Re-Identification 阅读笔记_第4张图片
Spatial-Temporal Person Re-Identification 阅读笔记_第5张图片
可以看出文章所提出的方法都远远比其他方法要高上不少,都做到了最佳。除此之外,实验还做了一些消融研究和兼容性的实验,实验发现双流架构可以适用于多种网络,如DenseNet121,有良好的通用性。此外也证明了PCB架构的实用性。

Conclusion

此文章提出了一种新颖的两流时空人ReID(st-ReID)框架,该框架可挖掘视觉语义相似性和时空信息。并且st-ReID方法在Market-1501上的1级准确度达到98.1%,在DukeMTMC-reID上的准确度达到94.4%,分别从基线的91.2%和83.8%提高,优于之前的所有现状先进的方法,做到了最优。在有监督的条件下把多模态融合和时空模型估计做到了极致。

你可能感兴趣的:(Spatial-Temporal Person Re-Identification 阅读笔记)