论文笔记20 --(ReID)Learning Generalisable Omni-Scale Representations for Person Re-Identification

《Learning Generalisable Omni-Scale Representations for Person Re-Identification 》
论文:https://arxiv.org/abs/1910.06827

Kaiyang Zhou, Xiatian Zhu, Yongxin Yang, Andrea Cavallaro, Tao Xiang
(Submitted on 15 Oct 2019)

就喜欢这种直接放代码的!
https://github.com/KaiyangZhou/deep-person-reid


Abstract

有效的行人重新识别(re-ID)模型应学习具有区分性的特征表示,以区分相貌相似的行人,并且具有通用性,以便在没有任何适应的情况下跨数据集进行部署。文章中,作者开发了新的CNN架构来应对这两个挑战。首先,介绍一个称为全尺度网络(OSNet)的re-ID CNN,以学习不仅捕获不同空间尺度而且还封装了多个尺度的协同组合的特征,即全尺度特征。基本构建块由多个卷积流组成,每个卷积流都以一定规模检测特征。对于全尺度特征学习,引入了统一的聚合门,以动态融合多尺度特征与通道权重。OSNet是轻量级的,因为其构建基元包括分解卷积。其次,为了改善可通用的特征学习,在OSNet中引入了实例规范化(IN)层以应对跨数据集的差异。此外,为了确定这些IN层在架构中的最佳位置,制定了一种有效的可微架构搜索算法。大量的实验表明,在传统的相同数据集设置中,OSNet尽管比现有的re-ID模型要小得多,但却有着很不错的性能。在更具挑战性但更实用的跨数据集设置中,OSNet击败了最新的无监督域自适应方法,而无需任何目标数据即可进行模型自适应。

1. Introduction

行人重新识别(re-ID)作为一种精细的实例识别问题,旨在在不重叠的摄像机视图中匹配人员。随着深度学习技术的发展,有关行人re-ID的最新研究已从乏味的特征工程转变为使用深度神经网络的端到端特征表示学习,特别是卷积神经网络(CNNs)。

得益于CNNs的端到端表示学习,re-ID性能得到了显著改善,但仍有两个尚未解决的问题,阻碍了re-ID在实际应用中的大规模部署。一个是区分特征学习,作为实例识别任务,在不相交的摄影机视角下重新识别行人需要同时克服类内的差异性和类间的模糊性或者说是不可区分性。例如,在图1(a)中,跨摄像机从前到后的视图变化在背包区域带来了较大的外观变化,从而使行人的匹配任务具有了挑战性。此外,从视频监视场景中的典型距离来看,行人看起来会非常相似,如图1中的错误匹配所示。这需要re-ID特征去捕获细粒度的细节(例如,图1(d)中的太阳镜),以区别相貌相仿的人。
论文笔记20 --(ReID)Learning Generalisable Omni-Scale Representations for Person Re-Identification_第1张图片
第二个问题是通用特征学习。由于光照条件、背景、视点等差异(见图1)导致re-ID数据集之间存在固有的域差距,因此通常将在源数据集上训练的re-ID模型直接应用于未知的目标数据集出现性能大幅下降。这表明,学习到的re-ID特征适合源域数据,但无法进行跨域通用。跨域通用的re-ID模型对于现实场景的大规模部署具有重要的价值。因为这样的模型可以在任何未知数据场景下工作,而无需经历繁琐的数据收集、标注和模型更新/微调等过程(注:Re-ID数据标注成本很高)。

你可能感兴趣的:(Deep,Learning,Person,Re-ID)