行人重识别综述

行人重识别方向论文综述

文章目录

  • 一、Close-World方法
    • 1、基于特征表示学习的方法(重在特征组建策略)
      • 1.1、全局特征表示学习(ReID早期)
      • 1.2、局部特征表示学习
      • 1.3、辅助特征表示学习
      • 1.4、视频特征表示学习
      • 1.5、结构设计
    • 2、基于深度度量学习的方法(重在loss函数取用或采样策略)
      • 2.1、损失函数设计
        • 2.1.1、ID loss
        • 2.1.2、Verification loss
        • 2.1.3、Triplet loss
        • 2.1.4、OIM loss
      • 2.2、训练策略
    • 3、基于排序优化的方法(重在优化检索排序列表)
      • 3.1、重排序
        • 3.1.1、自适应性Query
        • 3.1.2、人机交互
      • 3.2、排序融合
    • 4、数据集和评估方法
      • 4.1、数据集和评估度量
        • 4.1.1、数据集
        • 4.1.2、评估度量
      • 4.2、SOTA
        • 4.2.1、基于图像的ReID
        • 4.2.2、基于视频的ReID
  • 二、Open-World方法
    • 1、异构ReID
      • 1.1、基于深度的ReID
      • 1.2、文本到图像的ReID
      • 1.3、可见红外ReID
      • 1.4、跨分辨率ReID
    • 2、端到端ReID
      • 2.1、原始图像/视频中的ReID
      • 2.2、多摄像头跟踪
    • 3、半监督和无监督ReID
      • 3.1、无监督ReID
        • 3.1.1、早期无监督ReID
        • 3.1.2、深度无监督方法
        • 3.1.3、端到端无监督方法
        • 3.1.4、局部特征级表示方法
        • 3.1.5、半/弱监督ReID
      • 3.2、无监督域适应
        • 3.2.1、目标图像生成
        • 3.2.2、目标域监督挖掘
      • 3.3、无监督ReID的SOTA
    • 4、对噪音鲁棒的ReID
      • 4.1、部分ReID
      • 4.2、带样本噪音的ReID
      • 4.3、带有标签噪音的ReID
    • 5、开放集ReID
      • 5.1、分组ReID
      • 5.2、动态多摄像头网络
  • 三、前瞻:新时期的ReID
    • 1、mINP:ReID的新评估尺度
    • 2、单模型/跨模态ReID新Baseline
      • 2.1、单模态基于图的ReID
      • 2.2、跨模态可见红外ReID
    • 3、调查不足的未决问题
      • 3.1、无控的数据采集
        • 3.1.1、多异构数据
        • 3.1.2、衣着改变数据
      • 3.2、最小化人工标注
        • 3.2.1、主动学习
        • 3.2.2、虚拟数据学习
      • 3.3、特殊域/通用架构设计
        • 3.3.1、ReID特定架构(OSNet,Auto-ReID)
        • 3.3.2、域泛化ReID(部分级CNN,DIMN)
      • 3.4、动态模型更新
        • 3.4.1、对新域/摄像头适应的模型
        • 3.4.2、用新到达的数据更新模型
      • 3.5、高效模型应用
        • 3.5.1、Fast ReID(CSBT,CtF)
        • 3.5.2、轻量模型
        • 3.5.3、资源感知ReID(DaRe)

论文名称:《Deep Learning for Person Re-identification: A Survey and Outlook》

论文链接:ReID综述

摘要:行人重识别旨在跨多个非重叠摄像头检索感兴趣的人员。随着深度神经网络的发展和智能视频监控需求的不断增长,它在计算机视觉领域得到了极大的关注。通过剖析开发行人重识别系统所涉及的部分,我们将其分为封闭世界和开放世界。被广泛研究的封闭世界设置通常在各种以研究为导向的假设下应用,并在许多数据集上使用深度学习技术取得了鼓舞人心的成功。我们首先从三个不同的角度,包括深度特征表示学习、深度度量学习和排名优化,对封闭世界行人重识别进行了全面的概述和深入的分析。随着封闭世界环境下的性能饱和,研究重点最近转移到了开放世界设置,面临着更具挑战性的问题。此设置更接近特定场景下的实际应用。我们从五个不同的方面总结了开放世界。通过分析现有方法的优势,我们设计了一个强大的AGW基线,在四个不同的Re ID任务的12个数据集上实现了最先进的或至少具有可比性的性能。同时,我们引入了一种新的个人Re-ID评估指标(mINP),表示找到所有正确匹配的成本,这为实际应用评估Re-ID系统提供了额外的标准。最后,讨论了一些重要但尚待研究的开放性问题。

行人重识别综述_第1张图片
图I:ReID方向概览

行人重识别方向面临的挑战:

  1. 视角变化
  2. 图像低分辨率
  3. 光照改变
  4. 姿态变化
  5. 遮挡
  6. 异构模型
  7. 复杂的相机环境,背景杂乱无章
  8. 不可靠的BBox生成

模型部署遇到的挑战:

  1. 动态更新摄像头
  2. 具有高效检索的大范围gallery
  3. 分组不确定性
  4. 显著区域转移
  5. 不可见的测试场景
  6. 增量模型更新
  7. 衣着变化

行人重识别系统五个步骤:

  1. 未处理数据收集:包含大量复杂和噪音大的背景
  2. BBox生成:通过行人检测或追踪算法获得
  3. 训练数据标注:需要标注每个场景的训练数据
  4. 模型训练:特征表征学习,距离度量学习或两者的结合
  5. 行人检索:给query和gallery,提取特征表征,通过将计算出的query-to-gallery相似度分类而获得排名列表。
行人重识别综述_第2张图片
图II:封闭世界和开放世界步骤对比
  1. 单模态VS异构数据:对于未处理的数据集,封闭世界设置中所有的人都在单模态可视摄像头中以图片/视频的形式呈现;而开放世界需要处理异构数据(红外图像、草图、深度图像、文本描述)。
  2. BBox生成VS未处理图片/视频:封闭世界只需要在生成的包含有人体外观信息的BBox中进行训练测试;而开放世界从未处理图片/视频中搜索人。
  3. 充足的标注数据VS不可用/有限标签:封闭世界假设是有足够的标注数据来做监督ReID模型训练;而开放世界没有那么多带标签数据或没有标签数据,这就激发了无监督和半监督ReID。
  4. 正确标注VS带噪音标注:封闭世界假设的是标签都是纯净的、正确的;而开放世界经常都是不可用的或者标注错误的,激发了在不同噪声类型下的噪声鲁棒的行人重识别工作。
  5. Query存在于GalleryVS开放集:封闭世界假设query通过计算CMC和mAP是一定在gallery里面的;而开放世界则是query可能不存在于gallery中,或我们需要去验证它而不是单纯的检索,这激发了open-set行人重识别工作。

名词解释:

  • query:感兴趣的人
  • gallery:预测出可能是感兴趣的人的集合

§2.是封闭世界的ReID方法

§2.4.介绍数据集和SOTA

§3.介绍开放世界ReID方法

§4.对ReID做了未来展望

§4.1.新评价指标

§4.2.AGW基线

§4.3.正在调研的未来的开放问题

§5.总结

一、Close-World方法

1、基于特征表示学习的方法(重在特征组建策略)

1.1、全局特征表示学习(ReID早期)

行人重识别综述_第3张图片
图1.1:利用全身的全局图像学习

将ReID问题看作为分类问题或验证问题

  • 分类问题:是指利用行人的ID或者属性等作为训练标签来训练模型
  • 验证问题:是指输入一对(两张)行人图片,让网络来学习这两张图片是否属于同一个行人

《Deep transfer learning for person reidentification》利用分类/识别loss和验证loss训练网络,输入若干行人图像进入分类子网络和验证子网络。分类子网络对图片进行ID预测,根据预测的ID来计算分类误差损失;验证子网络融合两张图片的特征,判断这两张图片是否属于同一个行人,这个子网络相当于一个二分类网络。

《Improving person re-identification by attribute and identity learning》则认为光靠行人ID不足以学习泛化能力较强的模型,额外标注了行人图片的属性特征(性别、头发、衣着等)。引入行人属性标签,模型不但要准确预测出行人ID,还要预测出各项正确的行人属性,大大增强了模型的泛化能力。

《Person re-identification in the wild》提出了广泛使用的IDE模型,将训练过程当做一点多分类问题,将每个ID都作为不同的类别,后面又延伸到了其他论文中。

后又引入注意力机制,分为两组:

  1. 组别1:人的图片中加入注意力
    1. 像素级注意力
    2. 通道特征响应再分权重
    3. 背景抑制
    4. 结合空间信息的方法
  2. 组别2:多个人的图片间加入注意力
    1. 关注上下文的特征学习,结合了序列内和序列间的注意力,用于成对特征对齐和提炼
    2. 注意力一致性
    3. 组相似性

全局特征局限性:噪声区域会对全局特征造成极大的干扰;姿态的不对齐也会使得全局特征无法匹配

1.2、局部特征表示学习

利用局部图像区域(行人部件或简单的水平区域划分),并聚合生成最后的行人特征

行人重识别综述_第4张图片
图1.2:利用局部图像区域学习

用部分分离特征使得不对齐也有鲁棒性。身体部分的生成方式有两种:

  • 组别1:人体解析或姿态估计,人类解析技术来获取语义上有意义的身体部位,这提供了良好对齐的部位特征,但是却需要额外的姿势检测器,并且容易产生噪声姿态检测。
  • 组别2:水平切割,使用均匀分割来获得水平条纹部分,更加灵活,但对严重遮挡和大背景杂波较敏感

1.3、辅助特征表示学习

行人重识别综述_第5张图片
图1.3:利用辅助特征学习

需要额外的标注信息:语义属性、加强的训练样本

  1. 语义属性:同时要预测语义属性信息,增强泛化性和鲁棒性,在半监督学习和无监督学习中都有用到。
  2. 观点信息:MLFN
  3. 域信息:DGD算法
  4. GAN生成
  5. 数据增强

1.4、视频特征表示学习

行人重识别综述_第6张图片
图1.4:利用视频特征学习

每个人由多个帧的视频序列表示。

遇到的挑战:

  1. 能否准确获取时间信息
  2. 视频中不可避免会出现异常跟踪帧
  3. 处理不同长度的视频序列

1.5、结构设计

好多是基于VGG和ResNet,重要修改是将ResNet50的最后一个卷积步长改为1,且最后一个池化层中采用自适应池化,在池化层后再添加具有BN的瓶颈层。

考虑准确率设计的网络:FPNN,BraidNet,MLFN,Siamese Network

考虑效率设计的网络:OSNet

2、基于深度度量学习的方法(重在loss函数取用或采样策略)

2.1、损失函数设计

身份损失、验证损失和三元组损失

2.1.1、ID loss

将ReID训练过程看做图像分类问题。不同ID看作为一个不同类,给定图片 x i x_i xi和标签 y i y_i yi,预测 x i x_i xi被识别为 y i y_i yi类别的概率为 p ( y i ∣ x i ) p(y_i|x_i) p(yixi),那么损失函数就是CE loss。
L i d = − 1 n ∑ i = 1 n log ⁡ ( p ( y i ∣ x i ) ) \mathcal{L}_{i d}=-\frac{1}{n} \sum_{i=1}^{n} \log \left(p\left(y_{i} \mid x_{i}\right)\right) Lid=n1i=1nlog(p(yixi))
n代表每个批次训练样本的数量。

加入的策略有:

  • 难分负例挖掘
  • softmax变体
  • 标签平滑策略

2.1.2、Verification loss

使用对比损失和二元验证损失来优化成对关系,是将ReID训练看做是图像匹配问题

1、其中对比损失改进了相对成对距离对比,由下面公式表示:
L con  = ( 1 − δ i j ) { max ⁡ ( 0 , ρ − d i j ) } 2 + δ i j d i j 2 \mathcal{L}_{\text {con }}=\left(1-\delta_{i j}\right)\left\{\max \left(0, \rho-d_{i j}\right)\right\}^{2}+\delta_{i j} d_{i j}^{2} Lcon =(1δij){max(0,ρdij)}2+δijdij2
d i j d_ij dij代表两个样本 x i x_i xi y i y_i yiembedding向量之间的欧几里得距离, δ i j \delta_{ij} δij是一个二值标签指示( δ i j = 1 \delta_{ij}=1 δij=1代表两个样本属于同一个ID), ρ \rho ρ是裕度参数。

2、二元验证损失:区分输入图像对的正负性,通过 f i j = ( f i − f j ) 2 f_{ij}=(f_i-f_j)^2 fij=(fifj)2来获得微分特征 f i j f_{ij} fij,这里 f i f_i fi f j f_j fj是两个样本 x i x_i xi y i y_i yi的embedding特征,验证网络将微分特征分类进正样本或负样本,使用 p ( δ i j ∣ f i j ) p(\delta_{ij}|f_{ij}) p(δijfij)代表输入样本对( x i x_i xi x j x_j xj)被识别为 δ i j \delta_{ij} δij的概率。则验证损失是CE loss:
L veri  ( i , j ) = − δ i j log ⁡ ( p ( δ i j ∣ f i j ) ) − ( 1 − δ i j ) log ⁡ ( 1 − p ( δ i j ∣ f i j ) ) \mathcal{L}_{\text {veri }}(i, j)=-\delta_{i j} \log \left(p\left(\delta_{i j} \mid f_{i j}\right)\right)-\left(1-\delta_{i j}\right) \log \left(1-p\left(\delta_{i j} \mid f_{i j}\right)\right) Lveri (i,j)=δijlog(p(δijfij))(1δij)log(1p(δijfij))
注:验证损失经常和ID损失结合起来

2.1.3、Triplet loss

将ReID训练过程看作为一个检索排序问题,基本思想是正样本对的距离应该比负样本对距离笑一个预定义的余量。通常三元组包含一个锚样本 x i x_i xi,一个与锚有相同ID的正样本 x j x_j xj,一个与锚不同ID的负样本 x k x_k xk,那么带有余量参数的三元组损失为:
L t r i ( i , j , k ) = max ⁡ ( ρ + d i j − d i k , 0 ) \mathcal{L}_{t r i}(i, j, k)=\max \left(\rho+d_{i j}-d_{i k}, 0\right) Ltri(i,j,k)=max(ρ+dijdik,0)
其中 d ( ⋅ ) d(·) d()是衡量两个样本的欧氏距离。

问题:当直接优化上面的三元组损失,那么大量易分三元组将主导训练,导致分辨能力受限。
解决:设计信息丰富的三元组挖掘策略,思想是选择信息丰富的三元组,如引入带权重约束的适度正样本挖掘,直接优化了特征差异。
优化:为丰富三元组监督,还开发了四元组,包含一个锚样本、一个正样本、两个挖掘的负样本。采用了基于余量的OHNM,优化四元组会带来更小的类内变化和更大的类间变化。

注:三元组损失和ID损失组合是当前ReID模型流行的方案,因为这两部分杜宇区分性特征表示学习是互利的。

2.1.4、OIM loss

使用内存库方案设计的在线实例匹配损失,内存库 [ v k , k = 0 , 1 , . . . , c ] [v_k,k=0,1,...,c] [vk,k=0,1,...,c]包含了存储的实例特征,c表示类编号,OIM损失如下:
L o i m = − 1 n ∑ i = 1 n l o g e x p ( v i T f i / τ ) ∑ k = 1 c exp ⁡ ( v k T f i / τ ) \mathcal{L}_{o i m}=-\frac{1}{n} \sum_{i=1}^{n} log \frac{exp (v_{i}^{T} f_{i} / \tau)}{\sum_{k=1}^{c} \exp (v_{k}^{T} f_{i} / \tau)} Loim=n1i=1nlogk=1cexp(vkTfi/τ)exp(viTfi/τ)
这里 v i v_i vi代表类别 y i y_i yi相应的内存特征, τ \tau τ是控制相似空间的温度参数, v i T f i v_{i}^{T} f_{i} viTfi衡量了在线实例匹配的分数,无监督域的自适应ReID也采用此方案。

2.2、训练策略

**批采样策略在区分性Re-ID模型学习中起着重要作用。**每个ID的带标注训练图像的数量差异很大,严重不平衡的正负样本对增加了训练策略设计的难度。

处理不平衡问题最常用的训练策略是ID采样,对于每个训练批次,随机选择一定数量的ID,然后从每个选定的ID中采样多幅图像。这种批量采样策略保证了信息丰富的正负例挖掘。

自适应采样是调整正样本和负样本平衡的常用方法,如采样率学习SRL,课程采样。另一种方法是样本重加权,使用样本分布或相似度差异来调整样本权重。

为了自适应地组合多个损失函数,多损失动态训练策略自适应地重新加权ID损失和三元组损失,提取它们之间共享的适当分量。这种多损失培训策略可带来一致的性能增益。

3、基于排序优化的方法(重在优化检索排序列表)

在测试阶段,排序优化对提高检索性能起着至关重要的作用。给定初始排序列表,它可以通过自动gallery到gallery的相似性挖掘或人机交互来优化排序顺序。排序/度量融合是另一种常用的方法,用多个排序列表输入来提高排序性能。

3.1、重排序

思想是利用gallery到gallery的相似性去优化初始的排序列表。

行人重识别综述_第7张图片
图1.5:重排序过程

3.1.1、自适应性Query

考虑到Query的差异,有方法设计了Query自适应检索策略,还有人提出了使用局部保持投影的Query自适应重排序方法,还有提出在线局部度量的自适应方法,通过为每个检测挖掘负样本来学习严格的局部度量。

3.1.2、人机交互

用人的反馈来优化排序列表,在重排序过程中提供了可靠的监督信息(2013年论文);还有提出混合的人机增量学习模型,从人的反馈中累积学习从而提高ReID排序的实时性能(2016年论文)。

3.2、排序融合

利用不同方法获得的多个排序列表来提高性能。

4、数据集和评估方法

4.1、数据集和评估度量

4.1.1、数据集

  • 封闭世界图像数数据集:VIPeR,iLIDS,GRID,PRID2011,CUHK01~03,Market-1501,DukeMTMC,Airport,MSMT17。
  • 封闭世界视频数据集:PRID-2011,iLIDS-VID,MARS,Duke-Video,Duke-Tracklet,LPW,LS-VID
行人重识别综述_第8张图片
图1.6:一些重要大型数据集属性

数据集全面参考

4.1.2、评估度量

精度度量

  • Cumulative Matching Characteristics (CMC)。CMC-k即Rank-k 匹配精度,表示正确匹配出现在排名前 k 的检索结果中的概率。 当每个Query只存在一个GT时,CMC 是准确的,因为它只考虑评估过程中的第一个匹配项。 然而gallery通常包含大型相机网络中的多个GTs,CMC不能完全反映模型跨多个相机的可辨别性。

  • mean Average Precision (mAP)。衡量了多个GT的平均检索性能。 它最初广泛用于图像检索。 对于 Re-ID 评估,它可以解决两个系统在搜索第一个GT时表现相同的问题,但对于其他硬匹配具有不同的检索能力。

效率度量

  • FLOPs
  • 网络参数大小

4.2、SOTA

4.2.1、基于图像的ReID

基于图的SOTA:PCB,MGN,PyrNet,Auto-ReID,ABD-Net,BagTricks ,OSNet,DGNet,SCAL ,MHN,P2Net,BDB,SONA,SFT,ConsAtt ,DenseS ,Pyramid,IANet,VAL

局部特征学习和注意力机制对ReID有益。

**数据集规模不断增大、环境复杂、训练样本有限,仍有很大的改进空间。**例如,最新发布的MSMT17数据集的Rank-1的准确率(82.3%)和mAP(60.8%)远低于Market-1501(Rank1:96.2%和mAP:91.7%)和DukeMTMC(Rank1:91.6%和mAP:84.5%)。在其他一些训练样本有限的具有挑战性的数据集上(如GRID和VIPeR)性能仍然很低。此外Re-ID模型通常在跨数据集评估中受到严重影响,并且在对抗性攻击下性能会急剧下降。我们乐观地认为,随着可辨别性、鲁棒性和可推广性的提高,ReID将有重大突破。

行人重识别综述_第9张图片
图1.7:基于图的SOTA性能对比

4.2.2、基于视频的ReID

基于视频的SOTA:CoSeg,GLTR,STA,ADFD,STC ,DRSA,Snippet ,ETAP,DuATM,SDM,TwoS,ASTPN,RQEN,Forest,RNN,IDEX

空间和时间模型、注意力机制、用同一个视频序列的多个帧填补遮挡区域对视频特征表示学习很重要。

**在数据集上性能已达饱和,但是在具有挑战性的案例上仍然有大的提升空间。**例如,在新的视频数据集LS-VID上,GLTR的Rank1精度/mAP仅为63.1%/44.43%,而GLTR可以在其他四个数据集上实现SOTA或至少相当的性能。LS-VID包含了更多的ID和视频序列,这为基于视频的Re-ID的未来突破提供了一个具有挑战性的基准。

行人重识别综述_第10张图片
图1.8:基于视频的SOTA性能对比

二、Open-World方法

1、异构ReID

1.1、基于深度的ReID

深度图捕捉到的是人体的形状和骨骼信息,解决光照/衣着改变的情境下的ReID问题,对个性化人机交互的应用也很重要。

《Recurrent attention models for depth-based person identification》:提出基于注意力机制的深度ReID模型,在强化学习框架下将CNN和递归神经网络相结合,识别人体小且有区别的局部区域。

《Reinforced temporal attention and split-rate transfer for depth-based person reidentification》:利用大型RGB数据集设计一种分割率的RGB到深度转换方法,该方法弥补了深度图像和RGB图像之间的差距,该模型进一步结合了时间注意机制,以增强深度Re-ID的视频表示。

《Robust depth-based person re-identification》和《Re-identification with rgb-d sensors》将RGB信息和深度信息结合起来去提高ReID性能,解决衣着改变问题。

1.2、文本到图像的ReID

解决了文本描述和RGB图像之间的匹配问题,当无法获得Query人的视觉图像时这是必须的,并且只能交替提供文本描述。

《Person search with natural language description》:带有递归神经网络的门控神经注意模型学习文本描述和人物图像之间的共享特征,这将使得能够在文本到图像行人检索中做端到端训练。

《Improving deep visual representation for person reidentification by global and local image-language association》:提出了一种全局鉴别图像-语言的关联学习方法,在重建过程中捕获ID鉴别信息并局部重建图像-语言关联。

《Deep cross-modal projection learning for image-text matching》:交叉投影学习方法还通过图像到文本的匹配学习共享空间。

《Deep adversarial graph attention convolution network for text-based person search》:利用图关系挖掘,设计了一个深度对抗图注意卷积网络。

文本描述和视觉图像之间的巨大语义差距仍然是一个挑战。同时,如何将文本与手绘素描图像相结合,也是今后值得研究的问题。

1.3、可见红外ReID

解决白天可见光和夜间红外光图像之间的跨模态匹配问题。在低光照条件下,这是必须的,因为只有红外光才能捕捉到图像。

《Rgb-infrared cross-modality person re-identification》:提出了一个深度零填充框架,以自适应地学习模态共享特征。

《Bi-directional center-constrained top-ranking for visible thermal person reidentification》和《Hierarchical discriminative learning for visible thermal person re-identification》:引入了双流网络来建模模态可描述和特定信息,同时解决模态内和跨模态变化。

《Hsme: Hypersphere manifold embedding for visible thermal person re-identification》:跨模态共享嵌入学习

《Visible-infrared person reidentification via homogeneous augmented tri-modal learning》:分类器级别差异研究。

《Learning to reduce dual-level discrepancy for infrared-visible person re-identification》和《Rgbinfrared cross-modality person re-identification via joint pixel and feature alignment》:采用GAN技术生成跨模态人体图像,以减少图像和特征层面的跨模态差异。

《Hi-cmd: Hierarchical cross-modality disentanglement for visible-infrared person reidentification》:建模了层次交叉模态分离因子。

《Dynamic dual-attentive aggregation learning for visible-infrared person reidentification》:提出了一种双注意聚合学习方法,以捕获多级关系。

1.4、跨分辨率ReID

解决低分辨率和高分辨率图像之间进行匹配的问题。

《Multi-scale learning for low-resolution person re-identification》和《Resource aware person reidentification across multiple resolutions》:解决了较大的分辨率变化问题。

《Cascaded sr-gan for scale-adaptive low resolution person re-identification》:以级联方式生成高分辨率人物图像,并结合ID信息。

《Recover and identify: A generative dual model for cross-resolution person re-identification》:采用对抗式学习技术获得分辨率不变的图像表示。

2、端到端ReID

减轻了对生成BBox额外步骤的依赖,包括从原始图像或视频中重识别以及多摄像头跟踪。

2.1、原始图像/视频中的ReID

要求模型在单个框架中联合执行人员检测和重识别,由于这两个部分的重点不同,因此这是一个挑战。

《Person re-identification in the wild》:提出了一个两阶段的框架,并系统地评估了人员检测对后期人员重识别的益处和局限性。

《Joint detection and identification feature learning for person search》:设计了一个端到端的人员搜索系统,使用单个CNN进行联合人员检测和重识别。

《Neural person search machines》:开发了一种神经人员搜索机,通过充分利用query和检测到的候选区域之间的上下文信息,递归提炼搜索区域并定位目标人员。

《Learning context graph for person search》:在图学习框架中学习上下文实例扩展模块,以改进端到端的人员搜索。

《Query-guided end-to-end person search》:使用Siamese挤压和激励网络开发了一个query引导的端到端人员搜索系统,通过query引导的region proposal生成来捕获全局上下文信息。

《Re-id driven localization refinement for person search》:引入了一种具有区分性ReID特征学习的定位提炼方案,以生成更可靠的BBox。

《Deep reinforcement learning attention selection for person re-identification》:一种身份鉴别注意强化学习(IDEAL)方法为自动生成的BBox选择信息丰富区域,提高了ReID性能。

《Spatiotemporal person retrieval via natural language queries》:研究了一个更具挑战性的问题,即从带有文本描述的原始视频中搜索人员。提出了一种结合时空人员检测和多模式检索的多阶段方法。

2.2、多摄像头跟踪

《Multiple people tracking by lifted multicut and person re-identificatio-n》:针对多人跟踪,提出了一种基于图的公式来链接人员假设,其中,整个人体的整体特征和身体姿势布局被组合为每个人的表示。

《Features for multi-target multi-camera tracking and re-identification》:通过难ID挖掘和自适应加权三元组学习来学习多目标多摄像头跟踪与人员识别之间的相关性。

《Locality aware appearance metric for multi-target multi-camera tracking》:提出了一种同时具有摄像机内和摄像机间关系建模的位置感知外观度量(LAAM)。

3、半监督和无监督ReID

3.1、无监督ReID

3.1.1、早期无监督ReID

早期无监督ReID主要学习不变组成,分别是:

《Person re-identification by unsupervised l1 graph learning》:字典

《Stepwise metric promotion for unsupervised video person re-identification》:度量

《Unsupervised salience learning for person re-identification》:显著性,

这导致有限的可辨别性或可伸缩性。

3.1.2、深度无监督方法

《Dynamic label graph matching for unsupervised video re-identification》和《Unsupervised person re-identification: Clustering and fine-tuning》:跨摄像头标签估计较流行的方法。

《Dynamic graph co-matching for unsupervised video-based person reidentification》:动态图匹配(DGM)将标签估计描述为一个二分图匹配问题。

《Exploiting global camera network constraints for unsupervised video person reidentification》:为了进一步提高性能,利用全局摄像机网络约束进行一致匹配。

《Stepwise metric promotion for unsupervised video person re-identification》:通过逐步度量提升逐步挖掘标签。

《Robust anchor embedding for unsupervised video person re-identification in the wild》:一种鲁棒的锚嵌入方法迭代地将标签分配给未标记的轨迹,以扩大锚视频序列集。通过估计的标签,可以应用深度学习来学习ReID模型。

3.1.3、端到端无监督方法

《Unsupervised person re-identification: Clustering and fine-tuning》:介绍了迭代聚类和ReID模型学习。

《Hierarchical clustering with hard-batch triplet loss for person re-identification》:在层次聚类框架中利用样本之间的关系。

《Unsupervised person re-identification by soft multilabel learning》:软多标签学习从参考集中挖掘软标签信息,用于无监督学习。

《Unsupervised person reidentification by deep learning tracklet association》:轨迹关联无监督深度学习(TAUDL)框架联合进行摄像机内轨迹关联,并建模摄像机间轨迹关联。

《Unsupervised person reidentification by camera-aware similarity consistency learning》:在从粗到细的一致性学习方案中还提出了一种无监督的摄像头感知相似性一致性挖掘方法。

《Unsupervised graph association for person re-identification》:摄像机内挖掘和摄像机间关联应用于图关联框架中。

《Transferable joint attribute-identity deep learning for unsupervised person re-identification》:语义属性也被采用在可转移联合属性ID深度学习(TJAIDL)框架中。

然而,使用新的未标记数据来更新模型仍然具有挑战性。

3.1.4、局部特征级表示方法

基于挖掘局部的标签信息比挖掘整个图像的标签信息更容易的这样一个观察结果。

《Patch-based discriminative feature learning for unsupervised person re-
identification》:旨在通过挖掘mini patch级相似性来学习区分性面片特征。

《Self-similarity grouping: A simple unsupervised cross domain adaptation approach for person re-identification》:自相似分组方法(SSG)以自定步调的方式迭代地进行分组(利用全局身体和局部部位的相似性进行伪标记)并重新识别模型训练。

3.1.5、半/弱监督ReID

《One-shot metric learning for person reidentification》:在标签信息有限的情况下,提出了一种一次性度量学习方法,该方法结合了深度纹理表示和颜色度量。

《Exploit the unknown gradually: One-shot video-based person reidentifica-tion by stepwise learning》:提出了一种基于视频的Re-ID的逐步单次学习方法(EUG),从未标记的轨迹中逐步选择一些候选项,以丰富标记的轨迹集。

《Learning person re-identification models from videos with weak supervision》:多实例注意力学习框架使用视频级标签进行表征学习,减轻了对完整标注的依赖。

3.2、无监督域适应

《Domain transfer support vector ranking for person re-identification without target camera label information》:无监督域适应(UDA)将标记过的源数据集上的知识转移到未标记目标数据集上。由于源数据集中的较大域转移和强大的监督,它是另一种流行的无监督ReID方法,无需目标数据集标签。

3.2.1、目标图像生成

使用GAN生成将源域图像转换为目标域样式是UDA ReID的常用方法。通过生成的图像,可以在无标签的目标域中进行监督ReID模型学习。

《Person transfer gan to bridge domain gap for person re-identification,” in CVPR》:提出了一种人员转移生成对抗网络(PTGAN),将知识从一个有标签的源数据集转移到没有标签的目标数据集。

《Imageimage domain adaptation with preserved self-similarity and domain-dissimilarity for person re-identification》:通过一个保留相似性的生成对抗网络(SPGAN)来训练保留的自相似性和域相异性。

《Generalizing a person retrieval model hetero-and homogeneously》:一种异同学习方法HHL同时考虑了同质学习的摄像头不变性和异质学习的域连通性。

《Adaptive transfer network for cross-domain person re-identification》:自适应传输网络将自适应过程分解为某些成像因素,包括照明、分辨率、相机视图等。该策略提高了跨数据集的性能。

《Sbsgan: Suppression of inter-domain background shift for person re-identification》:试图抑制背景偏移,以最小化域偏移问题。

《Instance-guided context rendering for cross-domain person re-identification》:设计了一种实例引导的上下文呈现方案,将源域中的个人ID转移到目标域中的不同上下文中。

《Cross-dataset person re-identification via unsupervised pose disentanglement and adaptation》:添加了姿势解开纠缠方案以改进图像生成。

《Mutual mean-teaching: Pseudo label refinery for unsupervised domain adaptation on person reidentification》:制定了一个共同的mean-teacher学习方案。

对于实际的大规模变化的环境,图像生成的可扩展性和稳定性仍然具有挑战性。

《Domain adaptation through synthesis for unsupervised person re-identification》:生成具有不同照明条件的合成数据集,以模拟真实的室内和室外照明。

《Surpassing real-world source training data: Random 3d characters for generalizable person re-identification》:合成的数据集增加了模型学习的泛化性,并且无需额外监督即可轻松适应新数据集。

3.2.2、目标域监督挖掘

有些方法直接从源数据集中使用经过良好训练的模型对无标签的目标数据集进行监控。

《Invariance matters: Exemplar memory for domain adaptive person reidentification》:样本记忆学习方案考虑了三种不变线索作为监督,包括样本不变性、相机不变性和邻域不变性。

《Generalizable person re-identification by domain-invariant mapping network》:域不变映射网络(DIMN)为域转移任务制定了元学习管道,并在每个训练集对源域的子集进行采样,以更新内存库,增强了可伸缩性和可辨别性。

《A novel unsupervised camera-aware domain adaptation framework for person re-identification》:将相机视图信息作为监视信号应用,以减小域间隙。

《Self-training with progressive augmentation for unsupervised cross-domain person re-identification》:一种渐进式增强的自训练方法联合捕获目标数据集上的局部结构和全局数据分布。

《Self-paced contrastive learning with hybrid memory for domain adaptive object re-id》:开发了一种具有混合记忆的自定步调对比学习框架,并取得了巨大成功,该框架可以动态生成多级监控信号。

《Unsupervised cross-dataset person re-identification by transfer learning of spatial-temporal patterns》:时空信息也被用作TFusion中的监督信息。TFusion使用贝叶斯融合模型将源域中学习到的时空模式转移到目标域。

《Interpretable and generalizable person re-identification with query-adaptive convolution and temporal lifting》:开发适应Query卷积(QAConv)是为了提高跨数据集的准确性。

3.3、无监督ReID的SOTA

行人重识别综述_第11张图片
图2.1:无监督方法的SOTA性能对比

结论:

  • 无监督方法和监督方法的差距显著缩小了,但是差距仍很大

  • 现存无监督方法可提升的点有:①注意力机制还没有广泛用于无监督;②目标域图像生成在某些方法下是有效的,但是还没用在PAST和SSG两个最好的方法上;③在目标域的训练过程中用有标注的源数据对于跨数据集学习是有益的,这种方法也没用到PAST和SSG上。

4、对噪音鲁棒的ReID

由于数据收集和标注困难问题,ReID通常会受到噪声影响。从三个方面对噪声鲁棒性Re-ID进行了总结:具有严重遮挡的部分Re-ID,由检测或跟踪错误引起的样本噪声Re-ID,以及具有标注错误引起的标签噪声的Re-ID。

4.1、部分ReID

《Partial person re-identification》:解决了严重遮挡的ReID问题,即只有部分人体可见。

《Deep spatial feature reconstruction for partial person re-identification: Alignment-free approach》:采用全卷积网络,为不完整的人物图像生成固定大小的空间特征图。进一步引入深度空间特征重构(DSR),利用重构误差避免显式对齐。

《Perceive where to focus: Learning visibility-aware part-level features for partial person re-identification》:设计了一种可见性感知零件模型(VPM),以提取可共享的区域级特征,从而抑制不完整图像中的空间错位。

《Foreground-aware pyramid reconstruction for alignment-free occluded person re-identification》:前景感知金字塔重建方案试图从未包含的区域中学习。

《Pose-guided feature alignment for occluded person re-identification》:姿势引导特征对齐(PGFA)利用姿势标志从遮挡噪声中挖掘区分性部分信息。

由于严重的部分错位、不可预测的可视区域和分散注意力的非共享身体区域,这仍然是一个挑战。同时,如何针对不同的Query自适应地调整匹配模型还需要进一步研究。

4.2、带样本噪音的ReID

这是指由不良检测/不准确跟踪结果引起的人物图像或包含外围区域/帧的视频序列的问题。

《Spindle net: Person reidentification with human body region guided feature decomposition and fusion》、《A pose-sensitive embedding for person re-identification with expanded cross neighborhood re-ranking》:为了处理人图像中的边缘区域或背景杂波,利用姿势估计线索

《Mask-guided contrastive attention model for person re-identification》、《Unsupervised salience learning for person re-identification》、《Deep reinforcement learning attention selection for person re-identification》:加入注意线索。其基本思想是在最终的整体表示中抑制噪声区域的贡献。

《Robust anchor embedding for unsupervised video person re-identification in the wild》:对于视频序列,集级特征学习是常用的方法,以减少噪声帧的影响。

《Video person re-identification with competitive snippet-similarity aggregation and co-attentive snippet embedding》:对于视频序列,帧级重加权也是常用的方法,以减少噪声帧的影响。

《Vrstc: Occlusion-free video person re-identification》:利用多个视频帧自动填充遮挡区域。

预计未来会有更多特定领域的样本噪声处理设计。

4.3、带有标签噪音的ReID

《Unlabeled samples generated by gan improve the person re-identification baseline in vitro》:采用标签平滑技术来避免标签过度匹配问题。

《Robust person re-identification by modelling feature uncertainty》:提出了一种对特征不确定性进行建模的分布网(DNet),用于针对标签噪声进行鲁棒的ReID模型学习,减少具有高特征不确定性的样本的影响。

《Purifynet: A robust person reidentification model with noisy labels》:与一般分类问题不同,鲁棒ReID模型学习受到每个ID的有限训练样本的影响。

此外,未知的新ID为鲁棒ReID模型学习增加了额外的困难。

5、开放集ReID

《Towards unsupervised open-set person re-identification》、《Fast open-world person re-identification》:开放集Re-ID通常被表述为一个人员的验证问题,即区分两个人物图像是否属于同一ID。验证通常需要一个学得的条件 τ \tau τ,即 s i m ( q u e r y , g a l l e r y ) > τ sim(query,gallery)>\tau sim(query,gallery)>τ

《Towards open-world person re-identification by one-shot group-based verification》、《Towards unsupervised open-set person re-identification》、《Fast open-world person re-identification》:早期的研究设计了手工的系统。

《Adversarial open-world person re-identification》:对深度学习方法,提出了一种对抗性行人重识别(APN),它联合学习GAN模块和ReID特征提取器。这种GAN的基本思想是生成真实的类似目标的图像(冒名顶替者)并强制使特征提取器对生成的图像攻击具有鲁棒性。

《Robust person re-identification by modelling feature uncertainty》:研究了建模特征的不确定性。

但是要实现较高的真目标识别率并保持较低的假目标识别率仍然是一个相当具有挑战性的问题。

5.1、分组ReID

《Associating groups of people》:旨在将个人与团体而非个人联系起来。

《Group re-identification via unsupervised transfer of sparse features encoding》:早期的研究主要集中在使用稀疏字典学习进行组表示提取。

《Matching groups of people by covariance descriptor》:早期研究也集中在使用协方差描述符聚合进行组表示提取。

《Group reidentification: Leveraging and integrating multi-grain information》:集成了多粒度信息,以完全捕获一组的特征。

《Dotgnn: Domain-transferred graph neural network for group re-identification》:图卷积网络得到应用,将组表示为图。

《Learning context graph for person search》、《Query-guided end-to-end person search》、《Person reidentification with deep similarity-guided graph neural network》:在端到端的人员搜索和个人重新识别中也应用了群体相似度,以提高准确性。

然而,由于群体变异比个体更为复杂,群体识别仍然具有挑战性。

5.2、动态多摄像头网络

《Continuous adaptation of multi-camera person identification models through sparse non-redundant representative selection》、《Temporal model adaptation for person re-identification》、《Active image pair selection for continuous person re-identification》、《Consistent re-identification in a camera network》:动态更新的多摄像头网络是另一个具有挑战性的问题,需要对新摄像头或探头进行模型调整。

《Temporal model adaptation for person re-identification》:引入了一种人在回路的增量学习方法,以更新ReID模型,从而适应不同探测到gallery的表示。早期的研究也将主动学习应用于多摄像头网络中的连续ReID。

《Continuous adaptation of multi-camera person identification models through sparse non-redundant representative selection》:介绍了一种基于稀疏非冗余代表选择的连续自适应方法。

《Unsupervised adaptive re-identification in open world dynamic camera networks》:设计了一种传递推理算法,以利用基于测地线流核的最佳源相机模型。

《Human re-identification in crowd videos using personal, social and environmental constraints》:开放世界的个人ID识别系统集成了密集人群和社会关系中的多种环境约束(如摄像头拓扑结构)。

在实际的动态多摄像头网络中,摄像机的模型自适应和环境因素至关重要。此外,如何将深度学习技术应用于动态多摄像头网络的研究还很少。

三、前瞻:新时期的ReID

1、mINP:ReID的新评估尺度

当目标人员以多个时间戳出现在库集中时,最难正确匹配的排名位置决定了检查员进一步调查的工作量。然而,当前广泛使用的CMC和mAP度量无法评估此属性,如图6所示。为了解决这个问题,设计了一个计算效率很高的度量,即负惩罚(NP),它衡量惩罚以找到最难的正确匹配:
N P i = R i hard  − ∣ G i ∣ R i hard  \mathrm{NP}_{i}=\frac{R_{i}^{\text {hard }}-\left|G_{i}\right|}{R_{i}^{\text {hard }}} NPi=Rihard Rihard Gi

这里 R i h a r d R_i^{hard} Rihard代表最难匹配的排名位置, ∣ G i ∣ |G_i| Gi代表了正确匹配query i的总数,因此NP越小说明该模型性能越好,为与CMC和mAP保持一致,使用INP(NP反操作)。

行人重识别综述_第12张图片
图3.1:相同的CMC下,排名列表1比排名列表2获得更好的AP,但需要付出更多努力才能找到所有正确的匹配项

mINP主要目的是为了衡量Re-ID算法用来找到最难匹配样本所要付出的代价,用来计算所有query的平均INP。
m I N P = 1 n ∑ i ( 1 − N P i ) = 1 n ∑ i ∣ G i ∣ R i hard  \mathrm{mINP}=\frac{1}{n} \sum_{i}\left(1-\mathrm{NP}_{i}\right)=\frac{1}{n} \sum_{i} \frac{\left|G_{i}\right|}{R_{i}^{\text {hard }}} mINP=n1i(1NPi)=n1iRihard Gi
局限性:大型gallery和小型gallery相比,大型gallery的mINP值差异要更小。

2、单模型/跨模态ReID新Baseline

follow的这一篇文章:《A strong baseline and batch normneuralization neck for deep person reidentification》

AGW基线的三个提升元素:

  1. 非局部注意力机制融合:获得所有位置特征的加权和

    z i = W z ∗ ϕ ( x i ) + x i \mathbf{z}_{i}=W_{z} * \phi\left(\mathbf{x}_{i}\right)+\mathbf{x}_{i} zi=Wzϕ(xi)+xi

  2. 广义平均池化的细粒度特征提取: f = [ f 1 ⋯ f k ⋯ f K ] T , f k = ( 1 ∣ X k ∣ ∑ x i ∈ X k x i p k ) 1 p k \mathbf{f}=\left[f_{1} \cdots f_{k} \cdots f_{K}\right]^{T}, f_{k}=\left(\frac{1}{\left|\mathcal{X}_{k}\right|} \sum_{x_{i} \in \mathcal{X}_{k}} x_{i}^{p_{k}}\right)^{\frac{1}{p_{k}}} f=[f1fkfK]T,fk=(Xk1xiXkxipk)pk1

    f k f_k fk代表特征图,K是最后一层的特征图数量, X k \mathcal{X}_k Xk是特征图 k ∈ [ 1 , 2 , . . . , K ] k\in [1,2,...,K] k[1,2,...,K]的W×H大小的激活集, p k p_k pk是池化超参数在反向传播中学习。整个操作当 p k → ∞ p_k \rightarrow \infty pk时近似为最大池化,当 p k = 1 p_k=1 pk=1时近似为平均池化。

  3. 加权正则化三元组损失:baseline共采用两个损失,一个是带有softmax交叉熵的ID损失,还有就是加权正则化三元组损失:

    L w r t ( i ) = log ⁡ ( 1 + exp ⁡ ( ∑ j w i j p d i j p − ∑ k w i k n d i k n ) ) \mathcal{L}_{w r t}(i)=\log \left(1+\exp \left(\sum_{j} w_{i j}^{p} d_{i j}^{p}-\sum_{k} w_{i k}^{n} d_{i k}^{n}\right)\right) Lwrt(i)=log(1+exp(jwijpdijpkwikndikn)),其中 w i j p = exp ⁡ ( d i j p ) ∑ d i j p ∈ P i exp ⁡ ( d i j p ) w_{i j}^{p}=\frac{\exp \left(d_{i j}^{p}\right)}{\sum_{d_{i j}^{p} \in \mathcal{P}_{i}} \exp \left(d_{i j}^{p}\right)} wijp=dijpPiexp(dijp)exp(dijp) w i k n = exp ⁡ ( − d i k n ) ∑ d i k n ∈ N i exp ⁡ ( − d i k n ) w_{i k}^{n}=\frac{\exp \left(-d_{i k}^{n}\right)}{\sum_{d_{i k}^{n} \in \mathcal{N}_{i}} \exp \left(-d_{i k}^{n}\right)} wikn=diknNiexp(dikn)exp(dikn)

2.1、单模态基于图的ReID

行人重识别综述_第13张图片
图3.2:AGW基线上的单模态基于图ReID结构

2.2、跨模态可见红外ReID

行人重识别综述_第14张图片
图3.3:AGW基线上的跨模态可见红外ReID结构

3、调查不足的未决问题

3.1、无控的数据采集

实际复杂环境中数据采集不可控,可能来自不可预测的模态、模态组合或衣着变化数据。

3.1.1、多异构数据

在实际应用中,ReID数据可能从多种不同的模式中捕获,**如人员图像的分辨率变化较大,Query集和Gallery集可能包含不同的模式(可见、热、深度或文本描述),这将导致具多异构的ReID具有挑战性。**一个好的ReID系统将能够自动处理不断变化的分辨率、不同的模式、不同的环境和多个域。

3.1.2、衣着改变数据

在实际的监控系统中,很可能会包含大量换衣服的目标人群。

《Clothing change aware person identification》:CCAN通过分别提取面部和身体上下文表示来解决这个问题。

《When person re-identification meets changing clothes》:与上文想法类似。

《Person re-identification by contour sketch under moderate clothing change》:提出了一种空间极坐标变换(SPT)来学习交叉衣着不变表示。

但是这些论文仍然严重依赖面部和身体外观,这可能在真实场景下是不可用的且不稳定的。可以进一步探索其他线索如:步态、形状来解决这类问题。

3.2、最小化人工标注

无监督学习、主动学习、人机交互提供了解决方案,减轻对人工标注的依赖。

3.2.1、主动学习

《Temporal model adaptation for person re-identification》、《Active image pair selection for continuous person re-identification》:通过人机交互可以很容易地为到达的提供标签,并且可以随后更新模型。

《Exploiting transitivity for learning person re-identification models on a budget》:一个成对子集选择框架通过先构造一个边沿加权的完全k分图,然后将其作为一个无三角形子图最大化问题来求解,从而最大限度地减少了人工标记的工作量。

《Deep reinforcement active learning for human-in-the-loop person re-identification》:沿着上面这条线,一种深度强化主动学习方法迭代地细化学习策略,并训练一个具有human-in -the-loop(HITL)监督的ReID网络。

《Multi-shot pedestrian reidentification via sequential decision making》
:对于视频数据,设计了一种具有顺序决策的可解释强化学习方法。

主动学习在实际的ReID系统设计中至关重要,但在研究界受到的关注较少。此外,新出现的ID非常具有挑战性,甚至对人类来说也是如此。未来有望实现高效的HITL主动学习。

3.2.2、虚拟数据学习

为最小化人工标注提供了一种替代方法。

《Surpassing real-world source training data: Random 3d characters for generalizable person reidentification》:收集了一个合成数据集用于训练,当在这个合成数据集上训练时,它们在现实世界的数据集上取得了有竞争力的性能。

《Domain adaptation through synthesis for unsupervised person re-identification》:生成了一个具有不同照明条件的新合成数据集,以模拟真实的室内和室外照明。

《Dissecting person re-identification from the viewpoint of viewpoint》:收集了一个大规模的合成PersonX数据集,以系统地研究视角对人员ID识别系统的影响。

《Person re-identification in the 3d space》:研究了3D人物图像,从2D图像生成3D身体结构。

然而,如何弥合合成图像和真实数据集之间的差距仍然是一个挑战。

3.3、特殊域/通用架构设计

3.3.1、ReID特定架构(OSNet,Auto-ReID)

通常采用图像分类的架构作为Backbone。

《Svdnet for pedestrian retrieval》、《A strong baseline and batch normneuralization neck for deep person reidentification》:修改了体系结构,以实现更好的Re ID功能。

《Omni-scale feature learning for person re-identification》:设计特定领域的体系结构如OSNet,具有全方位特征学习能力。它在特定尺度上检测小尺度的鉴别特征。OSNet非常轻量级且性能也高。

《Auto-reid: Searching for a part-aware convnet for person re-identification》:随着自动神经架构搜索的发展,预计将有更多特定领域的强大架构来解决特定任务的ReID挑战。

有限的ReID训练样本增加了架构设计的难度。

3.3.2、域泛化ReID(部分级CNN,DIMN)

《Deep metric learning for person re-identification》、《Interpretable and generalizable person re-identification with query-adaptive convolution and temporal lifting》:不同的数据集之间存在很大的域差距。

现有的大多数方法都采用域自适应进行跨数据集训练。更实际的解决方案是学习具有多个源数据集的域泛化模型,这样学习的模型可以在没有额外训练的情况下被推广到新的未知数据集,用于区分性的ReID。

《Cross dataset person re-identification》通过引入部分级CNN框架研究了跨数据集的人员ReID。

《Generalizable person re-identification by domain-invariant mapping network》:域不变映射网络(DIMN)为域泛化ReID设计了元学习pipeline,学习人物图像与其ID分类器之间的映射。

域泛化性对于在未知场景下部署学习到的 Re-ID 模型至关重要。

3.4、动态模型更新

固定模型不适用于实际的动态更新监控系统。为了缓解这一问题,动态模型更新是必要的,要么更新到新域/摄像头,要么使用新收集的数据进行自适应处理。

3.4.1、对新域/摄像头适应的模型

《Domain adaptation through synthesis for unsupervised person re-identification》、《Adaptive transfer network for cross-domain person re-identification》:模型对新领域的适应性作为一个域适应性问题得到了广泛研究。
在实际的动态摄像头网络中,可以将新摄像头临时插入现有的监控系统中。

《Continuous adaptation of multi-camera person identification models through sparse non-redundant representative selection》、《Consistent re-identification in a camera network》:模型自适应对于多摄像机网络中的连续识别至关重要。

《Unsupervised adaptive re-identification in open world dynamic camera networks》:为了使学习到的模型适应新摄像头,设计了一种传递推理算法,以利用基于测地线流核的最佳源相机模型。

然而,当新摄像头新采集的数据具有完全不同的分布时仍然是一个挑战。此外隐私和效率问题也需要进一步考虑。

3.4.2、用新到达的数据更新模型

对于新收集的数据,从头开始训练之前学习的模型是不切实际的。

《Temporal model adaptation for person re-identification》:设计了一种增量学习方法和人机交互。对于深入学习的模型,在整体学习函数中集成了使用协方差损失的加法。

然而,由于深度模型训练需要大量的训练数据,因此这个问题没有得到很好的研究。此外对于模型更新,新到达的数据中未知的新ID很难识别。

3.5、高效模型应用

设计高效且自适应的模型对于解决实际模型部署的可扩展性问题非常重要。

3.5.1、Fast ReID(CSBT,CtF)

《Part-based deep hashing for large-scale person re-identification》:为了快速检索,人们广泛研究了哈希算法以提高搜索速度,近似于最近邻搜索。

《Fast person reidentification via cross-camera semantic binary transformation》:跨相机语义二进制转换(CSBT)将原始高维特征表示转换为紧凑的低维保留ID的二进制代码。

《Faster person reidentification》:开发了一种由粗到精的(CtF)哈希代码搜索策略,补充使用短码和长码。

然而特定领域的哈希算法仍需要进一步研究。

3.5.2、轻量模型

解决可扩展性问题的另一个方向是设计一个轻量级的 ReID 模型。

《Harmonious attention network for person re-identification》、《Omni-scale feature learning for person re-identification》、《Auto-reid: Searching for a part-aware convnet for person re-identification》:研究了修改网络架构以实现轻量级模型。

《Distilled person re-identification: Towards a more scalable system》:模型蒸馏是另一种方法,提出了一种多教师自适应相似性蒸馏框架,该框架从多个教师模型中学习用户指定的轻量级学生模型,而无需访问源域数据。

3.5.3、资源感知ReID(DaRe)

根据硬件配置自适应地调整模型也提供了处理可扩展性问题的解决方案。 《Resource aware person reidentification across multiple resolutions》:Deep Anytime Re-ID (DaRe) 采用简单的基于距离的路由策略来自适应地调整模型,以适应具有不同计算资源的硬件设备。

你可能感兴趣的:(ReID,计算机视觉,人工智能,深度学习)