综述5 | 基于深度学习的行人重识别的展望和研究

参考论文:https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2001.04193

文章目录

    • 1. Re-ID的五个步骤
    • 2. Closed-world
      • 2.1 特征学习(模型方面)
      • 2.2 度量学习(损失函数方面)
      • 2.3 排序优化(匹配方面)
      • 2.4 数据集和评价标准
    • 3. Open-world(研究热点)
      • 3.1 异构数据研究(Heterogeneous Data)
      • 3.2 端到端的研究(End-to-End)
      • 3.3 无监督和半监督的研究(Semi-supervised and Unsupervised)
      • 3.4 噪声鲁棒的Re-ID(Noise-Robust)
      • 3.5 其他开放场景(Open-set Re-ID and Beyond)
    • 4. 未来研究方向

1. Re-ID的五个步骤

  • 数据采集。一般来源于监控摄像机的原始视频数据。
  • 行人框生成。从视频数据中,通过人工方式或者行人检测、跟踪方式将行人从图中裁切出来。
  • 标注训练数据。包含相机标签和行人标签等其他信息。
  • 模型训练。设计模型,让它从训练数据中尽可能挖掘“如何识别不同行人的隐藏特征表达模式”。
  • 检索行人。检验该模型的实际效果。
    综述5 | 基于深度学习的行人重识别的展望和研究_第1张图片

将ReID技术分为 Closed-world 和Open-world 两大子集。Closed-world概括为大家常见的标注完整的有监督的行人重识别方法,Open-world概括为多模态数据,端到端的行人检索,无监督或半监督学习,噪声标注和一些Open-set的其他场景。

Closed-world与Open-world在这五个方面的比较

Closed-world(在固定数据集上的理想研究) Open-world(实际应用研究)
单模数据(图片或者视频) 异构数据(红外摄像头、深度摄像头)
认为标记好的框 端到端的应用,考虑怎样框
已经标记好的 标记费时费力、成本高(无监督、半监督)
标签都是正确的 噪声、错误标签
检索的人一定会出现(Query in Gallery) 行人不一定会在第二个摄像头出现

2. Closed-world

2.1 特征学习(模型方面)

  • 全局特征学习。例:用两个CNN提取两张图片特征,映射到高维空间之后,判断是否为同一个人。2个优化方式:模型的优化(如在最后一层全连接后加一个奇异值分解,优化了深层表达学习的能力)、注意力机制多尺度融合等。
  • 局部特征学习。把一个身体通过一个全局卷积,分成多个部分,每一部分通过一个网络,最后通过全连接层连接起来。这样提取的特征会更丰富,识别率会高一点。
  • 辅助特征学习。用一些其他的信息来辅助我们,提高识别率。语义信息(如将图像通过一个网络提取深层丰富的特征,然后通过不同的全连接提取不同语义相对应的特征,然后与语义一一对比,提高识别率)、视角信息(如先用训练的图片训练得到一个前后左右的视角分类网络,测试的时候先把图片通过分类网络做一下分类,再去同类别的图片里面去找相似的)、其他域信息(如结合人脸检测和姿态颗粒检测,红外。确定了人脸和骨骼的架构,它就去识别库去寻找相同的人脸位置和骨骼架构的图像)、Generation/Augmentation扩充数据数据增强等。
  • 视频特征学习。视频比图片多了时间域,前一帧和后一帧的图片之间是有关联的,在CNN提取特征后面加上一个RNN,联系前后帧的关系。
  • 特定的网络设计。利用Re-ID任务的特性,设计一些细粒度,多尺度等相关的网络结构,使其更适用于Re-ID的场景。

2.2 度量学习(损失函数方面)

早期的度量学习主要是设计不同类型的距离/相似度度量矩阵。深度学习时代,主要包括不同类型的损失函数的设计及采样策略的改进。

(1)损失函数设计

  • 身份损失(Identity Loss): L i d = − 1 n ∑ i = 1 n l o g ( p ( y i ∣ x i ) ) ) L_{id} = - \frac{1}{n}\sum_{i=1}^{n}log(p(y_{i}|x_{i}))) Lid=n1i=1nlog(p(yixi))) 将Re-ID的训练过程当成图像分类问题,同一个行人的不同图片当成一个类别,常见的有Softmax交叉熵损失函数;泛化能力弱一点。
  • 验证损失(Verfication loss):将Re-ID的训练当成图像匹配问题,是否属于同一个行人来进行二分类学习,常见的有对比损失函数(Contrastive loss),二分类损失函数。
  • 三元损失(Triplet loss): L t r i ( i , j , k ) = m a x ( ρ + d i j − d i k , 0 ) L_{tri}(i,j,k) = max(\rho+d_{ij}-d_{ik}, 0) Ltri(i,j,k)=max(ρ+dijdik,0)将Re-ID的训练当成图像检索问题,同一个行人图片的特征距离要小于不同行人的特征距离,以及其各种改进。目前用的最多。
  • OIM损失(OIM loss)

(2)训练策略。自适应的采样方式(样本不均衡,难易程度)以及不同的权重分配策略

2.3 排序优化(匹配方面)

  • 重排序(Re-ranking)。分为两类:Query Adaptive自动查找(对特征进行编码,映射到一个向量,查找最接近的向量);人机互动查找(电脑先排序,人再从感官上去找最像的,利用人的反馈,提高准确率)。
  • 排序融合(Rank Fusion)。利用通过不同方法获得的多个排序列表来提高检索性能。如得到一些排名后,结合图论的方法,选出最匹配的。

2.4 数据集和评价标准

  • Datasets。11个图像数据集、7个视频数据集。
  • Evaluation Metrics。CMC、mAP

3. Open-world(研究热点)

根据Re-ID系统设计的五个步骤,本章节也从以下五个方面介绍:1)多模态数据,所采集的数据不是单一的可见光模态;2)端到端的行人检索(End-to-end Person Search),没有预先检测或跟踪好的行人图片/视频;3)无监督和半监督学习,标注数据有限或者无标注的新场景;4)噪声标注的数据,即使有标注,但是数据采集和标注过程中存在噪声或错误;5)一些其他Open-set场景,查询行人找不到,群体重识别,动态的多摄像头网络等。

3.1 异构数据研究(Heterogeneous Data)

  • 基于深度图像。深度图像可以捕获人体形状和骨骼信息。 结合深度图和RGB图,这提供了在照明/衣服更换环境下进行Re-ID的可能性,另外对于个性化的人机交互应用也很重要。
  • Text-to-Image。前面摄像头拍到行人,会给一个文本的描述,可以通过描述去识别库里寻找符合这些属性的行人图片。利用文字语言描述来搜索特定的行人图像,解决行人图像缺失等问题。
  • 可见-红外光识别(Visible-Infrared)。现在很多摄像头都是红外,可以得到RGB图和红外图IR两种图像。如可以通过两个网络分别提取两种图像特征,最后进行融合。旨在跨模态匹配白天的可见光图像到夜晚的红外行人图像,另外,对于在光线不足只能通过红外热像仪捕获图像的场景,有重要作用。
  • 跨分辨率(Cross-Resolution)。对低分辨的行人进行超分辨。SR-GAN。不同高低分辨率行人图像匹配,旨在解决不同距离摄像头下行人分辨率差异巨大等问题。

3.2 端到端的研究(End-to-End)

  • Re-ID in Raw Images/Videos(在原始视频或图像直接进行行人重识别)。如将行人检测和行人重识别放到同一个网络框架里面。
  • Multi-camera Tracking(多个摄像头跟踪)。

3.3 无监督和半监督的研究(Semi-supervised and Unsupervised)

为了缓解对标注数据的依赖,半监督和无监督/自监督现在成为了当前研究的热点。本文也主要分成两个部分:无监督Re-ID(不需要标注的源域)和无监督域自适应Re-ID(需要标注的源域数据或模型):

  • 半监督。给一定数量的标签,计算其他数据的距离,重新打上标签。

  • 无监督。早期无监督的Re-ID主要学习不变成分,即字典,度量或显着性,这导致有限的可分辨性或可伸缩性。 无监督不给任何标签,通过K-均值聚类等方法,对数据进行分类,再打标签。主要包括一些跨摄像头标签估计的方法(聚类或图匹配等),以及一些其他监督信息挖掘的方法(如local patch相似性等)。

  • 无监督领域自适应(Unsupervised Domain adaptation)。UDA将有标记的源数据集上的知识转移到未标记的目标数据集上。包括一些目标域图像数据生成和一些目标域监督信息挖掘等方式。生成一些新的图片辅助训练,利用风格迁移,把图片的背景更换等;target domain supervision mining,训练一个打标签的网络。

3.4 噪声鲁棒的Re-ID(Noise-Robust)

  • Partial Re-ID:解决行人图像区域部分被遮挡的行人重识别问题。可以把特征图分成一小块一小块。只使用没有遮挡的部分去识别;根据前后帧的图片补上行人缺失的部分。
  • Noise Sample:主要针对行人图像或视频中检测、跟踪产生的错误或偏差。
  • Noise Label:主要针对行人标签标注产生的错误。

3.5 其他开放场景(Open-set Re-ID and Beyond)

  • gallery set 中query 行人没有出现的场景
  • Group Re-ID:行人群体匹配的问题
  • 动态的多摄像头网络匹配等问题

4. 未来研究方向

  • 不可控的数据采集:不确定多种模态混合的Re-ID,而不是固定的模态设置;换装的Re-ID,2020年已经有好几个新的数据集;
  • 减少人工标注依赖:人机交互的主动学习,选择性的标注;从虚拟数据进行学习(Learning from virtual data),如何解决虚拟数据中的domain gap;
  • 面向Re-ID通用网络设计:Domain Generalized Re-ID,如何设计一种在未知场景中也表现优异的模型,如何利用自动化机器学习来设计针对Re-ID任务的网络模型;
  • 动态的模型更新:如何以小的代价将学习好的网络模型微调至新摄像头场景中;如何高效的利用新采集的数据(Newly Arriving Data)来更新之前已训练好的模型;
  • 高效的模型部署:轻量型快速的行人重识别算法设计,自适应的针对不同类型的硬件配置调整模型(比如针对小型的移动手机和大型服务器)。

研究方向:图论、图神经网络

1)在有监督的Re-ID方法中强大的注意力方案很少用于无监督的Re-ID。

2)已经证明目标域图像生成在某些方法中是有效的,但没有在两种最佳方法中应用(PAST [222],SSG [212])。

3)在目标域的训练过程中使用带注释的源数据有利于跨数据集学习,但上述两种方法也未包括在内。

这些观察结果为进一步改进提供了潜在的基础。

最近,何等人。 [229]已经证明,具有大规模无标签训练数据的无监督学习具有在各种任务上胜过有监督学习的能力[230]。 我们期望在未来的无监督Re-ID方面取得一些突破。

画图软件:
omnigraffle

你可能感兴趣的:(跨模态行人重识别,计算机视觉)