Joint Discriminative and Generative Learning for Person Re-identification 论文翻译

Joint Discriminative and Generative Learning for Person Re-identification

  • 概要
  • 介绍
  • 相关工作
  • 方法
    • 生成模块
      • 自我身份生成(self-identity generation)
      • 交叉身份生成(cross-identity generation)
      • 讨论(Discussion)
    • 识别模块(Discriminative Module)
      • 基本特征挖掘
      • 细粒度特征挖掘
      • 讨论
    • 优化
  • 实验
  • 实现细节
  • 生成评估
    • 定性评估
    • 定量评估
    • 限制
  • 识别评估
    • 烧蚀研究
    • 超参数的影响
    • 与最新方法比较
    • 结论
  • 附录
    • A 网络结构
    • B 更有识别力的评估
    • C 外观及结构代码
    • D 在结构代码之间插入

概要

由于不同的摄像机内部差异显著,行人重识别仍然保持着挑战性。近年来,越来越多的人对使用生成模型来增加训练数据和增强输入变化的不变性感兴趣。然而,现有方法中的生成管道与有区别的re-id学习阶段相对独立。因此,re-id模型通常以直接的方式对生成的数据进行培训。在本文中,我们试图通过更好地利用生成的数据来改进已学习的re-id嵌入。为此,我们提出了一个联合学习框架,将re-id学习和端到端的数据生成结合起来。我们的模型包括一个生成模块,它将每个人分别编码为一个外观代码和一个结构代码,以及一个与生成模块共享外观编码器的识别模块。生成模块通过切换外观代码或结构代码,生成高质量的cross-id合成图像,在线(实时)反馈给外观编码器,用于改进鉴别模块。提出的联合学习框架在不使用生成数据的情况下比基线有了显著的改进,从而在几个基准数据集上实现了最新的性能。

介绍

行人重识别 (re-id)旨在建立不同相机之间的身份对应关系。它通常被作为一个度量学习问题来处理,在这个问题中,我们试图从给定查询图像的非重叠摄像机中检索包含感兴趣的人的图像。这是一个挑战,因为不同相机拍摄的图像往往包含由背景、视角、人体姿态等变化引起的显著的类内变化。因此,设计或学习能够尽可能抵抗类内变化的表示形式已经成为行人重识别的主要目标之一。
卷积神经网络(CNNs)由于其强大的表示能力和学习不变深度嵌入的能力,近年来在行人识别中日益成为主要的选择。目前最先进的re-id方法广泛地将任务描述为深度度量学习问题,或者使用分类损失作为学习深度嵌入的代理目标。为了进一步减少类内变化的影响,现有的一些方法采用基于部分的匹配或集成来显式地对齐和补偿变化。增强对输入变化的鲁棒性的另一种可能性是让re-id模型在训练期间潜在地“看到”这些变化(特别是类内变化)。伴随最近在生成对抗网络方面取得的进展(GANs),生成模型已经成为免费获取额外的增强数据的很有吸引力的选择。尽管形式不同,但这些方法背后的一般考虑是“真实感”:生成的图像应具有良好的质量,以缩小合成场景与真实场景之间的区域差距,和“多样性”:生成的图像应该包含足够的多样性,以充分覆盖看不见的变化。在此背景下,前人的一些工作探索了无条件GANs以及人类姿势条件GANs来生成行人图像,以提高re-id学习。然而,这些方法背后的一个常见问题是,它们的生成管道通常被表示为独立的模型,这些模型相对独立于有区别的re-id模型。因此,生成模块的优化目标可能与re-id任务不一致,从而限制了生成数据的收益。

Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第1张图片
基于以上观察,我们提出了一个学习框架,在一个称为DG-Net的统一网络中,将区分学习和生成学习结合起来。我们实现这一目标的策略是引入一个生成模块,其中编码器将每个行人图像分解为两个潜在空间:一个外观空间,主要编码外观和其他与身份相关的语义;以及包含几何和位置相关的结构信息以及其他附加变化的结构空间。我们把这个区域的编码特征视为“代码”。 表1总结了这两个潜在空间所捕获的属性。作为一个re-id学习骨干,外观空间也带有识别模块。该设计形成了一个统一的框架,包含了生成模块和判别模块之间的这些交互作用:(1)生成模块生成合成的图像,这些图像被用于在线(实时)细化外观编码器;(2)编码器通过改进的外观编码影响生成模块;(3)给定共享的外观编码器,对两个模块进行联合优化。
我们将图像生成描述为在两个图像之间切换外观或结构代码。对于任何具有相同/不同身份的成对图像,都可以通过操纵代码生成逼真且多样的intra/cross-id组合图像。图1显示一个例子基于Market-1501生成这种组合图像。我们对生成管道的设计不仅可以提供高保真的生成结果,同样由于存在的身份的组合组成,产生了大量的多样性。不像传统的GANs,我们的方法可以有更多高质量的可控的生成。与pose-guided生成不同,我们的方法不需要任何额外的辅助数据,而是利用了现有数据集内部的位姿变化以及位姿之外的其他多样性。

Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第2张图片
这种生成模块的设计对我们识别模块更好的使用生成数据特别的有帮助。对于一个行人图像,通过保持其外观代码,并结合不同的结构代码,我们可以生成仿真图像,它保留服装和鞋子,但改变姿势,视角,背景等。如图1中的每一行所示,这些图像对应于相同的衣服和不同的人。为了更好地捕捉这些合成的cross-id信息,我们引入了基于动态软标记策略的“主要特征学习”。 或者,我们可以保留一个结构代码,结合不同的外观代码生成不同的图像,这些图像可以保持姿势、背景和一些与身份相关的细节,但可以改变衣服和鞋子。如图1的每一列所示,这些图像形成了一个有趣的人物穿着不同衣服和鞋子的模拟。这为进一步挖掘与服装无关的微妙的身份属性创造了机会,如携带、头发、体型等。因此,我们提出了互补的“细粒度特征提取”,以获得额外的微妙的身份属性。
据我们所知,这项工作提供了第一个框架,能够端到端集成鉴别和生成学习在一个单一的统一网络的人的身份。大量的定性和定量实验表明,与现有的算法相比,我们的生成算法具有更好的性能,更重要的是,我们的re-id精度在几个基准上都比其他算法有较大的优势。

相关工作

一大群人的re-id研究集中在度量学习损失上。一些方法将识别损失与验证损失相结合,另一些方法将三重损失应用于困难样采集。最近的一些作品使用行人属性来加强更多的监督和执行多任务学习。备选方案利用行人路线和部分匹配,利用人体结构优先。一种常见的做法是水平分割输入图像或特征图,以利用局部空间线索。类似的方式,姿态估计也被纳入学习局部特征。此外,在[19]中使用了人工解析来增强空间匹配。相比之下,我们的DG-Net仅依赖于简单的识别损失来进行重新学习,不需要额外的辅助信息,比如姿态或人为解析来生成图像。
另一个活跃的研究方向是利用GANs来增加训练数据。在[56],Zheng等人, 首次引进使用无条件GAN由随机向量去生成图片。Huang等人用WGAN继续这个方向,并指定伪标签生成images。Li等人提出了re-id模型与GAN鉴别器之间的权重共享。此外,最近的一些方法利用姿态估计进行条件成像。基于姿态,在[28]中开发了两级生成流水线,用于对生成的图像进行细化。类似地,姿态同样被使用在[10,27,31]生成了行人在不同姿势下的图像,从而使习得的特征更加稳健。Siarohin 等通过使用最近邻损失来代替传统的 或者 损失来取得更好的形态条件下的图像生成。所有的方法设置图片生成和re-id学习都是两个脱节的步骤,而我们的DG-Net端到端集成两个任务到一个统一的网络。同时,最近的一些研究也利用合成数据对行人图像进行风格转换,以弥补源域和目标域之间的差异。CycleGAN [61]在[9,60]中应用于将行人图像样式从一个数据集传输到另一个数据集。在[59]中使用StarGAN [7]生成不同相机风格的行人图像。Bak等人。利用一个游戏引擎使用各种照明条件渲染行人。Wei等人采用语义分割的方法提取前景掩码,辅助风格转换。与全局样式转换相反,我们的目标是操纵外观和结构细节,以促进更健壮的re-id学习。

方法

如图2所示,DG-Net将用于图像生成的生成模块与用于re-id学习的判别模块紧密耦合。我们介绍了两种图像映射:自我身份生成和交叉身份生成,以合成高质量的在线(实时)图像,并将其输入到真实身份学习中。我们的鉴别模块包括主要的特征学习和细粒度的特征挖掘,它们与生成模块共同设计,以更好地利用生成的数据。

Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第3张图片

生成模块

Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第4张图片

公式:我们将实际图像和标识标签分别表示为 ,其中N为图像的数量, 和K表示数据集中的类或标识的数量。给定两个训练集中的实际图像xi 和xj ,我们生成模型通过切换两个图片的外观或结构代码生成一个新的行人图片。如图2所示,生成模块包含一个外观编码器 ,一个结构编码器 ,一个解码器 ,以及一个识别器D,用来区分生成的图像以及真实的图像。在i=j的情况下,生成器也可以为视为一个自动编码器,因此x_i^i≈x_i。注意:对于生成的图像,我们使用上标表示提供外观代码的真实图像,下标表示一个提供结构代码,而真实图像只有下标作为图像索引。与外观编码ai相比,结构编码sj保持了相对的分辨率,以保持几何和位置特性。然而这有可能导致G只能得到一个平凡解,由于在图片生成时只使用sj 而忽略 ai,因为解码器倾向于用更重要的信息来保存特征。在实际应用中, 我们将Es的输入图像转换成灰度,以驱动G同时利用ai和sj。我们实现了生成模块的两个目标:(1) 自身份生成对生成器进行正则化 (2) 交叉身份生成可以使生成的图片可控并且能够匹配真实的数据分布。

自我身份生成(self-identity generation)

Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第5张图片

交叉身份生成(cross-identity generation)

Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第6张图片

讨论(Discussion)

Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第7张图片

识别模块(Discriminative Module)

我们判别模块通过共享外观编码器作为re-id学习的骨干嵌入到生成模块中。针对外观码和结构码转换生成的图像,提出基于特征学习和细粒度特征挖掘的图像特征提取方法,以更好地利用在线(实时)生成的图像。由于这两个任务关注生成的图像的不同方面,我们在外观编码器的顶部为这两种类型的特性学习划分了两个轻量级头文件,如图2(d)所示。

基本特征挖掘

Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第8张图片

细粒度特征挖掘

Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第9张图片

讨论

我们认为我们高质量的合成图像,在自然中,可被视作‘内因’(与异常值相反),因为我们生成的图片维护和重构从真实数据中得到的视觉内容。通过上述两个特征学习的任务,我们识别模块根据我们操作外观代码以及结构代码的方式,对生产的数据进行了具体的利用。取代之前大多数方法所使用的单一监督模式,我们通过基本特征学习和细粒度特征挖掘两种不同的视角来处理生成的图像,前者关注结构不变的服装信息,后者关注外观不变的结构线索。

优化

Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第10张图片

实验

我们评估了以下三个基准数据集上的标准协议:Market-1501[53]、DukeMTMC-reID[32]和MSMT17[46]。我们对生成结果和识别结果进行了定性和定量的比较。大量的实验表明,DG-Net生成的图像更真实、更多样化,同时,在所有基准测试中,它在最近竞争算法的re-id精度上始终表现出较大的优势。
Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第11张图片
Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第12张图片
Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第13张图片

实现细节

Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第14张图片

生成评估

定性评估

我们首先定性地比较了DG-Net和它的两种变体,这两种变体禁止在线(实时)输送和身份监督。如图4所示,没有在线(实时)的输送生成图片给外观编码器,模型有模糊的边缘和不需要的纹理。如果进一步去除身份监督,由于模型不能产生准确的服装颜色或款式,导致图像质量不理想。这清楚地表明,我们的联合识别学习有利于图像的生成。
接下来,我们将整个模型与其他生成方法进行比较,包括一个无条件GAN(LSGAN[29])和三个开源条件GAN(PG2GAN[28]、PN-GAN[31]和FD-GAN[10])。与图3所示相比,LSGAN生成的图像具有严重的人工痕迹以及复刻的图案。FD-GAN容易产生非常模糊的图像,这在很大程度上降低了真实感. PG2-GAN和PN-GAN都以姿态为条件,产生了良好的视觉效果,但仍然包含可视模糊和人工痕迹,尤其是在背景中。相比之下,我们生成的图像在前景和背景上都更真实,更接近真实。
为了更好地理解作为行人表示基础的学习后的外观空间,我们在两个外观代码之间进行线性插值,生成相应的图像,如图5所示。这些插值结果验证了外观空间的连续性,并表明我们的模型能够从空间上概括而不是简单地记忆琐碎的视觉信息。初步研究表明,在保持外观码不变的情况下,我们同样通过在两个结构码之间线性插值来生成图像。有关本研究的更多讨论见附录。然后,我们在图6中的三个基准上展示了生成结果,在图6中,我们发现DG-Net在不同的数据集上都能够生成真实且多样的图像。

定量评估

上述定性观察得到了定量评价的证实。我们使用两个指标:Fr´echet Inception Distance (FID)以及Structural SIMilarity (SSIM) 来分别测量生成图像的真实感和多样性。FID测量生成图片的分布与真实图片的接近程度。它对认为视觉效果比较敏感,因此能指出生成图片的真实性。对于身份条件生成,应用SSIM计算类内相似度,可以反映生成的多样性。如表2所示,我们的方法在真实感和多样性上都明显优于其他方法,这表明我们生成的图像质量很高。值得注意的是,由于转换结构码引入了不同的姿态、搬运、背景等,我们得到了比原训练集更高的SSIM。
Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第15张图片

Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第16张图片
Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第17张图片

限制

我们注意到,由于原始训练集中的数据偏差,我们的生成模块倾向于学习规则纹理(例如条纹和圆点),而忽略了一些罕见的模式(例如衬衫上的logo),如图7所示。

识别评估

Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第18张图片
Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第19张图片

烧蚀研究

我们首先研究了表3中的主特性和细粒度特性。我们以每个原始训练集上的识别损失为基线,训练ResNet50。它还作为基础特征学习的教师模型,对生成的图像进行动态软标记。我们的主要特征在基线的基础上有很大提升。值得注意的是,这些精细的特征不需要使用重要的外观信息,只需要考虑细微id相关线索就可以达到令人印象深刻的准确性。通过结合这两个特性,我们可以进一步提高性能,在Rank@1和mAP中,这三个数据集的性能分别比基线提高了6.1%和12.4%。然后,我们评估了离线生成合成图像后独立学习的这两个特征。这使得我们的Market-1501的mAP为84.4%,低于end-to - end training的mAP为86.0%,说明我们的联合生成训练有利于reid学习。

Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第20张图片
Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第21张图片

超参数的影响

Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第22张图片

与最新方法比较

最后是表4和表5展示了我们的方法与其他先进技术的性能。注意,我们不应用任何后处理,如重新排序[51]或多查询融合[53]。在每个数据集上,我们的方法都获得了最佳的性能。与单独生成图像的方法相比,DG-Net在Market-1501和dukemtmc - reid上的mAP分别获得了8.3%和10.3%的明显收益,说明了该联合学习方法的优越性。此外,我们的框架训练效率更高:我们只使用一个训练阶段来联合生成图像和re-id学习,而其他需要两个训练阶段来依次训练生成模型和re-id模型。在这两个数据集上,DG-Net的性能也比其他非生成方法好很多。对于最近发布的大规模数据集MSMT17,DG-Net性能明显优于第二好的方法,分别为9.0% 对于Rank@1,11.9对于mAP。

结论

在本文中,我们提出了一个联合学习框架,在一个统一的网络中端到端耦合的重新识别学习和图像生成。在区分规则和生成规则之间存在一个在线互动关系,以使两种任务相互受益。我们的两个模块是共同设计的,目的是让re-id学习更好地利用生成的数据,而不是简单地对它们进行培训。在三个基准上的实验表明,我们的方法在图像生成质量和识别精度上都有显著的提高。

附录

A 网络结构

我们提出了一种由外观编码器Ea、结构编码器Es、译码器G和识别器D组成的分布式数据采集网络。正如在文章中所描述的,根据ResNet50对Ea进行修改,我们现在介绍Es、G和D的结构细节。按照GANs中常见的做法,我们主要采用卷积层和剩余块[12]来构造它们。
表6显示了Es的体系结构。在每个卷积层之后,我们应用实例归一化层[42]和LReLU(负斜率设为0.2)。我们还添加了可选的atrous spatial pyramid pooling (ASPP)[5],它包含扩展的卷积,可以用来利用多尺度特性。表7展示了解码器G的结构,它包括几个剩余块,然后是上采样和卷积层。与[16]类似,我们在每个剩余块中插入adaptive instance normalization(AdaIN)层,将Ea生成的外观代码作为AdaIN的动态权重和偏置参数进行集成。我们使用多尺度PatchGAN[61]作为识别器D。给定一个256×128的输入图像,在将其输入到识别器之前,我们将图像按三个不同的尺度进行处理:256×128、128×64、64×32。在每个卷积层之后应用LReLU(负斜率设为0.2)。我们在表8中展示了D的体系结构。

B 更有识别力的评估

为了更全面地评估我们的方法,我们在相对较小的数据集上进一步评估了DG-Net的性能。因此,我们将我们的方法推广到CUHK03-NP[58],与Market-1501[53]、dukemtc - reid[32]和MSMT17[46]相比,CUHK03-NP[58]包含的图像要少得多(平均每人9.6张训练图像)。与表9相比,DG-Net实现了65.6% Rank@1和61.1% mAP。

C 外观及结构代码

由于我们无法定量地证明外观/结构代码的属性,因此本文中的表1用于定性地给出直观的说明。我们设计的Es(一种浅层网络)是的结构空间大体保留了结构化信息,例如人体和物品的位置及几何形状。因此,结构代码主要被使用在保存底层级的位置及几何信息,例如无id关联的姿态和背景信息,以促进图像合成。另一方面,某些结构线索,如包/头发/身体轮廓,明显与身份相关,更容易被识别模块捕获。然而,softmax loss通常过于“懒惰”,无法捕获除了外观特征之外的有用结构信息,因此,对外观代码进行细粒度特征挖掘的目标促进了对结构外id相关语义的挖掘,同时也保证了主功能和细粒度功能之间的补充性质。

D 在结构代码之间插入

图5给出了两个外观码之间线性插值合成图像的例子。这在质量上验证了外观空间的连续性。作为补充研究,我们在保持图9中外观代码不变的情况下,通过在两个结构代码之间线性插值生成图像。这演示了与图5完全相反的设置。正如所料,大多数图像(前景和背景)看起来都不真实。我们的假设是,结构码由浅网提取,包含输入的位置和几何信息。因此,底层特征之间的插值不能保持语义的平滑或一致性。
Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第23张图片
Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第24张图片
Joint Discriminative and Generative Learning for Person Re-identification 论文翻译_第25张图片

你可能感兴趣的:(翻译)