Cross-Modality Person Re-Identification with Generative Adversarial Training

paper

摘要

行人重识别是视频监控系统中的一项重要任务,它可以自动搜索和识别不同摄像机上的人。尽管在RGB相机中已经取得了广泛的REID进展,但研究红外图像和RGB图像之间的REID的工作却很少,这本质上是一个交叉模态问题,在现实场景中广泛遇到。关键的挑战在于两个方面,即缺乏识别信息来在RGB和红外成像设备之间重新识别同一个人,以及难以学习这种大规模交叉成像设备检索的强大指标。在本文中,我们通过提出一种新型的交叉模式生成对抗网络(称为CMgan)来解决上述两个挑战。针对识别信息不足的问题,设计了一种基于前沿生成对抗训练的识别器,从不同的模式中学习识别特征表示。为了解决大规模的跨模态度量学习问题,我们将识别损失和跨模态三重损失结合起来,在最大化实例间的跨模态相似性的同时,将类间模糊性最小化。使用标准的深度神经网络框架,可以对整个CMgan进行端到端的训练。

创新点

针对真实场景和红外场景,作者提出了

  • cmGAN网络,是端到端的,以 DCNN为基本框架。

  • 混合loss,是将 identification loss 和cross-modality triplet loss结合了,目的是将内部识别模糊的类最小化,跨模态相似的类间距最大化。
    Cross-Modality Person Re-Identification with Generative Adversarial Training_第1张图片
    DCNN作为产生器,产生RGB 和IR images的 modality-invariant rep-resentation,这个产生器高级监督和优化两个loss(identification loss 和cross-modality triplet loss)。

  • identification loss 将内部类分离开

  • cross-modality triplet loss 将RGB 和IR间距最小化(如上图featureEmbedding第一个)

  • 混合loss, 是将两者结合的,具体公式如下:
    在这里插入图片描述
    Discriminator作为模态分类器,其中 modality classifier是三层前馈网络,交叉熵作为对抗loss。ID Prediction是 2层全连接。
    Generator输出是 probability distribution of person identifications,也就是Discriminator的输入,它产生Classification loss
    Generator and Discriminator再互相博弈,博弈方法是minimax game,来学习RGB 和IR的discriminative common representation
    Cross-Modality Person Re-Identification with Generative Adversarial Training_第2张图片
    这里的公式(7)(8)为 图最终三个loss的交叉结果—Adversarial Learning。其中公式参数 Ldis是Classification loss,v 是RGB模态,I 是IR 模态。
    Cross-Modality Person Re-Identification with Generative Adversarial Training_第3张图片

你可能感兴趣的:(生成对抗网络,行人重识别)