论文阅读笔记Cross-Modality Paired-Images Generation for RGB-Infrared Person Re-Identification(上)

该篇文章发表于AAAI 2020,系跨模态行人重识别范畴,是用GAN解决ReID问题的一个新的思路。
论文作者信息为:
论文阅读笔记Cross-Modality Paired-Images Generation for RGB-Infrared Person Re-Identification(上)_第1张图片

摘要

由于RGB图像和IR图像之间的较大模态差异,RGB-Infrared行人重识别很有挑战性。解决跨模态ReID的关键,是学习RGB和IR两种模态间的对齐特征。然而由于在每对RGB和IR图像间缺乏对应标签,目前的大部分方法都会尝试利用set-level(集合级别)的对齐来减小模态之间的差异。然而,建立起整个set间的对齐,可能会造成个例间的不对齐,从而限制RGB-IR ReID的性能,因此本文提出了一种生成跨模态配对图像的方法,综合考虑了set-level和instance-level的对齐。

  1. 论文所述方法通过区别开modality-specific和modality-invariant特征(在这里,模态不变特征包括姿势、性别、服装类别、携带的东西等内容信息。模态特定特征有服装/鞋的颜色、质地等风格信息。)来实现set-level的对齐。与传统方法相比,本文直接去除模态特定特征的方式,可有效降低模态间的差异。
  2. 考虑到一个人的跨模态不配对图像,本文方法利用交换的图像来生成跨模态配对图像。利用生成图像,则可通过最小化每对配对图像的距离,来实现instance-level(实例级别)的对齐。

方法动机

论文阅读笔记Cross-Modality Paired-Images Generation for RGB-Infrared Person Re-Identification(上)_第2张图片
set-level和instance-level对齐的说明。(a) RGB集和IR集之间有很大的差距。(b)现有的set-level对齐的方法是尽量减少两个模态之间的距离,这可能导致某些情况下的不对齐。©我们的方法首先生成交叉模态paired-images。(d)通过最小化每一pair的图像之间的距离来实现instance-level对齐。

如figure1(b)所示,他们只关注了整体的set级别的对齐,而忽视了两张图片间细粒度的instance级别的对齐,这将会导致instance的不对齐,进而影响性能。(即使可以通过标签解决这种个例不对齐,但,ReID任务中,train和test数据集的标签是不共享的,因此,简单地匹配训练lable的方式或许无法在测试集中达到理想效果)

引言

不同网络间的对比:
论文阅读笔记Cross-Modality Paired-Images Generation for RGB-Infrared Person Re-Identification(上)_第3张图片
(a)在edge-photo任务中,我们可以得到交叉模态配对图像。通过最小化它们在特征空间中的距离,我们可以很容易地减少跨模态的差距。(b)在RGB-IR Re-ID任务中,我们只有unpaired-images。由跨模态差异引起的外观变化使任务更具挑战性。©本文可以很好地生成与给定图像pair的图像,这有助于我们改进RGB-IR的识别。(d,e) 例如CycleGAN 和StarGAN 未能处理这个问题。

本文方法受到Figure2(a)跨模态配对图像生成之启发,通过配对图像,我们可以直接** 减小配对图像在特征空间的彼此距离 ** 来缩小实例级别的差异。

但是,如Figure2(b)所示,在RGB-IR ReID任务中,所有的图像都是un-paired的,这是因为两种图像分别采集于不同的时间,RGB图像采集于白天,IR图像是在夜里采集的。我们可以利用图像迁移的模型将图像从一个模态迁移至另一模态,例如CycleGAN和StarGAN。但是这些图像迁移模型只能够学习** 一对一 ** 的映射,而从IR迁移至RGB的要求是** 一对多 **的(例如,IR中的灰度图像在RGB中可以是各种颜色)。

在此影响下,CycleGAN和StarGAN通常会生成一些噪声图像,无法应用于ReID任务,即,如Figure2(d,e)所示,CycleGAN和StarGAN生成的图像并不尽如人意。

铺垫了半天,作者开始输出干货

为解决以上问题,论文提出了一种Set-level and Instance-Level Alignment Re-ID(JSIA-ReID) which enjoys several merits

论文阅读笔记Cross-Modality Paired-Images Generation for RGB-Infrared Person Re-Identification(上)_第4张图片

网络架构:

论文阅读笔记Cross-Modality Paired-Images Generation for RGB-Infrared Person Re-Identification(上)_第5张图片
本文提出的框架包括一个跨模态配对图像生成模块G和一个特征对齐模块F。G首先将图像分解成特定模态和不变模态特征,然后解码所交换的特征。F首先使用模态不变编码器进行set-level对齐,然后通过最小化每对图像的距离进一步缩小进行instance-level对齐。最后,通过训练具有ReID loss的两个模块,我们可以同时学习模态对齐和身份识别特征。
如FIgure3所示,本文提出的框架包括一个跨模态配对图像生成模块G和一个特征对齐模块F(去学习集合级别和实例级别的对齐特征),生成模块G包括三个编码器两个生成器 ,三个编码器将两模态间的不变特征独有特征区别开来。然后 解码器 将模态不变特征独有特征作为输入。通过解码across-feature***, 则可以生成Figure2©中那样的跨模态配对图像*。
论文阅读笔记Cross-Modality Paired-Images Generation for RGB-Infrared Person Re-Identification(上)_第6张图片
最后,通过训练具有ReID loss的两个模块,我们可以同时学习模态对齐和身份识别特征。

下篇JSIA-ReID框架的结构与相关概念:

关于JSIA-ReID的详细介绍:

Cross-Modality Paired-Images Generation Module

Features Disentanglement.

Paired-Images Generation.

Reconstruction Loss.

Cycle-Consistency Loss.

GAN loss.

Feature Alignment Module

Set-Level Feature Alignment.

Instance-Level Feature Alignment.

Identity-Discriminative Feature Learning.

你可能感兴趣的:(ReID行人重识别)