FD-GAN: Pose-guided Feature Distilling GAN for Robust Person Re-identification

github:https://github.com/yxgeee/FD-GAN pytorch

abstract：
问题：姿态变化

常用办法：human alignment ；learn human-region-based representation

缺点：需要额外计算姿态信息

本文：提出Feature Distilling（蒸馏） Generative Adversarial Network，学到的特征是identity-related且pose-unrelated。

2 related work：

[18]中提出了以合成任意姿势的人物图像

3 Feature Distilling Generative Adversarial Network

FD-GAN: Pose-guided Feature Distilling GAN for Robust Person Re-identification_第1张图片

FD-GAN采用了双胞胎网络，包括一个图片编码器，一个图片生成器，一个ID 判别器，一个姿态判别器。对于网络的每一个分支，输入是一个行人图片+一个目标姿态landmark map。图片编码器将图片准成特征。identity verification 分类器指导特征的生成。然鹅，只使用identity verification 分类器会使编码器不仅编码了行人ID信息，还编码了行人姿态信息，导致学到的特征对于姿态比较敏感。为了使其对姿态具有鲁棒性，我们增加了一个图片生成器，它以编码器的特征和目标姿势图为条件。我们的假设是，如果学到的特征是Pose-related和identity-related，就可以用来生成同一个不同姿态的图片。身份判别器和姿态判别器集成在一起以规范图像生成过程。它们都是conditional discriminator，即只判别fake or true，而不是判别到底是哪个人或者哪个姿态。网络促使图像生成器与图像编码器一起用伪造的图像欺骗鉴别器。本文还利用双胞胎结构来最小化两个分支的假图像之间的差异，提出了相同姿势损失 same-pose loss，进一步从输入图像中提取与姿势无关的信息。inference时，只使用图片编码器得到特征，不再使用额外的姿态信息。

FD-GAN: Pose-guided Feature Distilling GAN for Robust Person Re-identification_第2张图片

3.1 Image encoder and image generator

E和G的结构如Fig3.(a)所示。输入图片，E使用resnet-50作为骨干网络将其编码成2048维的特征向量。将特征向量和目标姿态图送入G，生成此人在目标姿态下的图片。目标姿态图是一个18通道的map，每个通道表示一个姿态点的位置，可将其转为类似高斯的热图。通过一个5-block Convolution-BN-ReLU的子网络将其编码成一个128维的姿态特征向量。视觉特征、目标姿态特征、额外的256维度的噪声向量（从标准高斯分布采样得到）被拼接在一起，输入一系列的5 convolution-BN-dropout-ReLU upsampling blocks，得到生成图片。

3.2 Identity verification classifier

设输入两张图片的特征为，表示网络输出的置信度，loss为二元交叉熵损失：

其中C是ground truth，C=1表示是同一个人。

3.3 Image generation with identity and pose discriminators

Identity discriminator 是用来判断是否生成的图片跟输入图片是相同的人。图片生成器想要欺骗身份判别器来确保视觉特征包含足够的identity-related 信息。身份判别器跟身份分类器的结构是相似的Fig3.(c)。但是它的resnet-50网络跟E中的resnet-50网络不共享参数，因为的目的是区分real/fake，而E的目的是学到姿态无关的特征。它俩之间具有domain gap。设输入图片为，生成图片为，表示与输入图像具有相同身份的另一姿态的真实图像，的对抗损失为：

其中分别表示真实的数据分布和生成数据分布。

Pose discriminator

区分生成图片是否跟目标姿态匹配，如Fig3.(d)所示。它使用了PatchGAN的结构。输入图片和姿态图首先在通道维度拼接在一起，然后经过4 convolution-ReLU blocks 和一个 sigmoid函数来得到一个0到1之间的姿态匹配map。此map中的每个位置表示输入图片和每个Landmark的匹配度。图片生成器G尝试欺骗姿态判别器，的对抗损失为：

然鹅我们观察到，姿态判别器可能会过拟合姿态信息，即它会记住特定姿态以及行人外观之间的相关性，因为每个图片的姿态通常是独特的。比如，if we use a blue-top person’s pose as the target pose, the generated image of a red-top person might end up having blue top.为了解决这个问题，我们提出了一种pose map augmentation scheme。训练时，对每个landmark，它的一通道Gaussian-like heat-map是在某个特定范围内的随机高斯带宽获得的。通过这种方式，我们可以为相同的姿势创建许多姿势贴图，并缓解姿势过度拟合问题。

Reconstruction loss.

G不仅是用来迷惑判别器的，也是为了生成图片。然而只使用判别器无法确保生成human-perceivable（可感知的） images。因此使用一个重构误差来最小化生成的图片与真实图片的L1之差，

[18] Ma, L., Jia, X., Sun, Q., Schiele, B., Tuytelaars, T., Van Gool, L.: Pose guided person image generation. In: NIPS. (2017) 405–415

FD-GAN: Pose-guided Feature Distilling GAN for Robust Person Re-identification

你可能感兴趣的:(FD-GAN: Pose-guided Feature Distilling GAN for Robust Person Re-identification)