1. 前言

这是CVPR2017的文章。

2. 介绍

在这篇论文中，作者提出了Disentangled Representation GAN(DR-GAN)。如下图：

Figure 1

如下图是之前的GAN和作者提出的DR-GAN的对比图：

GAN

传统的GAN如图中的(a)所示，G的输入是一个随机向量，产生一个合成的图片。
作者提出了如图中(d)所示，使用一个encoder-decoder结构作为

。encoder

的输入是一个任意姿态的人图片，decoder

的输出时一个目标姿态的合成人脸图片。它的输入有：一张人脸照片，一个姿态编码

，一个随机向量

。编码解码器的连接可以作为学习到的人脸的特征表示。因此，

学习到了输入图片到特征表示的映射。
除此之外，

不仅用于区别真实和合成的图片，同时可以预测人的id和人脸的姿态。

3. 模型

DR-GAN有两个变形，一个basic model，它将一副图片作为输入，称为single-image DR-GAN，另一个是multi-image DR-GAN，它的输入是多个图片。

3.1 GAN

通常情况下GAN包含一个generator ，一个discriminator ，两者在一个问题中进行最大化，最小化的竞争。会尽量区分出真实图片和生成图片，与此同时会尽量生成一个看似真实的图片来欺骗。如下图：

（1）

也就是说

和

分别用下面的公式进行训练：

2,3

3.2 Single-Image DR-GAN

Single-Image DR-GAN和传统的GAN有两处明显的区别

一是它使用一个encoder-decoder结构作为generator来学习人脸图片的identity representation。这个表示就是一个人脸的等价的特征表示，它是encoder的输出，decoder的输入。
二是在人脸识别中，可能存在一些别的特征，例如不同姿态的人脸，因此这个特征可能包含了这些信息。为了应对这种情况，除了将id作为label，还将姿态，亮度等信息作为label。

根据前面所描述的，我们可以对问题进行表述：
给定一张人脸图片：和它的label：，前者为id，后者为姿态。我们的目标是：1.学习一个姿态无关的人脸特征表示，2.合成一张相同id但是不同姿态的人脸图片。并且，这里的是一个多目标的CNN网络，也就是它包含了两个部分：。
也就是说，给定输入人脸图片，会产生它的id和姿态，给定一个生成人脸，会努力预测它为假。如下式：

与此同时，包含了一个encoder, 一个decoder。encoder产生一个输入人脸图片的特征表示：，decoder输出生成的人脸图片：，其中是目标姿态，是噪音。如下式：

的目标就是骗过

，让

把一张生成的图片分类为真实图片。

3.3 Multi-Image DR-GAN

如下图，Multi-Image的是相同的，但是有不同的。

Figure 3

除了提取特征

，还会估计一个信任值confident coefficient：

，来预测学习得到的特征的质量。当有

个输入图片时，它们使用加权和来共同产生一个特征：

(6)

需要注意的是，所有的共享一组参数。

Disentangled Representation Learning GAN for Pose-Invariant Face Recognition