论文笔记(一)【 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition】

论文地址:论文

大体分为两部分,第一部分是自己读文章时的记录,第二部分是自己总的感想。

一、论文概述:

1、在摘要中提出了DR-GAN的名字,给出了论文的三个创新点。

(1)通过generator 的encoder-decoder框架学习了生成和判别的表示(representation);

(2)这种表示是从姿态这种人脸变量得出。姿态(pose)代码传输到decoder,姿态的估计(estimation)传给了判别器;

(3)DR-GAN可以输入一张或者多张照片,并且根据随机的合成图片生成统一的表示。

2、根据figure1,在discriminator和generator都可以生成身份标识,可以根据姿态代码生成特定身份的人脸。

endoder输入的是任意角度的人脸,decoder合成目标角度的人脸。G起到了人脸旋转的作用。D不仅比较真实图片和合成图片,而且输出身份和角度。因此,G需要做到:(1)旋转的图片跟输入的图片的身份一样;(2)学到的表示应该更具有多样性。

论文笔记(一)【 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition】_第1张图片

3、在CGAN中,G输入一个随机的噪音来合成图片。在DR-GAN中,G的输入包括人脸图片,姿态条件和噪音。目的是生成相同身份特定角度的人脸(a face of the same identity with the target pose)。在G-encoder中,输入多张不同角度的图片,生成单一身份的表示;在G-decoder中合成具体角度的人脸。

4、在3.2节中,文章给出了两个不同与之前GAN的优点。(1)采用了encoder-decoder框架的生成器。(2)为了避免其他变量的影响,在0-90度过程生成图片过程生成不同身份的人脸,在网络中不仅加入了class label 而且加入了pose和illumination的label。 

5、在3.2.1节中,D是由两部分组成,一部分是用来判别身份,身份数目为训练集身份数目加假的身份(fake class)(Dd ∈ RNd+1 is for identity classification with Nd as the total number of subjects in the training set and the additional dimension is for the fake class.);另一部分是用来判别角度,角度数目为所有角度数目。

  给定一张真实图片,D要估计出它的身份和角度,给定一张从generator合成的图片,D要判断其是假的。

  目标函数为:论文笔记(一)【 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition】_第2张图片

 

6、与此同时,在G中,decoder输入是encoder学到的identity representation和c(target pose)和z(包含了其他的变量影响,the noise modeling other variance besides identity or pose.)

目标函数为:论文笔记(一)【 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition】_第3张图片

7、在G的总结中,提到了三个好处:(1)在encoder学到的f(x)具有更易区分的身份信息。(2)D中的姿态判别器使得G生成的多姿态人脸更准确。(3)pose code加在decoder中,使得encoder学得更多的是身份信息,姿态信息会少一点。

8、网络结构:

论文笔记(一)【 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition】_第4张图片

9、在3.3节Multi-Image DR-GAN中主要讲解了多图片输入的模型,提出了一个confident coefficient ω,来保证最后多张图片学到的表示能融合在一起,ω相当于一个权重。

网络结构在D上没有改变,在G上增加了多个encoder,在decoder的输入上增加了ω的输入。

G的目标函数为:论文笔记(一)【 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition】_第5张图片

10、在具体数据集上的训练。具体为4.1节,在使用Multi-Pie加上了illumination label。

二、感想

1、对数据集的处理很重要,要重新修改以下Multi-pie的数据存储格式,

2、网络结构需要根据文章提出的进行修改,先从单一图片输入网络实现就行。

3、其实考虑的条件不仅仅是pose,而且还有illumination。

你可能感兴趣的:(每周论文笔记)