论文阅读:Disentangled Representation Learning GAN for Pose-Invariant Face Recognition

ICCV2017的文章,主要使用multi-task的GAN网络来提取pose-invariant特征,同时生成指定pose的人脸。

下载链接:

http://openaccess.thecvf.com/content_cvpr_2017/papers/Tran_Disentangled_Representation_Learning_CVPR_2017_paper.pdf

作者:

Motivation:

对于大pose的人脸识别,现在大家都是两种方案:1 先转正再人脸识别。2 直接学习出一个对pose鲁棒的人脸特征。作者认为,这两个任务如果能够joint起来做,会起到更好的效果。

主要内容:

作者提出了DR-GAN,主要的贡献是:1,在生成人脸图像的同时,能够保持discriminate的信息。2,有一个pose code输入到decoder,使学习到的特征摆脱pose的困扰。3,接受同一个人多张图片的同时输入,每个图片生成一个权重,来综合性地识别视频人脸。

作者设计了如上的DR-GAN的结构。

1,G是encoder-decoder的结构,encoder负责生成一个很general的人脸表示,在这个representation加入随机噪声和pose的指令给decoder,让decoder生成一个指定pose的人脸。

公式中,p表示pose,d表示label信息。G生成的图片让D去正确分类其label和pose。

2,D是一个multi-task的鉴别器,他有三个作用,一是鉴别生成的指定的pose的人脸和真实人脸,二是对生成的人脸进行分类(一共N+1类,多出来的表示不属于训练集的任何一个类),有一个分类loss来preserve生成的人脸的label。三是可以进行人脸pose的分类。

公式中,p表示pose,d表示label信息。训练decoder的时候用真实的人脸训练D的pose分类器。

3,作者对上述进行了扩展,让系统接受多个图片输入:

这样由G自动学习出权重。

结果:

生成的结果:

识别结果:

思考:

这种multi-task的方式很值得借鉴。让decoder生成指定pose的人脸,来保证生成的人脸表示是一个很general的,摆脱了pose的影响,是很好的思路,避免了cycle-GAN可能存在的那种生成的人脸特征其实包含pose信息的缺点。

 

 

你可能感兴趣的:(paper)