paper5:Pose-Guided Photorealistic Face Rotation 2018CVPR

Pose-Guided Photorealistic Face Rotation
姿态引导的真实人脸旋转2018CVPR
一.摘要
背景:
人脸旋转为数据增强和表示学习提供了一种有效而廉价的方法。
两个人脸图像之间存在大的姿态差异使得生成学习问题变成了一种挑战。生成学习工作的重点是灵活的生成任意姿态的image即便是极端的侧脸。
从一张正脸图像生成侧脸图像,从侧脸图像中恢复其正脸图像,视角旋转有x,y,z三个方向,目前的研究中考虑左右偏转。如果从单张图像进行旋转的话,其实是一种无中生有,一对多的病态问题,因此目前人脸旋转存在真实性不高,分辨率较低,身份信息保持较差的问题。随着姿态度的增加,更多的面部表情信息丢失,合成任务变得更加困难
原始人脸图像可能不包含一个受试者的所有像素级信息。人脸合成方法可以生成丢失的像素级信息,但也可能丢失一些身份信息。如果合成的图像能够提高识别精度,那么在合成过程中就可以保存更多的身份信息

TP-GAN的局限性:
采用复杂的结构来保存全局和局部的纹理信息。包括一个全局网络和四个局部patch网络,它的训练和inference非常的耗时。
它的结构和损失设计是针对人脸正面化的,不适用于任意的姿态合成。在现实场景中,任意姿态合成更具有吸引力,因为它具有更多潜在的应用,如人脸编辑和人脸表示学习的数据增强。
全局优先拓扑感知理论指出生物视觉系统对全局拓扑结构非常敏感,人脸五官包含着非常丰富的全局拓扑信息,因此以人脸全局拓扑信息作为一个条件指导整个人脸的过程。
本文创新点:

  1. 针对二维空间中单幅图像的人脸旋转提出了一种方法。提出了一种G(pose-guided)D(couple-agent)的GAN 网络,用于快速生成任意姿态的image。它不仅可以对人脸进行正面识别,还可以将人脸旋转成任意的姿态。
  2. (生成器)landmark heatmap 在generator中作为新的先验信号去合成face image。引入input和target face的landmark heatmap到生成器网络中,提供姿态信息。Target face的landmark heatmap为合成任意姿态提供指导。通过用一个输入(landmark heatmap),代替了TP-GAN网络中的local pathway,大大加快训练和判别速度。
  3. (判别器)提出了一种couple-agent判别器。本质上就是两个独立的判别器,agent 1 判别旋转角度的真实性,agent 2 判断的是拓扑结构的真实性Couple-agent加强了pose-guided生成器合成的任意姿态的face和真实face的判别,促使生成的图像更加的逼真,其次在判别器中它可以作为先验知识,可以提高判别器对于人脸结构的判别性,进而促使生成器生成分辨率较高的图像。
  4. pose-guided生成器对抗couple-agent,通过一个身份保留网络light CNN合成任意姿态的face并用于人脸识别。
  5. CAPG-GAN 进一步利用身份保持损失和总变正则化分别保存身份信息和重构局部纹理。
  6. 在multi-PIE 和LFW数据库上进行定量和定性实验结果表明,本文的人脸旋转方法优于目前最先进的人脸旋转方法。
    总结CAPG-GAN用于任意角度的人脸旋转
    paper5:Pose-Guided Photorealistic Face Rotation 2018CVPR_第1张图片
    二.介绍
    从2015年的CVPR开始,人脸识别主要分为两部分,人脸正面化和水平方向的任意角度旋转加粗样式,之所以将人脸正面化作为一个单独的部分,是因为人脸正面化的过程可以引入对称性约束,从而降低一对多问题的困难。
    解决姿态问题的方法:
    1 .获得姿态不变的embedding
    实现姿态不变embedding的常用的方法是 metric learning。此外,multi-view和multi-posespecific 方法也常用来获取姿态不变特征。
    阻碍:由于大姿态人脸图像的不平衡分布导致的长尾分布,在大姿态变化中实现姿态不变变得很困难。
    2.将人脸图像转化为正脸视图
    通常称为人脸旋转,用深度学习将侧脸图像旋转为正脸图像。
    Recognition via Generation
    无需对识别模型进行再训练,即可直接对合成的正面人脸图像进行识别
    三.损失:
    1.Multi-Scale Pixel-Wise Loss

在生成器解码器的合成图像的最后三个尺度计算像素损失(3232,6464,128*128)
多尺度像素损失可以平滑合成图像,而且对加快优化和重建全局信息至关重要。
在这里插入图片描述
2.Conditional Adversarial Loss
从数据分布中整合先验知识,移除由Multi-Scale Pixel-Wise Loss造成的平滑性,引入了条件对抗损失。
Agent1的对抗损失用于区分从real image pair{Ib,Ia}到合成图像对{I^b,Ia}
在这里插入图片描述
目标:保存位姿信息

Agent2的对抗损失用于区分{I^b,Pb}(合成image和目标pose的heatmap)和{Ib,Pb}(目标pose和目标姿态pose的heatmap)
在这里插入图片描述

目标:重建局部结构信息。
3.Identity Preserving Loss
在上述两种损失的监督下,模型可以生成逼真的人脸图像,但由于缺乏识别信息,这些图像的识别能力较弱,利用identity preserving network Dip去保留合成人脸图像的身份。Dip是特征提取器,可以从合成图像中提取特征并且尽可能的接近从目标图像中提取的特征。它使得相同主题的类间距变得紧凑在embedding space 选择一个预训练的light CNN作为Dip。在Dip的全连接层和最后一个池化层的输出定义identity preserving loss:
在这里插入图片描述
4.Total Variation Regularization
通常,由GAN模型合成的image存在一些不利的伪影,影响了识别的性能。在最终合成的image上加上total variation regularization term :
在这里插入图片描述
W和H表示最终合成图像的宽度和高度
5.overall loss
Total supervised loss 所有loss的加权和:
生成器和couple-agent交替训练min-max问题
在这里插入图片描述
四.实验:
CAPG-GAN提供了一种灵活的方法去由面部标记控制任意输入的姿态。既可以用于人脸合成,又可以用于姿态不变表示学习。
数据集:
LFW数据库包含13,233张5749人的照片。
LFW中的人脸图像是从网上采集的,包含了各种姿态、表情和光照变化,因此合成逼真的正面人脸是极具挑战性的。在验证集被分成10组包含不同身份和600个人脸对。
Multi-PIE数据集是在受控环境下最大的人脸合成与识别评价数据库。来自337个身份的人脸图像有20个光照等级15个姿势,从- 90度到90度不等。
设置1:
训练集由前150个身份的所有图像(13个姿势和20个光照等级)组成,即, 150×13×20 =总共39000张图片。在测试中,对于剩下的100名受试者,每个受试者都使用一张具有正面视图和正常光照的图像

你可能感兴趣的:(paper)