paper9:Synthesizing Normalized Faces from Facial Identity Features CVPR2017

Synthesizing Normalized Faces from Facial Identity Features
从面部身份特征合成正则化人脸 CVPR2017
一.摘要
目标:提出了一种方法对于一个给定的输入人脸图像合成一个正面的 中性表情的图像
实现:通过学习从人脸识别网络中提取特征生成facial landmark纹理来实现。
突破::利用facenet 网络学习到的特征对pose,光照表情等特征的不变性,将学习到的特征在特征域反转生成想要的image。decoder 网络的训练只使用正脸,中性表情的图片。这些图片排列良好,将它们分解稀疏的landmark point排列好的纹理图。Decoder独立的预测landmark和纹理,并使用可微分的image扭曲操作将它们组合起来
用途:生成的image可以用于许多应用程序,如分析面部属性、曝光和白平衡调整,或者创建一个3Davatar。
二.介绍
在开发模型时处理的技术挑战:

  • end-to-end学习需要warp 操作是可微的
    采用了一种高效、易于实现的基于样条差值的方法。这允许我们在input和output图像之间计算FaceNet相似性作为一个训练目标。有助于保留感知相关的细节。
    2.很难去获得大量正面的、中性表情的训练数据。
    采用了一种纹理-shape分解的数据增强方案,其中我们用最近邻差值算法随机变形训练image
    增强的训练集允许仅使用1K输入images去拟合一个高质量的神经网络模型。
    三.本文引入的技术
    1.Warp technology
    在L和L’之间定义一个三角测量,对L中的每个三角形应用仿射变换将其映射到L’中相应的三角形。在本文采用了一种基于样条插值的替代方法。一个人脸是由landmark和纹理的主要成分的系数来描述的**。为了重构人脸,先对系数进行投影去获得重构的landmark和纹理,然后纹理被warp到landmark。
    2.FACENET
    嵌入同一个人的两张图片应该比两个不同的人的嵌入更相似。这种损失会鼓励模型去捕捉人脸与其身份相关的方面,比如几何形状忽略特定于图像捕捉瞬间的变化因素,比如,光线,表情,姿态。
    5.Encode:用一个预训练的FaceNet 模型不更新其参数。facenet将人脸图像中不代表人的身份变化的那些额外因素规范化,使得最后学习到的特征只关注与人本身用来识别的特征。facenet最后的输出维度是128维,在最后面使用了不随空间变化的lowest layer “NN2”体系结构的1024-D“avgpool”层。我们训练一个全连接层从1024维-f维在这一层的top.在使用VGG-Face feature时,我们使用4096-D“fc7”层。
    6.Decode
    可以使用深度网络直接从F映射到输出图像。这需要同时模拟人脸的几何和纹理变化。
    生成L使用一个浅层的多层感知器和relu
    生成纹理图像,我们使用深度CNN。首先使用一个全连接层来映射F到56×56×256的局部特征,然后使用一系列的堆叠的转置卷积,由relu分隔,卷积核大小为5*5,步长为2,上采样到224×224×32的局域特征。第i个转置卷积后的信道数为256/2i,最后用1×1卷积得到224×224×3 RGB值。因为我们是正在生成注册纹理image,使用全连接网络而不是深度CNN是不合理的。这个映射从F到224×224×3像素值直接使用线性变换。尽管CNN采用了空间平铺,但这些模型的参数数量大致相同。
    合成:编码器联合纹理和landmark使用可微的warp 技术,这样从输入图像到生成图像的整个映射就可以进行端到端的训练。
    四、网络结构
    paper9:Synthesizing Normalized Faces from Facial Identity Features CVPR2017_第1张图片
    五,loss
    paper9:Synthesizing Normalized Faces from Facial Identity Features CVPR2017_第2张图片
    预测landmark:原图----decode后的 用均方误差
    预测texture:原图—decode后的 平均绝对误差
    局部的损失比直接对重构后的图片进行的损失更有效。
    全局损失:计算输入和输出之间facenet的相似度比较。
    通过标记点来实现侧脸-正脸,表情-中性表情的转变。

样条差值
插值是在水平位移和竖直位移上独立进行的。对于每一个维度,我们在L中的每个二维控制点p上定义了一个标量gp,并试图生成一个密集的二维标量值网格。除此之外,还在image的边界加了额外的点,0位移。
paper9:Synthesizing Normalized Faces from Facial Identity Features CVPR2017_第3张图片
原图的标记点;预测变形的点;通过插值的密集流;变形后的标记点

你可能感兴趣的:(paper)