Generative Adversarial Network Fitting for High Fidelity 3D Face Reconstruction
图1:提出的深度拟合方法可以从单个图像重建高质量的纹理和几何,并具有精确的身份恢复。图中和本文其余部分的重构由大小为700个浮点的向量表示,并且进行了渲染,没有任何特殊效果。我们想强调的是,所描绘的纹理是由我们的模型重建的,没有直接从图像中提取的特征。
1. Introduction
在计算机视觉和机器学习与无数应用程序(例如,面部识别,面部编辑,图像处理等)的交叉处,从单个图像(例如反照率等)估计3D面部表面和面部的其他固有成分是一个非常重要的问题。 虚拟现实)。这种纹理和形状的统计模型称为3D变形模型(3DMM)。可以说,最受欢迎的公开可用3DMM是由200人构建的巴塞尔模型[21]。最近,已经公开提供了面部和头部形状的大规模统计模型。
此外,借助适当的图像特征统计纹理模型,例如尺度不变特征变换(SIFT)和梯度直方图(HOG),基于3DMM的方法仍可以在不受约束条件下捕获的图像上实现3D形状估计的最新性能。
然而,那些方法[6]只能重建形状,而不能重建面部纹理。[45,34]中的另一项研究将纹理和形状重建分离。 标准的线性3DMM拟合策略[41]用于面部重建,然后执行许多步骤来完成纹理和完善纹理。 在这些论文中[34,45],当在专业渲染器(例如Arnold)下渲染时,纹理看起来非常好,但是当纹理覆盖在图像上时,质量会明显下降。
在过去的两年中,关于如何利用深度卷积神经网络(DCNN)进行3D形状和纹理重建,已经进行了大量工作。第一种方法是训练DCNN从图像回归到3DMM的参数[42]或使用3DMM合成图像[30,18]并使用DCNN估计深度来制定图像到图像的转换问题。经过训练的最新无监督基于DCNN的方法可通过使用可区分的图像形成体系结构[9]和可区分的渲染器[16、40、31]从身份特征中回归3DMM参数。
最新的方法(例如[39、43、14])同时使用3DMM模型和其他网络结构(称为校正剂)来扩展形状和纹理表示。即使论文[39]显示重构的面部纹理确实比3DMM [42,40]估计的纹理具有更多的细节,但仍然无法捕获纹理中的高频细节以及随后的许多身份特征(请参阅 图4)。此外,由于该方法允许重建在3DMM空间之外,因此容易受到形状和纹理烘烤的异常值(例如,眼镜等)的影响。 尽管渲染网络(受VAE培训[26])产生了出色的质量纹理,但每个网络最多可以存储几个人,这些人应该放在受控的环境中以收集约2000万张图像。
图2:3D人脸重建由可区分的渲染器(以紫色显示)渲染。 成本函数主要是通过预先训练的人脸识别网络上的身份特征来表示的(以灰色显示),并且通过将误差一直流回潜在参数(ps,pe,pt,c,i等)进行优化。 绿色),并具有梯度下降优化功能。 端到端的微分体系结构使我们能够使用计算便宜且可靠的一阶导数进行优化,从而使深度网络可以用作生成器(即统计模型)或成本函数。
2. History of 3DMM Fitting
我们的方法自然使用现代方法扩展并泛化了3DMM纹理和形状的思想,以使用GAN来表示纹理,并使用可微分的渲染器和功能强大的公开面部识别网络来定义损失函数[12]。 在定义成本函数之前,我们将简要概述3DMM表示和拟合的理论。
2.1. 3DMM representation
第一步是在顶点和三角剖分方面,在训练的3D面部网格和具有固定拓扑的所选模板之间建立密集的对应关系。
2.1.1 Texture
传统上,3DMM使用UV贴图来表示纹理。 UV贴图可帮助我们将3D纹理数据分配到2D平面中,(UV maps help us to assign 3D texture data into 2D)所有纹理均具有统一的逐像素对齐方式。通过将圆柱体的平均形状展开为二维平面空间公式,可以构建常用的UV贴图,我们将其用于创建RGB图像Iuv。3D空间中的每个顶点在存储纹理信息的UV图像平面中具有纹理坐标tcoord。(Each vertex in the 3D space has a texture coordinate tcoord in the UV image plane in which the texture information is stored.)存在一个通用函数,其中对于每个顶点,我们可以从UV空间中采样纹理信息为
为了定义统计纹理表示,将所有训练纹理UV贴图矢量化,并应用主成分分析(PCA)。在此模型下,任何测试纹理T0均近似为平均纹理mt和一组基准Ut的线性组合,如下所示:
其中pt是文本样本T0的纹理参数。(where pt is the texture parameters for the text sample T0.) 在早期的3DMM研究中,纹理的统计模型是在严格控制的条件下建立的,只有很少的面孔被建立起来,并被用于重建面孔的反照率。由于这样的纹理模型几乎不能表示在不受控制的记录条件下(野外)捕获的面部。 (Since, such texture models can hardly represent faces captured in uncontrolled recording conditions)最近,有人建议直接从野外面孔使用手工制作的特征的统计模型,例如SIFT或HoG [6]。 有关3DMM拟合算法中使用的纹理模型的更多详细信息,请参考[5,32]。最近的3D人脸拟合方法[39、43、14]仍对纹理使用类似的统计模型。 因此,它们自然只能代表面部纹理的低频成分(请参见图4)。(Hence, they can naturally represent only the low-frequency components of the facial texture)
2.1.2 Shape
建立面部或头部3D形状的统计模型的选择方法仍然是PCA(The method of choice for building statistical models of facial or head 3D shapes is still PCA) [23]。 假设对应的3D形状包含N个顶点,即
为了表示身份和表达方面的变化,通常使用两个线性模型。 第一个是从显示中性表情的面部扫描中学习的(即代表身份变化),第二个是从位移向量中学习的(即代表表情变化)。 然后可以将测试面部形状S(ps,e)表示为
具体参数解释:
2.2. Fitting
通过拟合基于3DMM的3D面部和纹理重构,是通过解决基于非线性能量的成本优化问题来执行的,(3D face and texture reconstruction by fifitting a 3DMM is performed by solving a non-linear energy)该问题可恢复一组参数p = [Ps,e,Pt,Pc,Pl],其中Pc是与相机相关的参数 模型和P1是与照明模型有关的参数。优化可以表示为:
其中I0是要拟合的测试图像,W是由p控制的物理图像形成过程(即渲染)产生的矢量。最后,Reg是主要与纹理和形状参数有关的正则化术语。已经提出了各种方法来对上述成本函数进行数值优化[19,2]。 最近的一种著名方法是[6],该方法使用手工特征(即H)进行纹理表示,从而将成本函数简化为:
有以下的公式:
这其中,A是纹理统计模型的正交空间,而pr是精简参数pr= {Ps,e,Pc}的集合。用高斯-牛顿法解决了等式4中的优化问题。 该方法的主要缺点是不能重建面部纹理。
在本文中,我们对3DMM配件进行了概括,并介绍了以下新颖性:
•我们在高分辨率UV贴图上使用GAN作为面部纹理的统计表示。 这样,我们可以重建具有高频细节的纹理。(We use a GAN on high-resolution UV maps as our statistical representation of the facial texture. That way we can reconstruct textures with high-frequency details.)
•代替文献中使用的其他成本函数(例如低水平的l1或l2损失(例如RGB值[29],边缘[33])或手工制作的特征(例如SIFT [6])),我们建议采用 一种新颖的成本函数,该函数基于可公开使用的人脸识别嵌入网络各层的特征损失[12]。 与其他特征不同,深度身份特征在保留输入图像的身份特征方面非常强大
•我们用可微分的渲染器代替物理图像形成阶段,以利用一阶导数(即梯度下降)。 与它的替代方案不同,梯度下降通过这种深层架构(即上述纹理GAN和身份DCNN)提供了计算上更便宜,更可靠的派生类。
3. Approach
我们提出了一种基于优化的3D人脸重建方法,该方法是使用高保真纹理生成网络作为统计先验的单个图像,如图2所示。为此,重建网格是通过3D可变形形状模型形成的; 由发生器网络的输出UV贴图进行纹理处理; 并由可区分的渲染器投影到2D图像中。通过使用梯度下降更新3DMM和纹理网络的潜在参数,可以在多个成本函数方面最小化渲染图像和输入图像之间的距离。我们主要基于[12,35,28]来制定这些函数,以实现更平滑的收敛,并基于界标检测网络[13]来进行对齐和粗略形状估计。
We propose an optimization-based 3D face reconstruction approach from a single image that employs a high fidelity texture generation network as statistical prior as illustrated in Fig. 2.
To this end, the reconstruction mesh is formed by 3D morphable shape model; textured by the generator network’s output UV map; and projected into 2D image by a differentiable renderer.
The distance between the rendered image and the input image is minimized in terms of a number of cost functions by updating the latent parameters of 3DMM and the texture network with gradient descent.
We mainly formulate these functions based on [12, 35, 28] for smoother convergence and landmark detection network [13] for alignment and rough shape estimation.
以下各节首先介绍了我们新颖的纹理模型,该模型采用了通过逐步增长的GAN框架训练的生成器网络。(employs a generator network trained by progressive growing GAN framework.)在描述了使用可区分渲染器进行图像形成的过程之后,我们制定了成本函数以及将形状和纹理模型拟合到测试图像上的过程。
3.1. GAN Texture Model
尽管常规PCA具有足够的强大功能来构建合适的形状和纹理模型,但由于其高斯特性,它通常无法捕获高频细节并最终导致纹理模糊。这在纹理建模中变得更加明显,纹理建模是3D重建中保留身份以及真实感的关键组成部分。GAN被证明在捕获此类细节方面非常有效。但是,当训练图像为半对齐时,它们会保留目标分布的3D相干性[17]。我们发现,使用逐像素对齐方式对真实纹理的UV表示进行训练的GAN避免了此问题,并能够从其99.9%的潜在空间生成逼真的和相干的UV,同时又很好地泛化了看不见的数据。
为了利用这种完美的和谐,我们训练了逐步增长的GAN [24],以对10,000个高分辨率纹理的UV表示的分布进行建模,并使用训练有素的生成器网络
作为替换Eq.1中的3DMM纹理模型的纹理模型。
拟合线性模型(即3DMM)就像线性变换一样简单,而生成器网络的拟合可作为一种优化方法,以最小化UV空间Iuv中目标纹理与网络输出G(pt)之间的每像素曼哈顿距离。
3.2. Differentiable Renderer(可微分渲染器)
继[16]之后,我们基于给定相机和照明参数的延迟阴影模型,采用可微分渲染器将3D重建投影到2D图像平面中。(we employ a differentiable renderer to project 3D reconstruction into a 2D image plane based on deferred shading model with given camera and illumination parameters.)由于每个顶点的颜色和法线属性都以重心坐标插入到相应的像素中,因此可以通过渲染器轻松地将梯度反向传播到潜在参数。针孔相机模型将笛卡尔原点[0,0,0]中心的3D纹理网格投影到2D图像平面上,并将相机指向[xc,yc,zc],指向[x0c,y0c,z0c] 焦距fc。通过phong阴影对照明进行建模,给定1)3D坐标[xl,yl,zl]上的直接光源的颜色值为[rl,gl,bl],以及2)环境照明的颜色[ra,ga,ba]。
其中,我们根据等式2中的3DMM构造形状网格,并根据等式5中的GAN生成器网络构造纹理。由于我们的可区分渲染器仅支持颜色矢量,因此我们将从生成的UV贴图中采样以获取矢量化的颜色表示,如Sec.2.1.1中所述。
此外,我们渲染具有随机表情,姿势和光照的辅助图像,(Additionally, we render a secondary image with random expression, pose and illumination)以便很好地概括与这些变化有关的身份相关参数。我们从正态分布中以p和样本相机采样表达参数,从300W-3D数据集的高斯分布中以p1和p2采样照明参数。此呈现的图像与IR具有相同的身份(即具有相同的ps和pt参数),表示如下:
3.3. Cost Functions
给定输入图像I0,我们使用梯度下降更新同时优化所有上述参数。 在每次迭代中,我们只需为3D重建的当前状态计算即将到来的成本项,然后使用反向传播就参数得出加权误差的导数。
3.3.1 Identity Loss
随着大规模数据集的可用性,CNN在许多人脸识别基准测试中都表现出了惊人的性能。 它们强大的身份特征对包括姿势,表情,照明,年龄等在内的许多变化都具有较强的鲁棒性。这些特征在许多其他任务上都表现得非常有效,包括新颖的身份合成[15],人脸归一化[9]和3D人脸重建[16]。在我们的方法中,我们利用现有的最新人脸识别网络[12] 5来捕获输入人脸图像的身份相关特征并相应地优化潜在参数。(we take advantage of an off-the-shelf state of-the-art face recognition network [12]5 in order to capture identity related features of an input face image and optimize the latent parameters accordingly)更具体地说,给定一个由n个卷积滤波器组成的预训练人脸识别网络
我们计算真实目标图像的身份特征(即嵌入)与渲染图像之间的余弦距离 如下:
我们在使用随机姿势,表情和光照渲染的渲染图像IR上制定了额外的身份损失。这种损失确保我们的重建在不同条件下类似于目标身份。我们通过在等式8中用IR代替IR来公式化它,并表示为Lid。
3.3.2 Content Loss
训练面部识别网络以去除遍及卷积层的抽象身份信息以外的所有种类的属性(例如表情,照度,年龄,姿势)。 尽管具有优势,但最后一层的激活会丢弃一些对3D重建有用的中级特征,例如 取决于年龄的变化。 因此,我们发现通过利用人脸识别网络中的中间表示来有效地伴随身份丢失(we found it effective to accompany identity loss by leveraging intermediate representations in the face recognition network),这些中间表示对于像素级变形仍然很健壮,并且不会过于抽象而错过一些细节。 为此,使用以下损失项将输入和渲染图像之间的中间激活的标准化欧几里德距离(即内容损失)最小化:
3.3.3 Pixel Loss
虽然身份和内容损失术语优化了可见纹理的反照率,但照明条件直接基于像素值差而优化。 尽管此成本函数是相对原始的函数,但足以优化照明参数,例如环境颜色,方向,距离和光源颜色。 我们发现,与其他参数一起优化照明参数有助于改善恢复纹理的反照率。(We found that optimizing illumination parameters jointly with others helped to improve albedo of the recovered texture) 此外,像素丢失支持具有细粒度纹理的身份和内容丢失,因为它支持最高的可用分辨率,而图像在身份和内容丢失之前需要缩小至112×112。 像素损失由像素级别1损失函数定义为:
3.3.4 Landmark Loss
脸部识别网络F由通过相似性变换与固定地标模板对齐的图像进行预训练。 为了与网络兼容,我们在相同设置下对齐输入图像和渲染图像。(to be compatible with the network, we align the input and rendered images under the same settings.)但是,此过程忽略了重建的纵横比和比例。(However, this process disregards the aspect ratio and scale of the reconstruction.)
因此,我们采用深脸对齐网络[13] M(I)来检测输入图像的界标位置,并通过更新形状,表达式和相机参数将渲染的几何体对齐到其上。(Therefore, we employ a deep face alignment network [13] M(I) : to detect landmark locations of the input image and align the rendered geometry onto it by updating the shape, expression)
and camera parameters.即,相机参数被优化以与图像I的姿势对准,并且几何参数被优化以用于粗略形状估计。 自然的结果是,这种对齐方式极大地改善了像素的有效性和内容丢失,这对两个图像之间的未对齐很敏感。
通过检测到的输入图像的界标位置与3D重构界标位置的2D投影之间的点对点欧几里德距离(可以用作形状模型的元数据)来实现对齐误差。 由于重建的地标位置很大程度上取决于相机参数,因此这种损失是将重建与输入图像对齐的重要信息来源,其公式如下:
3.4. Model Fitting
我们首先通过以下方式优化形状,表达式和相机参数,从而将重构大致与输入图像对齐(We fifirst roughly align our reconstruction to the input image by optimizing shape, expression and camera parameters):minpr E(pr)=λlanLlan。 然后,我们同时使用梯度下降和反向传播同时优化所有参数,以最大程度地减少上述损耗项的加权组合,如下所示:
我们用λ参数加权每个损失项。 为了防止我们的形状和表达式模型以及照明参数被夸大以任意地使我们的损耗项产生偏差,我们通过Reg({ps,e,pl})对这些参数进行正则化。
Fitting with Multiple Images (i.e. Video):虽然所提出的方法可以适合于从单个图像进行的3D重建,但可以在可用时(例如从视频记录中)有效地利用更多图像。虽然最先进的方法遵循天真的方法,即在进行重构之前对重构[42]或待回归特征进行平均[16],但我们通过在每次迭代后对身份重构参数(ps,pt)求平均来利用迭代优化的能力 。
对于图像集I = {I0,I1,。 。 。 ,i, 。 。 ,Ini},我们将参数重新设置为p = [ps,pie,pt,pic,pil],其中我们通过以下方式平均形状和纹理参数:
4. Experiments
本节演示了所提出的方法在3D人脸重建和形状恢复方面的出色表现。我们通过图1,图3中的定性结果,与第4.2节中的最新技术进行定性比较以及在第4.3节中对具有地面真实性的数据库进行定量形状重建实验来验证这一点。
4.1. Implementation Details(实施细节)
For all of our experiments, a given face image is aligned to our fixed template using 68 landmark locations detected by an hourglass 2D landmark detection [13]. 对于identity features,我们采用了ArcFace [12]网络的预训练模型。 对于发生器网络G,我们以512×512的分辨率训练渐进式增长的GAN [24],它具有来自[7]的约10,000个UV贴图。对于ns = 158的3DMM形状模型,我们使用了大规模面部模型[7];对于ne = 29,我们从4DFAB数据库[8]学习了表达式模型。在拟合过程中,我们使用Adam Solver [25]以0.01的学习率优化参数。并且我们将平衡因子设置如下:λid:2.0,λid:2.0,λcon:50.0,λpix:1.0,λlan:0.001,λreg:{0.05,0.01}。在Nvidia GTX 1080 TI GPU上,配件可在约30秒内收敛为单个图像。
4.2. Qualitative Comparison to the State-of-the-art
图4将我们的结果与最新的人脸重建研究[40,39,16,42,43]的MoFA测试集子集进行了比较。输入图像后的前四行显示了我们的形状和纹理重构与[16,42,39]的比较,后三行显示了我们的没有纹理的重构几何与[39,43]相比。总而言之,我们的方法以其高保真照片般逼真的纹理重构胜过其他所有方法。 从眉毛的粗细和形状到嘴巴和额头周围的皱纹,我们的纹理和形状重建都显示出相应输入图像的强标识特性。
图4:我们的定性结果与MoFA-Test数据集中的其他最新方法的比较。 第2-5行显示了与纹理几何体的比较,第6-8行仅比较了形状。 该图最好以彩色和放大显示
4.3. 3D shape recovery on MICC dataset
我们在表1中的MICC Florence 3D Faces数据集(MICC)[1]上评估了我们方法的形状重构性能。该数据集提供了三种难度设置下“合作”,“室内”和“室外”下53个主题的3D扫描以及短片。 与[16,42]处理视频中的所有帧不同,我们不考虑其缩放级别,统一从每个视频中仅采样5个帧。并且,我们为每个视频分别对这5帧运行具有多图像支持的方法,如公式13所示。 根据[42],每个测试网格都围绕鼻尖切成95mm的半径,以评估内部面部网格的形状恢复。我们通过执行迭代最近点(ICP)方法[3],在每个预测网格与其对应的地面真实网格之间执行密集对齐。作为评估指标,我们遵循[16]来通过平均对称点到平面的距离来测量误差。表1报告了归一化的点到平面误差(以毫米为单位)。 显然,与其他两种最新方法相比,我们的绝对误差提高了36%。 我们的结果在所有不同设置下均保持一致,并且与平均误差的标准偏差最小。
4.4. Ablation Study
图5显示了对我们方法的消融研究,其中完整模型比其变体更好地重建了输入面部,这表明我们的每个组件都对良好的重建做出了重要贡献。 图5(c)表示反照率与照明良好分离,我们的模型准确地捕获了光的方向。 图5(c)表示反照率与照明良好分离,我们的模型准确地捕获了光的方向。
虽然图5(d-f)显示了每个身份项都有助于保持身份,但图5(h)完全展示了重要性身份特征。 尽管如此,整体重建还是利用像素强度来捕获更好的反照率和照度,如图5(g)所示。 最后,图5(i)显示了我们的纹理优于基于PCA的纹理。
5. Conclusion
在本文中,我们从一个新的角度重新审视了基于优化的3D人脸重建,即,我们将GAN和人脸识别网络等最新机器学习技术的功能分别用作统计纹理模型和能量函数。据我们所知,这是GAN首次用于模型拟合,并且在高质量纹理重建方面显示出优异的效果。 所提出的方法在定性和定量实验中显示了保留身份的高保真3D重建。