Generative Adversarial Network Fittingfor High Fidelity 3D Face Reconstruction论文笔记

0、摘要

总结了过去人脸重建的趋势(深度卷积的力量神经网络(DCNN)),和最近几年可微渲染器来学习面部身份特征与 3D 可变形模型的形状和纹理参数之间的关系。但这些都无法高质量的重建纹理和高保真度,介绍了论文利用生成对抗网络 (GAN) 和DCNNs 来从单个图像重建面部纹理和形状。

1、Introduction

过去:主要的研究方向,利用深度卷积神经网络进行3D形状和纹理重建,包含的两种方法:1训练回归DCNN从图像到3DMM的参数,2使用一个3DMM来合成图像并且定制一个使用DCNN估计深度的image-to-image的转换问题

最近:使用了3DMM,以及额外的网络结构(称为校正)以及扩展形状和纹理表示,这个方法无法捕捉高质量的纹理,而且也容易受异常值干扰,比如眼镜。因此文章中没有制定利用自我监督的回归方法或者自动编码器的方法,而是用基于优化的通过监督深度身份特征和使用生成对抗网络的 3DMM 拟合方法(GAN) 作为统计参数表示面部纹理。

文章创新点:

1、首次证明在未包裹的UV空间上对完整面部表情的大规模高分辨率统计重建,即使是在无约束的条件下也可以用来重建面部纹理。

2、本文定义了一个新的3DMM拟合策略,是基于GAN和可微分渲染器

3、提出了新的代价函数,从一个人脸识别网络结合了在深层身份特征上的各种内容损失

4、在任意记录条件下展示了出色的面部形状和纹理重建,显示出既逼真又身份保全。

(shape-3DMM,纹理通过GAN生成)

2、History of 3DMM Fitting

2.1 3DMM的表示

第一步在训练 3D 面部网格和所选模板之间,用顶点和三角剖分方面具有固定的拓扑建立密集对应关系(本节介绍了传统的3DMM方法)

2.1.1 texture

传统上,3DMM 使用 UV 贴图来表示纹理。 UV 贴图帮助我们将 3D 纹理数据转换为 2D平面,所有纹理都具有通用的每像素对齐方式。

2.1.2 shape

2.2 fitting

拟合 3DMM 进行 3D 面部和纹理重建是通过解决基于非线性能量的成本优化问题来执行的,该问题恢复一组参数 p =[ps,e, pt, pc, pl] 其中 pc 是一个相机模型的参数与, pl 是与照明模型相关的参数。 优化可以表述为:

I0是要拟合的测试图像,W是通过渲染生成的向量,Reg是正则化术语——主要与纹理和形状参数相关。上式简化:

||a||2 A = a T Aa,A是纹理正交空间的统计模型,pr是用来减少参数的集合,参数 pr = {ps,e, pc},优化问题等式 4 用高斯-牛顿法求解。 这种方法的主要缺点是没有重建面部纹理。

上述是传统3DMM的拟合方法,本文在以下具体细节进行了创新

  • 在高分辨率 UV map上使用 GAN 作为面部纹理的统计表示,随之可以用高频细节重建纹理。
  • 代替其他文献中使用的代价函数,例如低级的 `1 或 `2 损失(例如,RGB 值 [29],边缘 [33])或手工制作的特征(例如,SIFT [6]),我们提出了一种新的成本函数,它基于来自公开可用的各个层的特征损失人脸识别嵌入网络[12]。与其他人不同,深度身份特征在保留输入图像的身份特征方面非常强大。
  • 用可微渲染器替换物理图像形成阶段,以利用一阶导数(即梯度下降)。与其替代品不同的是,梯度下降提供了计算上更快和通过这种深度架构(即上述纹理 GAN 和身份 DCNN)获得更可靠的衍生品。

3、approach

Generative Adversarial Network Fittingfor High Fidelity 3D Face Reconstruction论文笔记_第1张图片

重建网格由3D可变形形状模型构成;纹理由生成器网络的输出 UV 贴图;并通过differentiable renderer投影到 2D。通过使用梯度下降更新 3DMM 和纹理网络的潜在参数,在许多代价函数方面最小化渲染图像和输入图像之间的距离。我们主要基于这些函数来制定人脸识别网络的丰富特征, 更平滑的收敛和特征点检测网络用于对齐和粗略的形状估计。

文章的新颖纹理模型:通过渐进式GAN框架训练一个generator network,在描述了可微渲染器的图像形成过程后,制定代价函数和程序来fitting形状和纹理模型到测试图像上。

3.1  GAN Texture Model

点出了基于PCA重建的缺点:无法捕捉高频细节,模糊,不写实

指出GAN的优点:可以捕捉到细节,看上去更加真实,而且当训练图片是半对齐的时候,GAN 训练具有每像素对齐的真实纹理的 UV 表示来避免了这个问题,并且能够从 99.9% 的潜在空间生成逼真且连贯的 UV,同时很好地概括到看不见的数据。

为了利用这种完美的和谐,我们训练渐进式增长的 GAN [24] 以对 10,000 个高分辨率纹理的 UV 表示的分布进行建模,并使用经过训练的生成器网络

作为替代 3DMM 纹理模型的纹理模型

虽然使用线性模型(即 3DMM)进行拟合与线性变换一样简单,但使用生成器网络进行拟合可以表述为一种优化,以最小化UV 中目标纹理之间的每像素曼哈顿距离
空间 Iuv 和网络输出 G(pt) 相对于
潜在参数 pt,即 minpt|G(pt) - Iuv|。

3.2. Differentiable Renderer

使用可微分渲染器来将 3D 重建投影到2D平面基于具有给定相机和照明参数的延迟着色模型。

由于每个顶点的颜色和法线属性在具有重心坐标的相应像素处进行插值,梯度可以很容易地反向传播通过渲染器到潜在参数。

3.3. Cost Functions

给定图像I0,我们通过梯度下降同时优化所有上述参数更新。在每次迭代中,我们只需计算 3D 重建当前状态的即将到来的成本项,并使用反向传播对参数求出加权误差的导数。

3.3.1 Identity Loss

随着大规模数据集的出现,CNNs在许多人脸识别中表现出令人难以置信的表现基准。他们强大的身份特征对许多变化,包括姿势、表情、照明、年龄等。这些功能被证明是非常有效的在许多其他任务中,包括新的身份合成 [15],人脸归一化 [9] 和 3D 人脸重建 [16]。

文章利用现成的最先进的人脸识别网络5(论文Jiankang Deng, Jia Guo, and Stefanos Zafeiriou. Arcface: Additive angular margin loss for deep face recognition. arXiv preprint arXiv:1801.07698, 2018. 2, 4, 5, 7),为了捕获输入人脸图像的身份相关特征并相应地优化潜在参数。更具体地说,给定一个预训练人脸识别网络 F

Generative Adversarial Network Fittingfor High Fidelity 3D Face Reconstruction论文笔记_第2张图片

3.3.2 Content Loss

 人脸识别网络经过训练,可以去除整个卷积层中除抽象身份信息之外的所有类型的属性(例如表情、光照、年龄、姿势)。 尽管它们很强大,但最后一层中的激活会丢弃一些对 3D 重建有用的中级特征,例如 取决于年龄的变化。因此,我们发现通过利用人脸识别网络中的中间表示来有效地伴随身份丢失,这些表示仍然对像素级变形具有鲁棒性,并且不会太抽象而错过一些细节。
为此,使用以下损失项最小化输入和渲染图像之间的中间激活的归一化欧几里德距离,即内容损失:

Generative Adversarial Network Fittingfor High Fidelity 3D Face Reconstruction论文笔记_第3张图片

3.3.3 Pixel Loss

身份和内容损失项优化了可见纹理的反照率,直接根据像素值差异优化了光照条件。虽然这个成本函数相对原始,但足以优化诸如环境颜色、方向、距离和光源颜色等照明参数。 我们发现与其他人一起优化照明参数有助于改善恢复纹理的反照率。此外,像素损失支持具有细粒度纹理的身份和内容损失,因为它支持最高可用分辨率,而图像需要在身份和内容丢失之前缩小到 112 × 112。
像素损失由像素级`1损失函数定义为:

你可能感兴趣的:(论文笔记,神经网络,深度学习,人工智能)