CVPR_2021_Riggable 3D Face Reconstruction via In-Network Optimization

摘要

        本文提出了一种基于单目图像的可装配的三维人脸重建方法,该方法联合估计个性化的人脸模型和每幅图像的参数,包括表情、姿态和光照。 为了实现这一目标,我们设计了一个嵌入可微网络优化的端到端可训练网络。 该网络首先通过神经解码器将人脸识别器参数化为一个紧凑的潜在代码,然后通过可学习优化估计潜在码和每幅图像的参数。  网络内优化显式地执行从第一性原理导出的约束,因此比基于回归的方法引入了额外的先验。 最后,利用深度学习中的数据驱动先验知识对不适定的单目集合进行约束,降低了优化难度。 实验表明,该方法具有较高的SOTA重建精度、较强的鲁棒性和泛化能力,支持标准人脸识别应用。 

1. 涉及到的知识点(个人理解):

1、潜在代码(latent code):例如图像中,企图用小的特征映射来表示原图像。例如,夹在encoder-decoder中的得到的张量C。

图1

2、 第一性原理(first principles):我们在生活中总是陷入“比较思维”,别人已经做过了或者正在做,我们就业去做。而“第一性原理”,是把目光从那些别人做的事上挪开,不管做什么选择,都以事物最根本的原则为参照点,不断用那个参照点为自己纠偏。

3、数据驱动(data-driven):将数据进行组织形成信息,之后对信息进行整合和提炼,在数据的基础上经过训练和拟合形成自动化的决策模型。简单来说,就是以数据为中心进行决策和行动。看以往的数据,判断现存问题;看新产生数据,判断新增功能的优劣。

4、面部绑定(Face Rig): 对于什么是绑定,简单来说,就是让动作更加的平滑,顺畅。例如奥特曼小玩具,之前只能动一整条腿,而绑定之后,小腿也可以做动作,加强各个部件之间的合作,贯通。

5、视觉线索:

        1)单目视觉线索

        包括:纹理变化,纹理渐变,插入,遮挡,已知对象尺寸,光线和阴影,阴霾,散焦等。比如说很多物体的纹理在不同的深度是不同的。纹理梯度记录了边缘方向的分布,有利于推测深度。带有平行线的瓷砖地板在图像中看起来会是倾斜的线条。远处的斑块将在线方向上具有较大的变化,而在平行线的附近斑块将具有较小的线方向变化。雾度是另一种深度提示,是由大气光散射引起的。许多单眼线索是“上下文信息”,它们是图像的全局属性,不能从小图像块中推断出来。

        2)双目视觉线索

        主要就是左右眼对同一个物体成像的视差(Disparity),视差通常不是估算远处物体的小深度变化的有效方法;对于低纹理区域,视差的方法同样并不奏效。

        3)运动视差和焦点线索

        运动视差指当观察者移动时,更近的物体看起来比远的物体移动更多。人类有能力通过控制镜片的曲率来改变眼睛镜片的焦距,从而帮助他们聚焦在不同距离的物体上。 焦点线索指的是已知眼睛晶状体配置和物体图像清晰度的情况下,估计物体距的能力。

6、PCA:PCA主成分分析是一种无监督方法,PCA致力于寻找少数尽可能有意义的维度来表达数据,而维度是否有意义由所有观测值在每一维度上的离散程度决定。

7、孪生网络(Siamese network):孪生网络是一种网络结构,通过一个神经网络将样本的维度降低到某个较低的维度,神经网络的分支共享权值。

2. 主要创新点:

        除了直接回归之外,我们的方法使用了由第一性原理控制的网络内优化。 这种额外的约束,加上学习到的深度先验信息,提供了提高几何精度和泛化的潜力,同时解决了线性人脸模型的有限容量。 

3. 方法:

CVPR_2021_Riggable 3D Face Reconstruction via In-Network Optimization_第1张图片 图2

 图左是Face Rig Parameterization,输出三位网格V和反照率A,之后,右边是Learnable Optimization,加入位姿和灯光问题,重建出三维人脸,其次,优化人脸参数和图像参数(光照、位姿和表情)。具体流程解释如下:

3.1 Face Rig Parameterization:

        Face Rig是一个参数化模型,它接受表情参数β,并输出与输入表达式相对应的彩色3D人脸网格,(V,A)=Rig(β)。其中V是网格顶点,A是反照率颜色。具体来说,设计了一个神经解码器,该解码器接收潜在码α(称为“Rig码”)和表达式参数β,并输出有色网格(V,A)。 我们使解码器以输入图像为条件,以便更好地利用视觉线索。 还需要某种初始/中间重构(即,在图2中所示的L-1级的每个图像网格)来将图像信息映射到UV空间。 我们将描述如何在SEC中获得初始/中间重构。形式上,我们有

 在Rig内部,还有四个部分图像特征提取、中性形状解码、表情变形解码、反照率解码。

3.1.1 Image Feature Extraction(图像特征提取)

CVPR_2021_Riggable 3D Face Reconstruction via In-Network Optimization_第2张图片

 在UV空间中,我们使用N个孪生分支从{I}和{V}中提取N个特征映射,然后通过最大池和重块得到所需的UV特征Fuv。 

3.1.2 Neutral Shape(中性形状解码)

CVPR_2021_Riggable 3D Face Reconstruction via In-Network Optimization_第3张图片 图3

        给定UV特征图Fuv和Rig编码α中的中性形状编码αns,我们的目标是计算一个中性形状的Vns,它是一个中性表达的三维人脸网格。 采用CNN结构Fns(.)将αNS和FUV解码为VNS(或VNS在3级方案中的更新),该结构由若干重块(W/O Batchnorm)和上采样组成。

 3.1.3 Expression Deformation

        

CVPR_2021_Riggable 3D Face Reconstruction via In-Network Optimization_第4张图片 图4

         如图3所示,给定UV特征映射FUV、作为RIG代码α一部分的表达式代码αEXP和表达式参数β,我们的目的是计算一个表达式变形DEXP,它是在中性形状上添加的每个顶点的位移。 DEXP采用三个子网络,包括Fexp、Fexp_mlp和Fexp_cnn。 网络Fexp_mlp和Fexp_cnn定义了从表达式参数β到最终表达式变形Dexp的映射为 

         其中的参数θ用来控制个性化,由Fexp得出。

3.1.4 Albedo

        在第一和第二层估计一个静态反照率,类似于中性形状,然后在第三层添加动态分量,类似于表达式变形。网络结构如下:

CVPR_2021_Riggable 3D Face Reconstruction via In-Network Optimization_第5张图片 图5

CVPR_2021_Riggable 3D Face Reconstruction via In-Network Optimization_第6张图片

 3.2 Learnable Optimization

        重建三维人脸模型后,进行优化。基于参数的每幅图像重建,首先将α和β解码成(V,A)。之后进行投影,最后通过反照率进行着色。

4 结果

CVPR_2021_Riggable 3D Face Reconstruction via In-Network Optimization_第7张图片

 

你可能感兴趣的:(3D,face,reconstruction,深度学习,3d)