Disentangling Features in 3D Face Shapes for Joint Face Reconstruction and Recognition

1 联合判别特征学习、3D面部重建、3DMM、CNN

2 直接从单个二维图像中回归三维人脸形状,并基于复合三维人脸形状模型明确地分别处理三维人脸形状中的身份和残差(即非同一性)分量的潜在表示,该方法通过联合判别特征学习和3D面部重建优化了人脸识别和3D人脸重建,实现了最先进的3D面部重建精度。

3 本文提出了一种编码器 - 解码器网络,用于从单个二维图像中分离三维人脸重建过程中的形状特征,从而可以同时完成重建精确的三维人脸形状和学习识别形状特征的任务。与现有的三维人脸重建方法不同,此方法我们针对所提出的网络设计了训练过程,其具有测量脸部识别误差和3D脸部形状重建误差的联合损失。为了构建训练数据,我们开发了一种将3D形变模型(3DMM)拟合到对象的多个2D图像的方法。扩展了3DMM的能力,以捕捉判别形状特征和面部细节,因此在3D人脸重建精度和人脸识别精度方面都优于现有方法。

4 提出的网络可以解开重建的3D人脸形状中的身份和非身份特征。该网络在通过3DMM生成的数据进行预训练的同时,可以克服由3DMM基础确定的有限3D形状空间,因为它更好地捕获3D面部形状中的身份敏感和身份无关的特征。编码器网络将输入的2D面部图像转换为身份和残留的表示,解码器网络从中恢复3D面部形状。学习过程由重建损失和识别损失监督,并基于一组具有标记身份信息的2D人脸图像和相应的三维人脸形状,通过改进的多图像3DMM拟合方法获得。

模型结构:


Disentangling Features in 3D Face Shapes for Joint Face Reconstruction and Recognition_第1张图片

其中CRes 就是3DMM中的29维表情系数,CId则是199维的身份系数。ΔSRes是表情系数×表情特征向量重构出来的一个人脸。ΔSId 是身份系数×身份特征向量重构出来的一个人脸。两个人脸再加上平均人脸就是最终的3D人脸。


Disentangling Features in 3D Face Shapes for Joint Face Reconstruction and Recognition_第2张图片

Decoder的网络结构: 一个线性乘法, 将潜在表示转换为相应的形状组件。多层感知(MLP)网络。该网络由20个卷积层和一个完全连接(FC)层组成使用两个FC层来将潜在表示转换为相应的形状分量,一个用于识别,另一个用于残差。


Disentangling Features in 3D Face Shapes for Joint Face Reconstruction and Recognition_第3张图片

编码器基于SphereFace实现,将输入的2D图像转换为身份和残差的形状特征表示,联合学习。


Disentangling Features in 3D Face Shapes for Joint Face Reconstruction and Recognition_第4张图片

5 传统方法主要旨在恢复输入2D图像的3D面部形状或尽可能多地保留面部细节。其中很少有人明确考虑重建的3D面部中和身份无关的特征。很少有使用重建的3D人脸或通过融合传统的2D人脸来识别人脸。

6 重建三维人脸形状与真实三维人脸形状之间存在巨大的性能差距,表明现有的三维人脸重建方法严重低估了三维人脸形状的身份特征。提出三维人脸形状的身份和非身份成分,实现了对输入二维图像相似性的精确三维人脸形状的重建,以及联合识别面部识别的学习辨别形状特征。

7 主要贡献:(i)同时优化了人脸识别和3D人脸重建,该方法通过联合判别特征学习和三维人脸重建实现了最先进的三维人脸重建精度。(ii)为所提出的网络设计了一个有效的训练过程,可以重建的三维人脸形状中的身份和非同一性特征。该网络在通过3DMM生成的数据进行预训练的同时,可以超越由3DMM基础确定的有限3D形状空间,从而更好地捕获3D面部形状中的身份敏感性和身份无关的特征。(iii)我们利用在重建的3D面部形状中解开的身份特征,用于提高面部识别的准确性,进一步扩展了3D人脸重建的应用范围。


Disentangling Features in 3D Face Shapes for Joint Face Reconstruction and Recognition_第5张图片

8 现有方法在重建三维人脸形状时,没有明确考虑识别性能。使用训练数据的身份标签。基于CNN的3D面部重建。现有的基于CNN 3D人脸重建方法可以根据3D人脸的表示方式划分为两类。第一类中的方法使用3DMM参数,而第二类中的方法使用3D体积表示。通过方法2生成的3D面部形状具有低分辨率,这显然不利于面部识别。

复合3D形状模型使我们能够生成两种类型的3D形状。所提出的方法在重构精确的3D人脸形状方面表现良好。有最佳精度,对姿势变化有鲁棒性可以更好地区分3D面部形状中的非身份信息的身份,并且在不损害3D面部重建精度的情况下提高面部识别精度。

对于身份形状解码器,将与每个条目相关联的权重添加到平均形状,重新形成为点云,并显示为多边形网格。 对于残差形状解码器,与每个条目相关联的权重被重新整形为点云并且显示为测量每个顶点的范数值的热图(即,与身份形状的偏差)。 热图中的红色表示较大的偏差。传统的3DMM基础是通过3D面部扫描进行训练的,而我们的基础是从2D图像中学习的。

为了评估我们的形状特征(即身份表征)对面部识别的有效性,我们使用由我们的方法的编码器提取的它们的形状特征之间的余弦距离来计算两个面的相似性。为了研究我们的形状特征与现有纹理特征之间的互补性,我们还通过总和得分水平将我们的方法与现有方法结合起来。将YTF的人脸识别准确率从94.78%提高到95.18%,每个图像只需要4.79毫秒(ms)。

缺点:姿势,照明和压缩以及低分辨率的变化较大。低质量的人脸图像。

预训练和共同学习(i)预先训练的身份基数接近于传统的3DMM基础,后者以较低的基数捕获形状变化。相比之下,我们的共同认同基础都描述了丰富的形状变化。(ii)联合学习基础中的一些基础形状看起来不像常规的形状。我们认为这是由于采用的关节重建和识别损失功能。在3DMM中通过一组3D扫描训练的基础,虽然对于重建是最佳的,但可能限制形状参数的辨别力。我们的基础是按照分类进行训练,这确保了我们的方法在人脸识别中的优越性能。(iii)预训练的残差基础,如表达式基础,看起来是对称的。共同学习的残差模型显示出更多样化的形状偏差模式。这表明共同学习基础所捕获的残余形状变形远远超过表达变化所引起的残余形状变形,证明了我们的方法在解开三维人脸形状特征方面的有效性。

你可能感兴趣的:(Disentangling Features in 3D Face Shapes for Joint Face Reconstruction and Recognition)