[RingNet]Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision

目标

在弱监督的情况下训练一个从单张2D图片到3D人脸转换的模型。

主要思想

  1. 同一个人的面部形状是永远不变的,不受光照,表情,头发,化妆,遮挡的影响。
  2. 每个人的面部形状都是独一无二的(不考虑双胞胎的情况,因为太少,相对来说可以忽略不计)

方法

输入
训练的输入是一个人的多张照片+另一个人的单张照片
模型
RingNet中的每一个单元都是一个编码器+解码器的组合。
解码器就是一个不参与训练的FLAME模型,负责将输入的形状,表情,姿势参数解码成对应的3D人脸
编码器由一个预训练的ResNet-50和几个全连接层组成,输出一个159维的向量,也就是目标的形状,表情,姿势参数
训练
形状一致性损失:最小化同一个人照片之间的形状参数的L2距离,最大化不同人照片之间的形状参数的L2距离
2D特征损失:最小化真实landmark和预测landmark之间的L1距离。真实landmark是数据集中已经提供了的,预测landmark是通过将预测出的3D人脸的3D landmark映射到2D平面上得到的。

评价方式

使用给定的2D照片和扫描得到的3D模型作为基准,让模型通过2D照片预测出估计的3D模型,然后计算其与真实3D模型的差距。

参考链接:

CSDN
机器之心

你可能感兴趣的:([RingNet]Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision)