本系列博文为深度学习/计算机视觉论文笔记,转载请注明出处
标题:SOFA: Style-based One-shot 3D Facial Animation Driven by 2D landmarks
链接:SOFA: Style-based One-shot 3D Facial Animation Driven by 2D landmarks | Proceedings of the 2023 ACM International Conference on Multimedia Retrieval
授权声明:
允许免费制作本作品全部或部分内容的数字或硬拷贝以供个人或课堂使用,前提是制作或分发副本不是为了盈利或商业利益,并且副本在首页上附有此通知和完整引用。必须尊重作者以外的其他人拥有的本作品组件的版权。允许以信用方式提取。要以其他方式复制、重新发布、发布到服务器上或重新分发到列表,需要事先获得特定许可和/或付费。从 [email protected] 请求权限。
ICMR’23,2023年6月12日至15日,希腊塞萨洛尼基
© 2023年版权由所有者/作者持有。出版权由ACM授权。
ACM ISBN 979-8-4007-0178-8/23/06. . . 15.00美元
https://doi.org/10.1145/3591106.3592291
图1:我们方法的可视化结果。(a) 目标面部图像 (b) 目标关键点图 © 我们渲染的虚拟角色 (d) 真实虚拟角色 (e) 我们的纹理映射 (f) 真实纹理映射。
我们提出了一个基于2D关键点驱动的3D面部动画框架(2D landmark-driven 3D facial animation framework),无需使用3D面部数据集进行训练。我们的方法将3D面部头像分解为几何(geometry)和纹理(texture)部分。在给定2D关键点作为输入的情况下,我们的模型学习估计FLAME的参数,并将目标纹理转换为不同的面部表情。实验结果表明,我们的方法取得了显著的成果。通过使用2D关键点作为输入数据,我们的方法有潜力在获取完整RGB面部图像有困难的场景下进行部署(例如被VR头戴显示器遮挡)。
CCS概念
• 计算方法学 -> 动画
关键词
面部动画、3D头像、可塑模型
ACM参考文献格式
Pu Ching, Hung-Kuo Chu, and Min-Chun Hu. 2023. SOFA: Style-based One-shot 3D Facial Animation Driven by 2D landmarks. In International Conference on Multimedia Retrieval (ICMR '23), June 12–15, 2023, Thessaloniki, Greece. ACM, New York, NY, USA, 5 pages. https://doi.org/10.1145/3591106.3592291
面部动画一直是计算机图形学和计算机视觉领域中的重要任务。尽管发展了在远程会议场景中广泛使用的卡通风格虚拟角色,但为那些需要更具沉浸感和生动体验的用户提供逼真的面部动画仍然具有挑战性。根据输出的最终表示形式,面部动画可以简单地分为两类方法:基于2D和基于3D的方法。基于3D的方法可以进一步根据是否使用**参数化面部模型(parameterized facial model)**分为基于模型(model-based)和基于无模型(model-free based)的方法。
**基于2D的面部动画。**基于2D的面部动画着重于特定范围内的摄像机角度,并在给定一系列2D面部目标图像和诸如关键点等信息的情况下生成相应的2D面部图像序列。根据应用限制,基于2D的面部动画可以分为主体依赖(subject-dependent)和主体无关(subject-agnostic)的方法。
例如
大量的2D面部数据集鼓励研究人员开发不同的面部解析器,例如关键点预测器(landmark predictor)和面部特征分割器(landmark predictor),以便以简单的方式驱动虚拟角色。
大多数现有的基于2D的方法可以**输出正面面部的高质量图像,但无法生成不同头部姿势的面部图像。**相比之下,基于3D的方法具有更大的潜力生成不同头部姿势的面部动画。
基于3D的面部动画。3D面部动画可分为无模型和基于模型的方法,即是否使用可塑模型作为先验。
总结起来,当前的面部动画方法在数据采集和逼真度方面存在一些权衡。
在本文中,我们采用了一个单示例设置的框架,通过用户的一张完整面部图像和面部关键点序列驱动3D面部动画。
面部关键点序列可以从完整的面部图像中获取,也可以在VR场景中从部分遮挡的面部图像中获取,并辅助使用额外的NIR(近红外)图像。
我们提出的架构基于3D模型方法的概念,并且可以在不需要3D面部真值的情况下进行操作。基于提出的框架,我们进一步提出使用由关键点表示的面部表情作为风格,并通过StyleGAN生成器调整目标面部纹理映射。
实验结果表明,我们提出的方法能够在实时生成显著的面部合成结果。
图2(a)展示了我们的系统框架。
图2:总体系统框架
控制(controlling)关键点图(landmark map) L ′ L' L′可以通过基于现成的关键点预测器 E L E_L EL从源面部图像 I ′ I' I′(或者从捕获被部分遮挡的面部图像的额外近红外图像)中获取。
对于给定的关键点图 L ′ L' L′,可以通过面部几何回归器 E R E_R ER来预测面部参数。
同时,根据之前描述的单示例设置,给定完整的用户面部图像 I 0 I_0 I0,预先训练的虚拟角色估计器 E T E_T ET用于估计用户的初始面部纹理 T 0 T_0 T0,关键点预测器 E L E_L EL被应用于获取用户的初始关键点图 L 0 L_0 L0。
我们提出了一个基于风格的纹理转换器 S T S_T ST,用于根据给定的关键点图 L 0 L_0 L0和 L ′ L' L′,将初始面部纹理 T 0 T_0 T0变形为目标纹理 T ′ T' T′,这是通过计算给定的关键点图 L 0 L_0 L0和 L ′ L' L′之间的残差信息 Δ S \Delta{S} ΔS得到的。
最后,对于每个源帧 I ′ I' I′,结合面部参数和纹理 T ′ T' T′,使用虚拟角色生成器 D A D_A DA生成最终的虚拟角色 Y Y Y。
几何回归器(Geometry Regressor,图中 E R E_R ER)
使用单视角图像直接合成整个以顶点表示的3D面部模型是一个非常复杂的问题。
受先前工作的启发,我们采用FLAME [8]作为可塑模型,它需要三种参数:
来生成3D面部网格。与对整个面部进行复杂几何建模相比,使用像FLAME这样的可塑模型有一个优势,即具有较低自由度的表示,使我们能够设计一个轻量级的几何回归器 E R E_R ER来估计FLAME参数并实时生成虚拟角色。
- 姿态(Pose):姿态参数 θ \theta θ用来描述3D面部网格在空间中的旋转和平移。它可以控制虚拟角色的头部和脸部的朝向,从而实现不同的头部姿势和面部朝向。
- 表情(Expression):表情参数 ψ \psi ψ用来描述3D面部网格的面部表情,例如微笑、愤怒、悲伤等。它可以控制虚拟角色的面部表情的变化,从而实现不同的面部表情。
- 形状(Shape):形状参数 β \beta β用来描述3D面部网格的整体形状。它可以控制虚拟角色的面部形状的变化,从而实现不同用户的个性化特征和面部形态的变化。
除了减小模型大小,使用FLAME可塑模型使得在不需要3D真值数据的情况下生成高质量的面部网格成为可能。
值得注意的是
在第3.3节中,我们将展示当几何回归器 E R E_R ER不包含形状参数进行回归时效果更好。
基于风格的纹理转换器(Style-based Texture Translator,图中 S T S_T ST)
基于风格的纹理转换器 S T S_T ST接收一个风格编码 Δ S \Delta{S} ΔS,它是关键点图的残差信息,用于估计动画纹理映射 T ′ T' T′。
为了减少对主体身份的依赖并仅保留表情信息,我们将 S ′ S' S′和 S 0 S_0 S0的残差作为风格编码,即:
Δ S = S ′ − S 0 (1) \Delta{S}=S'-S_0\tag{1} ΔS=S′−S0(1)
如图2(b)所示,纹理转换器 S T S_T ST由 N N N个编码块, { E i } i = 1 N \lbrace{E_i}\rbrace^N_{i=1} {Ei}i=1N,和 N N N个基于风格的堆叠扭曲(style-based stacked warping)块, { D i } i = 1 N \lbrace{D_i}\rbrace^N_{i=1} {Di}i=1N,组成,其中的跳跃连接(skip-connection)类似U-net架构。
在给定 Δ S \Delta{S} ΔS的条件下,每个基于风格的堆叠扭曲块 D i D_i Di将前一层的输出特征 D i + 1 D_{i+1} Di+1和 E i E_i Ei作为输入。
更具体地说,每个扭曲块 D i D_i Di是一个具有调制卷积层的StyleGAN生成器,其公式为:
f D i = U p s a m p l e ( c o n v m ( D i ( f D i + 1 , f E i ) , Δ S ) ) (2) f_{D_i}=Upsample(convm(D_i(f_{D_{i+1}},f_{E_i}),\Delta{S}))\tag{2} fDi=Upsample(convm(Di(fDi+1,fEi),ΔS))(2)
请注意, f D 0 f_{D_0} fD0是最终的动画纹理映射 T ′ T' T′。
在第3.2节中,我们验证了将PixelShuffle [14]作为上采样过程应用,相较于使用反卷积层,可以提高细粒度生成质量。通过在不同感受野中提供风格编码,纹理转换器 S T S_T ST能够生成具有特定风格的全局表示。
虚拟角色生成器(Avatar generator,图中 D A D_A DA)
由于我们的面部模型建立在FLAME基础上,我们可以对估计的虚拟角色应用预定义的UV映射来进行渲染。
为了提高渲染质量,我们采用了一个基于L2范数计算的照片级别损失,该损失计算了使用估计纹理和使用真实纹理渲染的面部图像之间的差异(详见第2.4节)。
此外,我们采用可微分渲染来实现所提出的纹理转换器 S T S_T ST的端到端训练。值得注意的是,在推断阶段,可以使用其他不可微分引擎来渲染估计的虚拟角色。
我们估计的3D虚拟角色在渲染过程中不受输入图像的原始摄像机角度的限制。
在训练阶段,几何估计器 E R E_R ER和纹理转换器 S T S_T ST分别进行训练。
对于几何估计器 E R E_R ER,我们最小化几何损失,定义为:
L g = λ F L F L A M E + λ l L l (3) L_g=\lambda_FL_{FLAME}+\lambda_lL_l\tag{3} Lg=λFLFLAME+λlLl(3)
L F L A M E L_{FLAME} LFLAME是估计参数和真实参数之间的L2损失,即 ∣ ∣ θ ′ − θ ∣ ∣ 2 ||\theta'-\theta||^2 ∣∣θ′−θ∣∣2和 ∣ ∣ ψ ′ − ψ ∣ ∣ 2 ||\psi'-\psi||^2 ∣∣ψ′−ψ∣∣2。
L l L_l Ll是估计网格的3D关键点与真实网格的3D关键点之间的L2损失。需要注意的是,网格的3D关键点是由FLAME提取的。
对于纹理转换器 S T S_T ST,我们最小化纹理损失,定义为:
L T = λ i L i + λ r L r + λ p L p (4) L_T=\lambda_iL_i+\lambda_rL_r+\lambda_pL_p\tag{4} LT=λiLi+λrLr+λpLp(4)
λ F \lambda_F λF、 λ l \lambda_l λl、 λ i \lambda_i λi、 λ r \lambda_r λr和 λ p \lambda_p λp是预定义的超参数。
数据收集。 为了证明我们的基于3D模型的方法可以在不需要3D面部真值的情况下运行,我们收集了一个包含792个视频序列的2D面部数据集,
数据处理。 对于收集到的原始视频序列,我们使用一个现成的面部检测模型[10]来裁剪每帧中的面部区域。然后,裁剪后的面部区域被调整大小为256×256,并作为我们网络的输入。
训练细节。 几何估计器 E R E_R ER和纹理转换器 S T S_T ST是分别进行训练的。
对于几何估计器 E R E_R ER,我们使用ResNet-18作为主干网络来提取特征,然后分别应用2个MLP分支来预测姿势和表情。在我们的实验中,我们使用Adam优化器,在学习率为0.0002的情况下,对我们的模型进行了50个epochs的训练。
纹理转换器 S T S_T ST由3个编码块和3个解码块组成,通过U-net架构进行连接。在我们的实验中,我们使用Adam优化器,在学习率为0.0002的情况下,对我们的模型进行了100个epochs的训练。
我们将基于风格的解码块与一个基准方法进行比较,该基准方法直接使用2D卷积层融合特征。
在实践中,我们应用了相同的训练设置,除了解码器的架构。
在基准模型中,我们不是将提取的特征映射为风格编码,而是在瓶颈处将关键点特征与输出进行连接,该输出是编码器的2D特征图。
在UV空间中,通常使用L1、PSNR、SSIM和FID等常见重建指标。
在我们的实验中,我们发现L1、PSNR和SSIM在不同方法之间只有很小的差异,因此我们使用FID作为性能指标来展示每种方法的有效性。
表1显示了不同方法之间的定量评估,包括基准方法,我们提出的方法以及应用PixelShuffle(表示为Pix)、将剩余信息作为风格编码(表示为Res)、以及是否应用感知损失(表示为PLoss)的削减研究。
表1:纹理转换比较结果。Pix 使用PixelShuffle进行上采样,Res 将剩余信息用作风格编码,PLoss 应用感知损失。
我们发现,使用我们提出的基于风格的解码器可以显着改善纹理重建质量。将剩余信息作为风格编码进一步提高了视觉质量。
图3:不同方法之间的定性比较。 对于每种方法,左列是纹理映射,右列是渲染结果。
图3显示了基准模型不能很好地重建细节眼部表情,如眨眼,而我们提出的基于风格的纹理转换器可以更好地重建面部细节。此外,我们的模型轻巧,可以实现实时推理(约20 fps)。
我们还尝试了应用patch-GAN[5]损失来进一步改善视觉质量,但是FID性能大幅下降。
我们比较了估计所有FLAME参数和只估计表情/姿势而不估计形状之间的结果。
表2:几何估计的比较(MSE ↓)
表2显示了对应的MSE(均方误差),用于衡量估计参数与真实参数之间的距离。我们可以观察到,不估计形状信息的模型表现更好。
此外,我们还比较了由FLAME获得的3D关键点的MSE,结果也显示出不估计形状信息的模型达到了更好的性能。
[1] Volker Blanz和Thomas Vetter. 1999. 用于合成3D面部的可塑模型。《计算机图形学与交互技术年会论文集》。
[2] Chen Cao,Tomas Simon,Jin Kyu Kim,Gabe Schwartz,Michael Zollhoefer,ShunSuke Saito,Stephen Lombardi,Shih-En Wei,Danielle Belko,Shoou-I Yu等。2022年。来自手机扫描的真实体积化身。《ACM图形学交易》(TOG)(2022)。
[3] Yao Feng,Haiwen Feng,Michael J Black和Timo Bolkart。2021年。从野外图像中学习可动画的详细3D面部模型。《ACM图形学交易》(ToG)(2021)。
[4] Kuangxiao Gu,Yuqian Zhou和Thomas Huang。2020年。Flnet:基于关键点的忠实对话面部动画综合的学习网络。《人工智能AAAI会议论文集》。
[5] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou和Alexei A Efros。2017年。条件对抗网络的图像到图像转换。CVPR(2017)。
[6] Justin Johnson,Alexandre Alahi和Li Fei-Fei。2016年。用于实时风格转换和超分辨率的感知损失。《欧洲计算机视觉会议论文集》。斯普林格。
[7] Reinhard Knothe,Brian Amberg,Sami Romdhani,Volker Blanz和Thomas Vetter。2011年。面部形态模型。《人脸识别手册》。斯普林格。
[8] Tianye Li,Timo Bolkart,Michael J Black,Hao Li和Javier Romero。2017年。从4D扫描中学习面部形状和表情模型。《ACM图形学交易》(2017)。
[9] Stephen Lombardi,Jason Saragih,Tomas Simon和Yaser Sheikh。2018年。面部渲染的深度外观模型。《ACM图形学交易》(ToG)(2018)。
[10] Camillo Lugaresi,Jiuqiang Tang,Hadon Nash,Chris McClanahan,Esha Uboweja,Michael Hays,Fan Zhang,Chuo-Ling Chang,Ming Guang Yong,Juhyun Lee等。2019年。Mediapipe:构建感知管道的框架。arXiv预印本arXiv:1906.08172(2019)。
[11] Safa C Medin,Bernhard Egger,Anoop Cherian,Ye Wang,Joshua B Tenenbaum,Xiaoming Liu和Tim K Marks。2022年。MOST-GAN:用于解缠面部图像操作的3D可塑StyleGAN。《AAAI人工智能会议论文集》。
[12] Moustafa Meshry,Saksham Suri,Larry S Davis和Abhinav Shrivastava。2021年。学习用于少样本说话头合成的空间表示。《IEEE / CVF计算机视觉国际会议论文集》。
[13] Alexander Richard,Colin Lea,Shugao Ma,Jurgen Gall,Fernando De la Torre和Yaser Sheikh。2021年。编解码器角色的音频和凝视驱动面部动画。《IEEE / CVF冬季计算机视觉应用会议论文集》。
[14] Wenzhe Shi,Jose Caballero,Ferenc Huszár,Johannes Totz,Andrew P Aitken,Rob Bishop,Daniel Rueckert和Zehan Wang。2016年。使用高效子像素卷积神经网络的实时单图像和视频超分辨率。《IEEE计算机视觉和模式识别会议论文集》。
[15] Jiale Tao,Biao Wang,Borun Xu,Tiezheng Ge,Yuning Jiang,Wen Li和Lixin Duan。2022年。具有可变形锚模型的结构感知运动转移。《IEEE / CVF计算机视觉与模式识别会议论文集》。
[16] Shih-En Wei,Jason Saragih,Tomas Simon,Adam W Harley,Stephen Lombardi,Michal Perdoch,Alexander Hypes,Dawei Wang,Hernan Badino和Yaser Sheikh。2019年。VR面部动画通过多视角图像转换。《ACM图形学交易》(TOG)(2019)。
[17] Zili Yi,Qiang Tang,Vishnu Sanjay Ramiya Srinivasan和Zhan Xu。2020年。通过变形实现动画:高质量面部表情动画的高效方法。《多媒体ACM国际会议论文集》。
[18] Egor Zakharov,Aliaksandra Shysheya,Egor Burkov和Victor Lempitsky。2019年。逼真的神经说话头模型的少样本对抗学习。《IEEE / CVF国际计算机视觉会议论文集》。
[19] Ruiqi Zhao,Tianyi Wu和Guodong Guo。2021年。面部图像动画的稀疏到密集运动转移。《IEEE / CVF国际计算机视觉会议论文集》。
[1] Volker Blanz and Thomas Vetter. 1999. A morphable model for the synthesis of 3D faces. In Proceedings of the 26th annual conference on Computer graphics and interactive techniques.
[2] Chen Cao, Tomas Simon, Jin Kyu Kim, Gabe Schwartz, Michael Zollhoefer, Shun-Suke Saito, Stephen Lombardi, Shih-En Wei, Danielle Belko, Shoou-I Yu, et al. 2022. Authentic volumetric avatars from a phone scan. ACM Transactions on Graphics (TOG) (2022).
[3] Yao Feng, Haiwen Feng, Michael J Black, and Timo Bolkart. 2021. Learning an animatable detailed 3D face model from in-the-wild images. ACM Transactions on Graphics (ToG) (2021).
[4] Kuangxiao Gu, Yuqian Zhou, and Thomas Huang. 2020. Flnet: Landmark-driven fetching and learning network for faithful talking facial animation synthesis. In Proceedings of the AAAI conference on artificial intelligence.
[5] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. 2017. Image-to-Image Translation with Conditional Adversarial Networks. CVPR (2017).
[6] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. 2016. Perceptual losses for real-time style transfer and super-resolution. In European conference on computer vision. Springer.
[7] Reinhard Knothe, Brian Amberg, Sami Romdhani, Volker Blanz, and Thomas Vetter. 2011. Morphable Models of Faces. In Handbook of Face Recognition. Springer.
[8] Tianye Li, Timo Bolkart, Michael J Black, Hao Li, and Javier Romero. 2017. Learning a model of facial shape and expression from 4D scans. ACM Trans. Graph. (2017).
[9] Stephen Lombardi, Jason Saragih, Tomas Simon, and Yaser Sheikh. 2018. Deep appearance models for face rendering. ACM Transactions on Graphics (ToG) (2018).
[10] Camillo Lugaresi, Jiuqiang Tang, Hadon Nash, Chris McClanahan, Esha Uboweja, Michael Hays, Fan Zhang, Chuo-Ling Chang, Ming Guang Yong, Juhyun Lee, et al. 2019. Mediapipe: A framework for building perception pipelines. arXiv preprint arXiv:1906.08172 (2019).
[11] Safa C Medin, Bernhard Egger, Anoop Cherian, Ye Wang, Joshua B Tenenbaum, Xiaoming Liu, and Tim K Marks. 2022. MOST-GAN: 3D morphable StyleGAN for disentangled face image manipulation. In Proceedings of the AAAI Conference on Artificial Intelligence.
[12] Moustafa Meshry, Saksham Suri, Larry S Davis, and Abhinav Shrivastava. 2021. Learned Spatial Representations for Few-shot Talking-Head Synthesis. In Proceedings of the IEEE/CVF International Conference on Computer Vision.
[13] Alexander Richard, Colin Lea, Shugao Ma, Jurgen Gall, Fernando De la Torre, and Yaser Sheikh. 2021. Audio-and gaze-driven facial animation of codec avatars. In Proceedings of the IEEE/CVF winter conference on applications of computer vision.
[14] Wenzhe Shi, Jose Caballero, Ferenc Huszár, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert, and Zehan Wang. 2016. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. In Proceedings of the IEEE conference on computer vision and pattern recognition.
[15] Jiale Tao, Biao Wang, Borun Xu, Tiezheng Ge, Yuning Jiang, Wen Li, and Lixin Duan. 2022. Structure-Aware Motion Transfer with Deformable Anchor Model. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
[16] Shih-En Wei, Jason Saragih, Tomas Simon, Adam W Harley, Stephen Lombardi, Michal Perdoch, Alexander Hypes, Dawei Wang, Hernan Badino, and Yaser Sheikh. 2019. VR facial animation via multiview image translation. ACM Transactions on Graphics (TOG) (2019).
[17] Zili Yi, Qiang Tang, Vishnu Sanjay Ramiya Srinivasan, and Zhan Xu. 2020. Animating through warping: An efficient method for high-quality facial expression animation. In Proceedings of the 28th ACM international conference on multimedia.
[18] Egor Zakharov, Aliaksandra Shysheya, Egor Burkov, and Victor Lempitsky. 2019. Few-shot adversarial learning of realistic neural talking head models. In Proceedings of the IEEE/CVF international conference on computer vision.
[19] Ruiqi Zhao, Tianyi Wu, and Guodong Guo. 2021. Sparse to dense motion transfer for face image animation. In Proceedings of the IEEE/CVF International Conference on Computer Vision.
Few-shot adversarial learning of realistic neural talking head models. In Proceedings of the IEEE/CVF international conference on computer vision.
[19] Ruiqi Zhao, Tianyi Wu, and Guodong Guo. 2021. Sparse to dense motion transfer for face image animation. In Proceedings of the IEEE/CVF International Conference on Computer Vision.