2024年1月17日Arxiv热门CV大模型论文:High-Quality Mesh Blendshape Generation from Face Videos via Neural Inverse

清华新突破:从视频到高质量面部重建,神经逆渲染技术重塑动画制作标准!

引言

在电影和游戏行业中,面部动画的真实感和精确度至关重要。它不仅影响观众的沉浸体验,还对角色的情感表达和故事叙述起着至关重要的作用。然而,创造逼真的3D面部动画是一项极具挑战性的任务。在工业界,通常需要通过高级的多视角设置捕获真人的面部表演,并且需要艺术家手动生成面部装配(rig),然后将其导入动画管线中用于游戏和电影制作。此外,虚拟现实(VR)和增强现实(AR)应用需要为广大用户群体建模面部装配,这就需要一种自动化的方法来从广泛的捕获设置中进行面部建模。其中一个关键要求是,所建模的面部装配必须与动画管线兼容,以便进行后续的动画应用。

尽管RGB摄像头在日常移动设备上普遍存在,使其成为许多工作中用户友好的面部重建选择,但简化的渲染模型会导致面部材质和任意光照的欠拟合,从而负面影响形状重建质量。随着神经逆渲染技术的最新进展,如神经面部化身技术,可以从常见的RGB录像中生成逼真的可动化化身。然而,这些技术并不依赖于高质量的拓扑一致网格表示,因此与工业动画管线不兼容,影响了它们的实用性。为了弥合现实建模与当前动画管线使用简单录像设置之间的差距,我们一方面将动态面部建模表示为基于拓扑一致面部网格的混合形状装配(blendshape rig),另一方面,我们优化混合形状,采用新颖的每顶点变形方案,以精确匹配RGB视频中生成的动画与面部表演(逆渲染)。一旦收敛,所获得的混合形状可以导入到动画软件(例如Blender)中,为工业应用生成逼真的特定于个人的面部动画。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」 智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

论文标题、机构、论文链接

论文标题:
High-Quality Mesh Blendshape Generation from Face Videos via Neural Inverse Rendering

机构:

  1. Tsinghua University
  2. Hong Kong University of Science and Technology

论文链接:
https://arxiv.org/pdf/2401.08398.pdf

方法概述:从视频中重建个性化网格基础混合形状的技术

1. 网格变形的表示方法

在本技术中,网格变形是通过将顶点位移参数化为具有四面体连接的微分坐标来表示的,这允许在高分辨率网格上实现高质量的顶点变形。通过构建一组语义规则,我们实现了混合形状和表情系数的联合优化。

2. 语义规则的构建与联合优化

为了解决表情基础和系数优化的歧义性,我们引入了基于局部性、稀疏性和对称性的正则化技术。这些技术确保了我们获得的面部装备在语义上是一致的。

3. 多视角输入的用户友好处理

为了使多视角输入更加用户友好,我们提出了一个神经回归器来模拟时变运动参数。这种方法隐式地考虑了多个摄像机之间的时间差异,提高了运动建模的准确性。

核心技术:基于神经逆渲染的混合形状重建

1. 顶点变形与四面体连接

我们通过TetGen工具将网格表面和相应内部插座之间的封闭空间填充为四面体,以防止由于大变形而发生的相互穿透。这种方法的记号为Φ,它用于四面体化和重新参数化每个顶点的变形。

2. 正则化技术:局部性、稀疏性和对称性

我们提出的正则化技术基于三个原则:局部性、稀疏性和对称性。这些原则确保我们获得的面部装备在语义上是一致的,并且每个混合形状的更新集中在其原始激活区域。

3. 处理多视角输入的神经回归器

我们提出了一种一维Instant-NGP来存储时间信息,以隐式地确保多视角输入之间的时间同步。此外,我们为每个摄像机分配了一个可学习的潜在代码,以处理不同视角之间的曝光差异。

在总结中,我们的方法通过单视角或稀疏多视角视频输入,重建了个性化的高保真混合形状,这些混合形状在几何和语义上都是准确的,并且与工业动画流水线兼容。

实验设计:实验设置和数据集介绍

在本研究中,我们提出了一种新颖的技术,用于从单视图或稀疏多视图视频中重建基于网格的混合形状(blendshapes),这些视频利用了最新的神经逆渲染技术。我们的方法首先构建了一个变形表示,该表示将顶点位移参数化为带有四面体连接的微分坐标,允许在高分辨率网格上进行高质量的顶点变形。通过在此表示中构建一组语义规则,我们实现了混合形状和表情系数的联合优化。此外,为了实现用户友好的多视图设置,我们提出了一个神经回归器来模拟时变运动参数,这种方法隐式地考虑了多个摄像机之间的时间差异,从而提高了运动建模的准确性。实验表明,我们能够从单视图或稀疏多视图视频中重建个性化的高保真混合形状,这些混合形状在几何和语义上都是准确的,并且与工业动画流水线兼容。

为了实现高质量的形状重建和动画,我们通过神经逆渲染优化混合形状装备,提出了一系列技术来解决三个未解决的问题。首先是优化高分辨率网格的每个顶点变形,这可能是不平滑的,并且容易发生自相交。其次,优化表情基底或系数以适应用户任意的面部表现存在歧义,先前的方法通常通过排除表情系数的优化(通过预处理步骤估计它们)来规避这一问题,因此只能达到局部最优。第三,多视图输入对于准确重建非刚性面部变形很有用,但先前的研究通常不假设多视图输入是现成可用的,因为它们通常与复杂的程序(如同步和颜色校正)相关联。我们通过提出一个神经回归器来模拟时变运动参数,隐式地确保时间同步,从而整合了来自非同步智能手机的稀疏多视图输入。

结果分析:几何重建的准确性和动画应用

1. 与现有方法的比较

我们在NeRSemble和Multiface数据集上对几何重建的准确性进行了定性和定量比较。我们选择了NHA和PointAvatar作为最新的基于显式形状表示的面部头像工作进行比较。如表1所示,我们的方法在两个数据集上的点到平面误差方面均优于其他方法。在图3中,我们通过热图可视化了点到平面误差,其中我们的方法在眼睛和鼻子区域实现了更准确的重建。在图4中,我们展示了身份和表情相关面部细节的定性比较结果。在第一行中,我们的方法重建了更具个性化的撅嘴表情。在第二行中,我们的方法成功重建了特定于输入身份的鹰钩鼻,这是一个独特的几何特征。

2. 变形表示和语义正则化的消融研究

为了测试混合形状变形表示在保持网格所需属性方面的必要性,我们在不同设置下呈现了几何重建结果。我们将我们方法的重建结果与以下设置进行了比较:(1)不使用微分坐标和(2)禁用四面体连接。然后将结果与完整流水线进行比较。如图6上行所示,优化过程中使用微分坐标显著增强了面部表面的平滑度,有效消除了许多伪影。图6下行展示了在顶点变形过程中使用四面体连接的结果。当用户表现出极端的面部表情,如撅嘴时,尤其是对于高分辨率网格,嘴巴插座和面部表面之间存在穿透风险。通过在表面点和内部插座点之间建立四面体连接,我们有效地减轻了穿透问题,而不影响几何细节的重建质量。

3. 表情重定向和新视角合成的应用展示

我们展示了重建结果的动画应用,包括表情重定向和新视角合成。如图7所示,我们展示了由不同身份的表演者驱动的重建面部装备的结果。在撅嘴表情期间,我们的方法合成了不同个体之间的独特唇形(第四列),在做鬼脸时,我们观察到特定于个人的鼻唇沟(第三列)。当皮肤放松时,与表情相关的鼻唇沟被正确地停用(第四列)。我们的面部装备包括完整的牙齿,可以正确驱动(第二列和第四列)。由于观察有限,我们的牙齿没有接受顶点变形。然而,在优化过程中考虑了牙齿的约束,以确保与唇部动作的兼容性。这确保了即使在更新唇部动作的表情基础时,也不会与牙齿发生穿透。在补充视频中,我们展示了由驱动装备生成的面部动画。

如图8所示,我们的方法可以合成逼真的新视角。我们的方法可以从稀疏多视图输入中准确重建耳朵的几何和外观,确保有效的新视角概括耳朵外观,并合成高质量的耳朵(第三列)。延迟渲染MLP适用于合成逼真的面部外观,但不能直接导入当前的动画软件。使延迟渲染MLP与动画流水线兼容是未来工作的方向。

讨论与局限性:方法的优势和未来改进方向

在本研究中,我们提出了一种新颖的技术,用于从单视图或稀疏多视图视频中重建基于网格的混合形状(blendshape)装备。这一技术的优势在于其能够重建出既几何上精确又语义上准确的个性化高保真混合形状,这些混合形状与工业动画流水线兼容。我们的方法通过构建一个参数化顶点位移的变形表示,并将其与四面体连接相结合,从而在高分辨率网格上实现高质量的顶点变形。此外,我们还提出了一种神经回归器来模拟时间变化的运动参数,这种方法隐式地考虑了多个摄像机之间的时间差异,提高了运动建模的准确性。

然而,我们的方法也存在一些局限性。首先,尽管我们的方法能够重建准确的表面几何形状,但它并不适合建模像头发这样的细微体积细节。其次,我们的方法优化了每一帧的头部姿势,而相机的内部和外部参数是在捕捉前使用棋盘格图案校准的。未来的工作可以探索将最新的相机参数联合估计方法与我们的方法结合起来。此外,我们的方法可以个性化模板混合形状,但在实验中使用的ICT模型并没有包含舌头的混合形状,因此我们的实验没有展示舌头建模。

未来改进方向

  1. 探索混合表示法,使用不同的几何形式来表达面部皮肤和头发,以实现更高质量的头像渲染。
  2. 集成最新的相机参数联合估计方法,以实现更准确的头部姿势和相机参数的优化。
  3. 扩展混合形状模型,包括舌头或其他面部组件,以增强面部动画的真实感和表现力。

总结:总结论文的主要贡献和技术成果

本研究的主要贡献在于提出了一种能够从RGB视频中通过神经逆渲染重建个性化混合形状的方法。我们的方法有效地弥合了传统动画流水线和最新神经逆渲染技术之间的差距。通过使用动态面部建模的混合形状装备表示,我们引入了一个联合优化过程,通过每个顶点的变形方案来细化装备,确保与动画流水线的无缝兼容性,并与RGB视频中的面部表现精确对齐。我们的贡献还包括一个高效的逆渲染框架,该框架将神经着色与混合形状结合起来,使得在多样化的照明和材料条件下重建动画准备就绪的面部装备成为可能。我们引入了一种新的混合形状变形技术,该技术结合了差分坐标和四面体连接,并加入了语义规则化,以增强表现力并遵循体积拉普拉斯规则化。实验表明,我们的方法在从单视图或稀疏多视图视频中获取高质量、动画准备就绪的面部装备方面是有效的,突出了其准确性和动画应用的适用性。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」 智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

你可能感兴趣的:(人工智能,深度学习,计算机视觉,论文阅读,神经网络)