【论文解析】Pixel-aligned Volumetric Avatars

【论文解析】Pixel-aligned Volumetric Avatars_第1张图片

文章目录

  • 论文速读
  • Method
    • pixel-aligned Radiance Fields。
    • Volume Rendering
    • multi-view feature aggregation
      • 1. Fixed number of conditioning views
      • 2 Variable number of conditioning views
    • background Model
    • color correction model
    • Loss Function
  • Limitatons

论文速读

While such architectures achieve impressive rendering quality, they can not easily be extended to the multiidentity setting.

在这篇论文中,我们设计了一种新的方法,在给定少量输入的情况下,预测人体头部的体积化身。我们通过一种新的参数化来实现跨身份的泛化,该参数化结合了神经辐射场和直接从输入中提取的局部像素对齐特征,从而避免了对非常深或复杂网络的需要。 我们的方法是在端到端方式训练,仅基于光度重新渲染损失,而不需要明确的3D监督。

效果:
我们证明,我们的方法在质量方面优于现有的艺术状态,能够在多身份设置中生成忠实的面部表情
我们展示了我们的模型可以为看不见的身份和表情合成新的观点,同时在渲染的化身中保留高频细节。

contributions:

  • 我们引入了创新的pixel-aligned radiance field, 来从稀疏的图像中预测潜在的形状和外观。
  • 我们的模型可以推广到测试时不可见的恒等式和表达式。
  • 我们展示了与最近的方法相比,在新视角合成上的艺术表现的状态。

框架图
【论文解析】Pixel-aligned Volumetric Avatars_第2张图片

  • 给定一个目标视点和一组条件图像,我们的新方法利用从输入中提取的局部像素对齐特征来约束多身份神经辐射场。
  • 体绘制被用来从目标视点生成主题的图像。

Method

端到端的任务 —— images to images。 损失是预测图像和真实图像之间的l2 loss。

pixel-aligned Radiance Fields。

编码器获得的视角对应的 像素对齐的特征,和Radiance field 计算得到的每个点的颜色和密度:
【论文解析】Pixel-aligned Volumetric Avatars_第3张图片

获取 f X ( i ) f_X^{(i)} fX(i)的方法。 其中 π \pi π 是相机像素坐标的透视投影函数。 F ( f ( i ) ; x i ) \mathcal{F}(f^{(i)};x_i) F(f(i);xi)是在像素位置x处的双线性插值。
【论文解析】Pixel-aligned Volumetric Avatars_第4张图片

Volume Rendering

【论文解析】Pixel-aligned Volumetric Avatars_第5张图片
其中
在这里插入图片描述
在这里插入图片描述

实际上:
【论文解析】Pixel-aligned Volumetric Avatars_第6张图片
其中
在这里插入图片描述

multi-view feature aggregation

1. Fixed number of conditioning views

在这里插入图片描述
运算符表示沿着深度维度的链接。 这保留了所有视点的特性信息,让MLP来找出如何最好地结合和使用条件反射信息。

2 Variable number of conditioning views

为了总结多视图设置的特征,我们需要一个置换不变函数。
在这里插入图片描述

在这里插入图片描述
特征聚合的一个简单的置换不变函数是采样特征的均值
因为我们有固有的深度模糊(因为点在采样前被投影到特征图像上),我们发现这种聚合会产生伪影。(图9所示)

【论文解析】Pixel-aligned Volumetric Avatars_第7张图片

这种简单的图像特征均值没有考虑相机信息,可以帮助网络更有效地利用条件反射信息

为了向特性中注入视点信息,我们学习了另外一种网络。

在这里插入图片描述
取特征向量和摄像机信息(ci),并产生一个摄像机汇总特征向量。
这些修改后的向量然后为所有条件反射视图取平均值,如下所示
【论文解析】Pixel-aligned Volumetric Avatars_第8张图片
这种方法的优点是,在进行特征平均之前,相机总结的特征可以考虑可能的遮挡。摄像机信息编码为4D旋转四元数和三维摄像机位置。

background Model

为了避免在场景表示中学习部分背景,我们定义了一个背景估计网络
在这里插入图片描述
来学习每个相机固定的背景。特别地,我们预测最终图像像素为:
在这里插入图片描述
其中
在这里插入图片描述
这些内涂的背景通常是嘈杂的,导致在人的头部产生“光晕”效果(图7)。
【论文解析】Pixel-aligned Volumetric Avatars_第9张图片
们的背景估计模型学习残差到内画的背景。这样做的优点是不需要一个大容量的网络来说明背景。

color correction model

强度差异最终会被烘焙到场景表示N中,这将导致图像从某些角度不自然地变亮或变暗,为了解决这个问题,我们学习了每个摄像头的偏见和增益值。这使得系统能够更容易地解释数据中的这种变化。

Loss Function

我们训练辐射场和特征提取网络使用一个简单的光学重建损失
在这里插入图片描述

我们的方法是在端到端方式训练,完全基于这个2D重新渲染损失,而不需要明确的3D监督。

Limitatons

  1. 我们的方法目前对于完全未观察到的区域的外推能力有限,例如,如果只提供前视图作为示例图像,则无法对后脑进行详细重构
  2. )我们的方法目前还不能应用于野外数据。
    原因:
    1. 我们需要每个示例图像在测试时的绝对头部姿势。
    2. 我们的训练语料库没有捕捉到野外图像的光照光谱和背景变化。

你可能感兴趣的:(NeRF,计算机视觉,人工智能,深度学习,Pixel-aligned,NeRF)