《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译

Temporal Consistency Loss for High Resolution Textured and Clothed 3D Human Reconstruction from Monocular Video


Abstract

我们提出了一种新的方法来学习时间一致的三维重建穿衣服的人从一个单眼视频。最近使用体积、隐式或参数人形模型从单眼视频进行三维人体重建的方法,产生每帧重建,产生时间不一致的输出和有限的性能。在本文中,我们提出了一种学习纹理重建的时间一致性特征的方法,提出了两个进展:一种新的时间一致性损失函数;以及二维图像和粗三维几何隐式三维重建的混合表示学习。该进展提高了从单眼视频中进行的三维重建和纹理预测的时间一致性和准确性。对人体图像的综合比较性能评价表明,该方法显著优于基于学习的单图像三维人体形状估计方法,显著提高了重建精度、完整性、质量和时间一致性。对人体图像的综合比较性能评价表明,该方法显著优于基于学习的单图像三维人体形状估计方法,显著提高了重建精度、完整性、质量和时间一致性。


1.Introduction

从图像中解析人是许多应用程序中的一项基本任务,包括AR/VR界面[13]、角色动画[36]、自动驾驶、虚拟试用[10]和重现[30]。在二维人体姿态估计[8,2]、二维人体分割[14,49]和单眼视频[25,48,45]的三维人体姿态估计等方面,在了解人体的粗糙几何结构方面取得了重要进展。最近的研究已经学会从单一图像中估计完整的3D人体形状,令人印象深刻的结果[41,43,52,20,46,6]。然而,由于在动作、衣服、头发、摄像机视角、体型和姿势上的变化很大,从单眼视频中进行的时间一致的纹理三维重建仍然是一个具有挑战性的问题。本文通过利用宽时间分离帧和混合隐式-体积表示之间的时间一致的单眼训练损失来解决文献中的这一差距,如图1所示。

《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译_第1张图片

 图1。给定一个受试者的单目视频(中间),所提出的方法创建了一个准确的和时间上一致的三维重建(顶部)与纹理(底部)。

传统的多视图重建方法[34,28,12,50]已经证明了时间一致性重建[27,37,35]的优势。然而,从单眼RGB视频中进行时间一致的3D人类重建仍然是一个开放的挑战。基于参数模型的三维人体形状估计方法已经被提出,利用时间神经网络架构[23,24]来实现时间一致的三维输出。现有的参数模型只代表潜在的裸体形状,缺乏衣服和头发的重要几何变化。用于表示服装[4]的增广参数模型表示仅限于紧身服装,紧身服装双射映射到体型,不能准确地表示一般服装,如裙子和夹克。

最近的无模型方法在使用学习的体积[52,20,38,39]、点云[11]、几何图像[42]和隐式[43,44]表面表示,从单一图像的三维形状重建方面取得了令人印象深刻的结果。[7]提出了多视图监督来学习完整和视图一致的三维人体重建。ARCH[17]提出了对单一彩色图像的任意姿态的鲁棒三维重建,Li等人[29]提出了对视频但逐帧处理的三维人体重建。这些方法只用单图像和三维模型对进行训练,而没有利用帧间的时间信息。我们为了解决这个问题,提出了一个学习框架来进行纹理三维人体重建,使用宽时间帧视频的时间一致性,以及高分辨率纹理三维形状重建的混合三维体积隐式表示。利用一种新的宽时间分离帧之间的时间损失函数来学习体积形状表示,从而确保了被遮挡表面区域的精确单视图重建。新的损失函数学习在单眼重建中加入表面光一致性线索,而这些线索在观察到的图像或三维地面真实形状中是不存在的。只有当训练模型的预测在所有时间视图中都是一致且可信的时,时间一致性才能被最小化。提出的方法预测高分辨率的三维几何和彩色纹理从一个单一视图的可见和看不见的人体部分。这项工作的贡献包括:

1.一种新的学习框架,时间一致重建的详细形状和纹理从单眼视频

2.基于形状和外观重建的宽时间框架一致性的时间一致性损失

3.一种学习三维形状的混合表示,它结合了显式体积表示和隐式形状细节的优点

4.第一个真实的合成视频数据集的400人与地面真实的3D模型

与现有的单图像人体重建[52,43,44,29,7]方法相比,所提出的方法学习了一个时间上一致的混合表示,从而显著提高了重建的准确性和完整性。


2.Related Work

2.1.单眼三维人体重建

从单个图像中解析三维人可以分为基于模型的和无模型的三维人重建。第一组方法使用参数化的人体模型,如SMPL[32,3],以迭代的方式估计身体姿态和形状参数,使用二维关节位置[22]、二维关节和轮廓[5]或三维关节和网格坐标[41]。为了提高模型的精度,在回归网络[26]中加入了一个迭代优化阶段。尽管基于参数模型的方法能够从野外的单一图像中可靠地估计人体,但估计的形状是没有头发、衣服或其他表面细节的裸体人体。最近的方法已经将其扩展到紧身衣[33]。

无模型的非参数三维人体重建方法重建了穿衣服的人,概述如表1所示。无模型方法,如人体[46],SiCloPe[38],Deep人类[52]和MCNet[7],从单一图像中直接推断人体形状的体积。然而,用体素表示三维人体形状限制了服装和头发细节的表面分辨率。引入隐式函数网络,对单幅图像进行高分辨率的三维重建。PIFU[43]通过提出一种隐式解码器来估计单个图像的三维人体重建,该解码器采用像素级图像和深度特征,并预测封装体积中三维点的占用值。在此基础上,PIFUHD[43]对之前的方法进行了改进,将从表面法线映射中提取的特征添加到隐式解码器中,以重建三维人体的形状细节。然而,这两种方法都不能处理人体姿势、衣服和头发的巨大变化。ARCH[17]提出了一种隐式函数网络的变化,利用拟合的参数模型,以改进任意人体姿态的三维重建。在以往的方法中,PIFU和ARCH不仅从单一图像重建人体的三维几何,而且预测重建的完整纹理外观。

以前的方法只考虑一个图像,没有任何时间信息或一致性。这导致了形状和外观的不一致。我们提出了一种新的方法来学习单眼视频的三维重建,使用图像-三维模型对以及视频帧和三维模型之间的时间一致性。

《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译_第2张图片

 表1。单视角三维重建方法的比较。

2.2.神经网络中的时间一致性

除了三维形状估计之外,以往的应用方法在风格转移[16]、视频到视频合成[47]或单眼深度估计[51,40]中通过时间一致性损失来加强时间一致性。训练或测试中的时间一致性损失鼓励沿输入视频估计的时间对应有相似的值。现有的时间相干三维重建方法[27,37,35]需要多视图输入视频。将视频中的每一帧独立应用于单图像的三维形状估计方法通常会产生闪烁的结果。为了解决这种基于模型的方法,我们已经利用了时间相干性[23,24]。然而,我们的目标是从一个视频中预测时间一致的无模型3D服装人类重建,表1。采用前馈网络对单眼视频进行单视图三维人体重建,同时保持视频帧之间的三维时间一致性。我们的前馈网络是通过强制输出的时间距离帧的三维重建既精确和时间一致来训练的。一个移动的人的单目视频提供了重要的额外信息。这个人的身体/衣服的形状和外观应该在时间上保持一致。

2.3.学习混合三维表示法

无模型的单图像三维人体重建方法使用各种三维表示——体素、点云、几何图像和隐式表示,如表1所示。使用体素表示增加了计算成本,限制了三维表面的分辨率,但它保持了三维重建的全局拓扑性和局部性。隐式表面函数表示在推理过程中失去了三维人体的全局拓扑结构,但以高水平的形状细节重建了表面。最近的研究结合了多种三维表示,以利用它们在三维深度学习[31,15]中的相对优势。[31]以点表示三维输入数据,以减少内存消耗,同时以体素进行卷积,以减少不规则、稀疏的数据访问,提高局部性。另一方面,[15]结合潜在体素特征和内隐式函数学习进行三维几何预测。然而,[9]表明,使用潜在特征限制了学习复杂几何图形的能力,如铰接形状,而潜在特征方法不能保留三维表面细节。因此,[9]提出了一种改进的三维形状编码方法,通过与学习到的卷积相结合,对三维数据进行丰富的编码。在本文中,我们设计了一种混合隐式-体积解码器,利用时间相干三维体素重建和图像特征,在隐式函数学习框架下预测被衣人的三维几何和纹理。

《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译_第3张图片

 图2。所提出的框架,以实现时间一致的三维人体重建学习从视频

3.时间上一致的三维重建

本节解释了新提出的方法,以时间一致的纹理三维人体重建从单眼视频。该方法的概述如图2所示。从一个具有任意姿态、服装和视点的动态人体的单目视频中得到N帧作为管道的输入,该网络以时间一致的方式预测纹理化的三维人体重建。

《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译_第4张图片

 图3。该图显示了混合隐式三维重建网络(H3DN)和混合隐式三维纹理网络(H3dTexN)。

3.1.学习三维表面重建

我们提出了一种从单眼视频中学习三维表面重建的方法(图2)。与以往的单视图三维重建方法相比,表1,从单个图像中学习三维人体表面重建,我们提出了一个级联网络架构来从单眼视频中学习。该体系结构由时间体素回归网络(TVRN)和混合隐式三维重建网络(H3DN)组成。TVRN从单眼视频中重建时间一致的体素占用网格,然后H3DN细化表面重建。所提出的体素回归网络学习以时间一致的方式重建人体形状:给网络N个视频帧,每一帧通过自己的体素回归网络,参数在N个网络之间共享。通过TVRN网络的体素估计减少了随着时间的推移重建的不一致性。然而,由于体素的量化,TVRN缺乏高分辨率的表面细节。因此,将预测的体素重构传递给混合隐式表面函数解码器,以获得高质量的表面重构。

3.1.1.学习架构

如图2所示的学习架构由两个子网络组成,即时间体素回归网络(TRVN)和混合隐式三维重建网络(H3DN)。在以前的工作中,体素回归已被用于从单一图像[52,7,20]中处理各种姿态的完整三维重建。受这些方法的启发,我们使用体素回归网络体系结构,从单个图像重建三维人体的完整拓扑结构。为了获得时间一致的重建,我们引入了一个新的学习框架,利用通过提出的TVRN架构从视频帧重建之间的时间一致性(图2)。TVRN网络由多个参数的并行堆叠沙漏网络组成。这种架构允许在来自输入视频帧的3D重建之间引入一个时间损失函数。如图2所示,使用N帧训练TVRN网络,包括时刻t的当前帧I_{t}和N−1不同时间的其他帧。TVRN网络学习时间一致的三维形状,并预测所有帧的体素占用网格,使用提出的损失函数,该函数在不同时间帧的预测体素占用网格之间计算(3.1.2节)。

然而,由于体素的量化,TVRN的时间一致输出限制了表面细节。为了表示高分辨率的形状细节,我们提出了混合隐式三维重建网络(H3DN)来细化时间上一致的体素占用网格。在文献中已经提出了从单个图像[43,44,17]中学习和预测隐式表面表示的方法。这些隐式重建方法在三维表面上提供了一个高水平的细节。然而,由于训练过程中的采样方案,以往所有的方法都失去了人体的完整拓扑结构。在本文中,我们通过使用体素占用网格作为隐式表示的输入,而不是单个输入图像来解决以往方法的这一局限性。这使得我们可以通过隐式功能学习和输入体素占用网格分别重建高水平的表面细节,并保持覆盖人体的完整形状拓扑。利用所提出的新型混合隐式函数网络得到了隐式曲面,该网络以多个特征编码作为输入,并预测了一个三维点的占用率。在网络中,来自三个不同输入(图像、体素和深度)的特征编码器和一个多层感知器(MLP)作为解码器来预测占用值。

如图3所示,将每个采样的三维点(X)投影到输入图像(x)上,并通过连接沙漏网络[43]的中间层输出来提取像素级图像特征。我们将像素级的图像特征表示为\boldsymbol{H}\left ( I\left ( x \right ) \right )。到解码器的第二个输入是从TVRN网络的输出中提取的点级特征,即体素占用网格。对于采样的三维点,我们在对齐的体素占用网格中使用三线性插值,在采样点附近内应用多尺度形状编码[9]。对三维采样点(X)的形状编码记为S(X)。该解码器的最后一个输入是采样的3D点(X)相对于摄像机的深度值,记为D(X)。整体混合隐式曲面函数形式化为f_{geometry}

 隐式函数预测采样的三维点的占用值。利用标记立方体获得了高质量的表面重建。

3.1.2.损失函数

所提出的网络是由由时间帧渲染的地面真实三维人体模型进行监督,并在来自单眼视频的时间距离帧之间进行自我监督。为了训练TVRN网络,我们将三维损失L^{Voxel}_{3D}和时间一致性损失L^{Voxel}_{TC}相结合。三维损失函数L^{Voxel}_{3D}计算时间帧t的估计三维体素占用网格(\hat{V}_{t})和三维地面真实值(V_{t})之间的误差。如式2所示,在网络输出上应用一个s型函数后,计算出二值交叉熵[19]。特别地,我们使用加权二进制交叉熵损失,\gamma是一个权重来平衡体素体积中的占据和未占据点:

 

 

 其中,V^{xyz}为一个体素网格V在位置(x、y、z)处的占用值。训练一个只具有二元交叉熵损失的网络,可以对人体的动态部分进行时间上不一致的重建,如图2所示。为了提高三维模型的准确性和完整性,我们提出了第二个损失函数,即从多个视频帧重建之间的时间一致性损失(L_{TC})。在时间一致性损失的情况下,表示可以学习出对时间变化、自遮挡和帧间闪烁的稳健特征。将每帧估计的三维体素占用网格和顶点之间的时间对应转换为体素对应,如图4所示。时间一致性损失在方程3中定义,L2损失计算了一帧的体素占用估计\hat{V}和其他N-1个帧之间的损失。

《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译_第5张图片

 其中,P为三维点对应之间的变换算子。

为了训练混合隐式三维重建网络,我们在三维人体模型的表面周围采集三维点样本及其占用值。我们采样数量为n\in \mathbb{N}的点P_{i}\in \mathbb{R}^{3},i∈1,...,n,通过在每个三维人体模型的地面曲面上采样点,并添加随机位移尼n_{i}\sim N\left ( 0,\sigma \right ),即p_{i}^{s}:= p_{i}+p_{n}。然后,我们计算采样点的地面真实占用值,o\left ( p_{i}^{s} \right )\in \left \{ 0,1 \right \}。如果p^{s}_{i}在网格表面内,则对应的o\left ( p^{s}_{i} \right )=1,如果不是,则对应的o\left ( p^{s}_{i} \right )=0。我们通过最小化平均均方误差来训练几何预测网络(方程1):

 然后,两种训练的网络被用来估计单眼视频的时间一致的三维重建。下一节描述了对每个三维形状估计的时间一致纹理的估计。

3.2.学习纹理三维重建

为了重建完整的三维人体模型,我们提出了一个时间上一致的纹理预测网络除了几何重建,即混合隐式三维纹理网络(H3DTexN)提出的方法(图3)预测的颜色值重建表面上的每个顶点从一个单目视频。与之前的方法[43,29]不同,H3DTexN使用所提出的新型混合结构和损失函数,以时间一致的方式学习纹理预测。

《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译_第6张图片

 图4。这张图显示了来自单眼视频的时间距离帧之间的时间三维顶点对应,以训练所提出的网络:TVRN和H3DTexN(Sec。3)

3.2.1学习架构

总体方法如图3所示,其中包含N个堆叠的混合编解码器网络,其中N是H3DTexN网络学习时间一致纹理的输入视频帧数。这些参数在混合编解码器网络之间共享。每个混合编码器-解码器以多个特征编码作为输入,并使用多层感知器(MLP)解码器预测采样的3D点的RGB颜色来预测颜色值。在训练过程中,如图3所示,将采样的三维点(X)投影到输入图像(x)上,通过连接改进的Resnet网络体系结构[21]的中间层输出,提取像素级图像特征。我们表示为像素级的图像特征H(X)。解码器的第二个输入是从混合隐式三维重建网络的输出中提取的点向特征,即点占用值。对于采样的三维点,我们采用三线性插值方法在采样点附近的预测占用值中应用多尺度形状编码[9]。采样点(X)的形状编码记为S(X)。该解码器的最后一个输入是采样的3D点(X)相对于相机的深度值,记为D(X)。整体混合隐式纹理函数为fcolor:

 该方法学习不同视频帧之间的时间一致性预测,并允许我们使用时间一致性损失(3.2.2节)。在整个网络中,我们提出了一个神经网络框架来学习时间一致的三维纹理人类重建从视频。图像编码器和MLP网络的细节在第4节中解释。与以往的方法[17,43]相比,混合解码器通过形状编码捕获形状的全局拓扑,以最小的计算成本预测三维重建的精确几何和纹理。

3.2.2损失函数

我们通过最小化两个损失函数,来训练混合隐式三维纹理网络(H3DTexN)。为了计算,我们采样点P_{i}\in \mathbb{R}^{3},i∈1,...,m,通过在每个人类模型的地面真实曲面上采样点。然后,我们得到采样点的颜色值,。我们通过最小化平均绝对差分误差来训练纹理预测网络:

 为了以时间上一致的方式训练纹理预测网络,我们使用采样点的时间对应,,并通过最小化一次帧的颜色估计和N-1其他帧之间的L2损失来训练网络: 

《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译_第7张图片

 整体损失函数L是几何形状和颜色的组合损失函数:

《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译_第8张图片

 用单眼视频输入法对该方法进行了测试和说明2。从一个单眼视频中提取的每一帧首先被传递给TVRN。然后,将占用体积内的每个采样点作为H3DN的输入,以预测每个采样点的占用值。然后,利用行进立方体算法,从占用体积中估计网格表面重建。对于外观,我们使用训练过的H3DTexN来预测每个重建的3D点的颜色值,输入值为:预测的占用量和一个视频帧。

 4.实验评价

 本节介绍了对具有不同姿势和服装的人的图像和视频的实现细节和合成数据集生成的定性和定量结果。我们在从数据集中随机选择的单眼视频上评估了所提出的方法。对于每个视频,我们给出了网络视频帧和相关的分割掩码。对于一个给定的测试视频,所提出的方法基于在第3节中提出的框架,估计了时间上一致的表面形状和纹理外观重建。

 4.1.数据集

提出的单眼视频的时间一致纹理重建监督从地面三维人体模型和视频帧之间的时间顶点对应。因此,我们使用公共领域合成人类图像数据生成框架3DVH[7]中使用的类似框架生成了一个新的数据集(图7)。由于3DVH仅限于3D人类的静态图像,我们生成了400个人类模型的30帧长度的视频序列,其服装、头发和姿势有很大的变化,每帧呈现100个相机视图。该数据集被称为3DVH视频,并将提供可用于研究。

4.2.实施细节

该网络在3DVH视频数据集上进行训练,该数据集分为训练集、验证集和测试集。在时间体素回归网络(TVRN)网络中,输入图像的大小为512×512×3,输出体素网格分辨率为128×128×128。在地面真实数据中,被占用体积内部和外部的点分别被分配给1和0个值。在训练期间,批大小设置为4,epoch设置为40。通过这些设置,网络将使用12gb内存的NVIDIATitanX进行3天的训练。TVRN在相对较低的内存gpu上进行训练,将分辨率限制在1283;然而,我们可以获得更高的分辨率,因为混合隐式三维重建模块可以从更高的体素分辨率中提取三维形状特征进行训练。Adam优化器与学习速率lr=2.5e−4一起使用,每20个时代抽取一次步长。

利用TVRN和视频帧中预测的三维体素输入集,训练混合隐式三维重建(H3DN)网络。在训练该网络的过程中,在三维地面真实模型(Sec.3.1.2)的表面周围采样三维点。为了训练网络,我们使用了三维地面真实曲面内外的10000个样本点。为了从体素中提取点的形状特征,我们使用IFNET[9]的三维卷积结构,正如第二节中解释的那样。3.1.1.点态特征的大小为[2583×1]。对于图像编码器,我们使用沙漏网络架构[43]来获得大小的像素级特征[256×1]。对于最后一个特征编码器,即深度编码器,我们对样本点相对于相机的实际深度值进行了归一化处理。为了预测采样的三维点的占用值,这些特征的串联通过一个多层感知器(MLP),该感知器分别由5个输入/输出大小的线性层组成[2849、1024、512、256、128,1]。

对于纹理预测网络,我们使用CycleGAN架构[21]的图像编码器提取5个输入/输出大小线性层的像素级图像特征和MLP[2849,1024,512,256,128,3]。这两个网络都使用具有12GB内存的NVIDIATitanX进行了5天的训练,有2个批处理大小和100个周期。RMSprop优化器与学习速率lr=1e−3一起使用,每60个历元抽取一次步长。

《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译_第9张图片

图5。Deephuman[52]、MCNet[7]、PIFU[43]、PIFUHD[44]的重建结果,以及所提出的方法和地面真实的三维人体模型。 

《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译_第10张图片

 图6。PIFU[43]的纹理重建结果和所提出的方法和地面真实的三维人体模型。

《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译_第11张图片

图7。该图显示了来自3DVH视频数据集的样本序列。 

4.3.评估

该方法与最近四种最先进的基于深度学习的单图像三维人体重建方法进行了定性和定量的评估:DeepHuman[52],PIFU[43],MCNet[7],PIFUHD[44]。为了进行公平的比较,我们使用作者提供的代码,使用3DVH视频数据集对MCNet、PIFU和深度人进行再训练,并使用预先训练过的PIFUHD网络(训练代码不可用)。对使用所提出的方法和最先进的方法获得的三维形状的定性和定量比较,如图5、6和8所示,以及地面真相。所有算法均采用单眼视频输入进行测试,图5显示了来自侧视图的三维重建结果。这些结果表明,基于体素的方法,DeepHuman和MCNet,能够预测没有布和毛发细节的粗三维重建。另一方面,隐式表面重建方法PIFU、PIFUHD可以重建更好的表面细节,而任意姿态的人体整体拓扑结构则会出现误差。例如,图5说明了PIFU和PIFUHD预测了不正确的重建。此外,以前的方法显示了随着时间的推移,相邻重建之间的时间不一致。例如,PIFU和PIFUHD方法预测了衣服、面部和头发的不一致的三维重建(图5)。然而,所提出的方法使用损失函数训练的混合体积隐式表示来增强时间一致性,结果得到时间一致的重建,正确预测单眼视频的体型和表面细节。

纹理预测结果及所提方法与PIFU[43]的比较如图6所示。纹理三维重建结果显示了可见和看不见的部分的人。PIFU对不可见部分的精度有限,而所提出的方法能够预测完整表面的高质量的时间一致的纹理外观。在PIFU中,纹理预测网络使用图像特征,而所提出的方法也将形状特征编码到混合隐式表面解码器中。所提出的方法还解决了图6中视频帧之间的时间一致性。

《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译_第12张图片

 图8.【top】每个顶点的倒角从重建到地面真实模型的距离显示。三维错误地图说明了可见和不可见的边。【Bottom】对不同的误差指标,比较了所提出的方法与最先进的方法。CD:倒角距离,3D IoU:联合的三维交叉。有关更多详情,请参阅正文。

除了定性结果外,我们还使用地面真实的三维模型计算了两个误差度量,以测量形状重建的全局精度:倒角距离(CD)和联合的三维相交(3DIoU)[18]。图8显示了通过误差比较模型,将从蓝色到红色的结果与地面真相的比较。图8显示了重建的精度和视频帧之间的时间一致性。采用具有时间一致性的方法进行重建,明显优于之前所有方法获得的三维形状:DeepHuman、MCNet、PIFU和PIFUHD。除了提高重建的精度外,使用该方法估计的三维形状在时间上是一致的,在学习框架中利用时间冗余显著提高了估计的三维形状的准确性和完整性。

真实数据评估:我们评估我们的方法与最先进的方法,即DeepHuman[52],PIFU[43],MCNet[7],PIFUHD[44],该数据集包括在一个受控的室内工作室的动态真实人类的多个摄像机捕获。图9中最先进的方法使用真实的数据集来训练他们的模型:具体来说,Deep人类[52]是在THuman数据集上训练的,PIFu[43]和PIFuHD[44]使用真实的人类捕获的渲染人数据集。与这些方法相比,该网络是在合成的3DVH数据集上进行训练的。

在图9中,DeepHuman[52]可以恢复人体的粗糙形状,而DeepHuman[52]由于缺少肢体,从粗到细的方法失败了。虽然PIFu[43]和PIFuHD[44]可以恢复表面细节,但它们在错误的位置重建腿。在纹理三维重建中,PIFu[43]在可见部位表现合理,但在人体不可见部位表现失败。与其他方法不同的是,我们的方法能够恢复穿着衣服的3D人体,并预测可见和看不见部分的纹理。

《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译_第13张图片

图9。从电视主持人数据集[1]的真实图像的定性结果。 

局限性:虽然所提出的方法在重建质量上比现有的方法有了显著的提高,但它也与以前的方法存在相同的局限性。该方法假定人在场景中完全可见,不能处理物体的部分遮挡,与之前的方法一样,该方法还需要人的剪影和单眼视频进行三维重建。

5.结论与未来工作

本文介绍了一种基于单眼视频的时间一致纹理三维人体重建的新方法。该方法采用时间一致性损失进行训练,并使用混合体积-隐式译码器来学习整体身体形状和表面细节。介绍了一种新型的合成3DVH训练视频数据集,其中包括400人的真实视频,包括服装、头发、体型、姿势和观点的广泛变化。该方法在重建精度、完整性和时间一致性等方面都有了显著的提高,并比现有的单幅图像方法有所改进。时间一致性损失与混合隐式解码器可以显著改善了几何和外观重建,并实现了可靠的人体形状纹理重建。未来的工作将利用自监督学习方法,从野外视频中重建人类。

你可能感兴趣的:(论文翻译,音视频,深度学习,计算机视觉)