元宇宙技术指南:高质量单视角RGB人体重建

©作者 | 江告

01 人体重建简介

在元世界中构造真实的3D人体模型是构建虚拟数字人的首要任务之一。三维人体重建旨在从2D人体信息恢复三维几何,例如对RGB输入进行三维重建。

元宇宙技术指南:高质量单视角RGB人体重建_第1张图片

重建后的三维人体,可以用于影视特效制作,实现包括动作驱动等应用。

02 人体重建经典方法介绍

经典的单视角RGB人体重建方法包括基于三维人体表示的重建,以及基于神经隐式函数的重建。

基于三维人体表示的重建使用SMPL提供人体先验,优化相应的表示参数。

以HMR为代表,输入单张图片,通过神经网络提取出图像特征,回归SMPL的shape和pose参数,以及对应的相机位姿。由于任意给定的shape或者pose参数不一定真的是一个合理的人,例如姿态不一定是人类可以实现的姿态,所以添加了判别器,筛去不真实的结果。

元宇宙技术指南:高质量单视角RGB人体重建_第2张图片

这种方法重建高效,但受限于人体表示的表达能力,往往只能重建赤身人体。

元宇宙技术指南:高质量单视角RGB人体重建_第3张图片

基于神经隐式函数利用了神经网络从大量数据中学习先验的能力,以及神经隐式表示灵活的表达能力,可以重建出带有服装细节的人体,以PIFu为代表。

PIFu能支持单视角或者多视角的输入,且可以重建高度复杂的形状,如发型、服装,以及它们的变化和变形都可以用统一的方式数字化。

PIFuHD进一步提升了PIFu的细节,通过设置端到端可训练的多级架构来解决这一限制。粗略级别以较低的分辨率观察整个图像,并专注于整体推理。并提供了一个精细级别的上下文,通过观察更高分辨率的图像来估计高度详细的几何形状。可以通过充分利用 1k 分辨率的输入图像,重建出精细的人体形状重建。

但这种方法往往依赖于训练集,而高精度三维人体的数据集获取非常困难。因此,需要一个泛化性更强、细节表达更丰富的方法来实现单目RGB的三维人体重建。

元宇宙技术指南:高质量单视角RGB人体重建_第4张图片

03 ICON:单视角in-the-wild RGB人体重建新方法

数据不足一直是深度学习的最大问题之一,由于现有公开数据集没有包含大量人体GT的野外场景数据,首先构造了数据集AGORA,《AGORA: Avatars in Geography Optimized for Regression Analysis》。

AGORA使用了4240个商业人体模型,和257个儿童,包含了不同的纹理和动作。将人体模型放入了不同的场景,共渲染了14K训练和3K测试图像。数据不仅能提供彩色图像,而且包含了3D groundtruth,以及注册了SMPL-X。

元宇宙技术指南:高质量单视角RGB人体重建_第5张图片

ICON 是使用深度学习模型,可以从彩色图像中推断出穿着 3D 衣服的人。 

具体来说,ICON 将 RGB 图像作为输入,其中包含一个分割好的的穿着衣服的人,以及估计的“衣服下”人体形状 (SMPL),并输出穿着衣服的人的像素对齐 3D 形状重建。

ICON 有两个主要模块:(1)SMPL 引导的穿衣人体法向预测和(2)基于局部特征的隐式表面重建。

从穿着衣服的人的单个 RGB 图像推断全 360° 3D 法向具有挑战性,主要因为遮挡部分的法向需要根据观察到的部分猜测。这是一项有歧义的预测问题,对深度网络具有挑战性。

元宇宙技术指南:高质量单视角RGB人体重建_第6张图片

对于SMPL引导的穿衣人体法向预测模块,

输入

和RGB图像,输出的是估计的法向。

首先使用现有方法PARE根据图像得到对应的SMPL。估计出来的SMPL网格,利用pytorch3D的可微渲染器,获得人体的正面和背面的SMPL法向图:

构建神经网络,输入和RGB图像,网络预测穿衣人体的正面及背面法向,该法向用于进一步构建隐式表示的特征。

基于神经网络的隐式表示模块,输入空间中的采样点,以及相应的特征,由网络输出Occupancy表示,该表示可以由Marching Cube算法提取出显示的网格。

对于每个采样点,构建了一个local特征;相比于PIFu的全局特征,局部特征能表示更精细的局部细节,且能减少全局姿势的对预测结果的影响。具体来说,local特征为

为查询点到最近的SMPL点的符号距离值;

为该点对应SMPL的重心面法向。

为该点的法向信息,

如果查询点可见,则为该点投影至2D平面的法线值,如果不可见,就为背面的法线值,这个操作可以让预测的结果更接近真实,而不是不论是否可见都直接使用预测的法向。

注意,这样构建的

与全局姿势无关。

在训练过程中,还对SMPL的拟合结果进行微调,主要是优化SMPL法向和预测的clothed-body法向的差异和轮廓的差异:

元宇宙技术指南:高质量单视角RGB人体重建_第7张图片

同时也微调法向,方法是使用优化后的SMPL,得到更好的法向。SMPL参数的微调和法向的微调在训练时交替进行。

元宇宙技术指南:高质量单视角RGB人体重建_第8张图片

网络的训练Loss为

对预测的法向和GT法向计算L1 Loss。感知Loss

用于提升细节,由2016年李飞飞的文章《Perceptual Losses for Real-Time Style Transfer and Super-Resolution》提出:

元宇宙技术指南:高质量单视角RGB人体重建_第9张图片

04 ICON的优势

相比于PIFu系列的方法,ICON可以以更少的数据实现更高的重建效果,这得益于精细设计的局部特征结构,表达了更精细的局部特征而不受全局特征的影响。

训练需要更少的数据也提高了网络的泛化性,这对数据极度缺乏的人体重建人物是个很好的解决思路。

元宇宙技术指南:高质量单视角RGB人体重建_第10张图片

同时ICON还提供了构建人体Avatar的方法。输入单人的序列视频,对图像可见的区域重建,重建后使用SCANimate构建可驱动的人体化身。

相比于早期制作人体化身需要高精度的采集设备和一系列的繁杂操作,所需更简单的设备,端到端的生成方法,这给低成本的数字化身制作提供了可行的方案。

元宇宙技术指南:高质量单视角RGB人体重建_第11张图片

缺陷。由于 ICON 之前利用的SMPL的参数化模型,远离身体的宽松衣服可能难以重建。

虽然 ICON 对身体拟合的小错误具有鲁棒性,但身体拟合的严重失败会导致重建失败。因为它是在正交视图上训练的,所以 ICON 难以产生强烈的透视效果,产生不对称的四肢或解剖学上不可能的形状。

未来的一个关键应用是单独使用图像来创建穿着化身的数据集。这样的数据集可以促进人体形状建模的研究,对时尚行业有价值,并促进图形应用。

元宇宙技术指南:高质量单视角RGB人体重建_第12张图片

私信我领取目标检测与R-CNN/数据分析的应用/电商数据分析/数据分析在医疗领域的应用/NLP学员项目展示/中文NLP的介绍与实际应用/NLP系列直播课/NLP前沿模型训练营等干货学习资源。

你可能感兴趣的:(元宇宙,计算机视觉,人工智能,深度学习)