人体三维重建(四)——非参数化人体方法简述

话不多说,直接介绍三维人体重建的非参数化方法。

非参数化方法的命名相对于参数化方法。该类方法直接重建高维的人体表面网格,而不是参数化方法中的低维人体参数表示。传统的非参数化人体重建一般也需要借助特殊的数据采集设备,例如激光扫描仪、深度相机等。

图1Vitronic 人体扫描仪

以商用人体扫描仪Vitronic为例(图1),待扫描人需身着紧身服装,并站在扫描仪中间的平台上,随后4个激光扫描探头高速地从头往下移动,对整个人体进行扫描,每个激光扫描探头获得单一视角下的局部点云。在扫描完成后的几秒钟内,配套的软件可以直接重建出三维人体网格。三维人体扫描仪能够较快较准确地获得静态三维人体模型,甚至能够重建出难以触及的身体部位,包括腋窝、腹股沟。常用于电影、游戏、人体测量以及服装定制等应用,也可以用于创建人体数据库,例如SCAPE[2]。但是激光扫描仪价格昂贵,且体积庞大。很多研究者也尝试利用消费级深度相机Kinect进行非参数化人体重建。

KinectFusion[33]是一种利用Kinect重建三维场景的经典方法,它通过增量式融合采集得到的几何信息来重建三维场景。受KinectFusion启发,后续研究者提出针对人体的非参数化重建方法[34–36]。这类方法通常需要多个视图下的人体深度图,可以通过多个围绕在重建对象四周的深度相机同时拍摄获得[34,37],也可利用单个深度相机围绕重建对象运动获得[35,36]。一般在扫描过程中,要求重建对象在采集的时候需保持特定不变的姿态,且尽可能少地身穿服装。

图2 Tong等人 [41] 的工作

Tong等人[41]搭建了一套人体扫描重建系统。采集环境如图2所示,包含3台精心布局的Kinect相机,该布局有助于消除点云重叠区域。他们首先利用3台Kinect捕获的深度图构造一个粗糙人体模板,随后通过非刚性全局配准方法配准多帧深度图像来完成人体重建。

Li等人[36]也使用单个Kinect,他们要求采集人员以固定姿态原地按照45度转动8次,以此得到8个视图下的深度图。随后采用ICP(Iterative Closest Point,迭代最近点)算法融合8个视图下的点云,并利用泊松曲面重建(Poisson Surface Reconstruction)得到三维人体网格模型。与基于Kinect的参数化人体重建方法相同,容易受到Kinect深度数据的噪声影响。同时在采集过程中采集人的姿态可能会发生轻微变化,同样会造成重建准确性下降。

近年来,一些研究者开始利用深度学习方法从单张RGB图像中重建非参数人体模型[38–40,42–45]。Varol等人[42]提出利用三维体素表示人体,并设计了一个融合二维姿态估计、人体部件分割等多个人体任务监督的人体体素预测网络BodyNet。

图3 Zheng等人 [39] 的工作

DeepHuman[39]利用参数化模型编码的低分辨率人体三维体素以及二维语义地图表示大致的三维人体,并将其与RGB图像一起作为输入,通过一个体素翻译模型预测人体表面的几何细节。如图3所示。这一结合参数化模型的思想随后被[45]所采用。但是以体素表征的三维人体往往面临着计算量过大、内存占用率高等问题,进而不得不降低体素分辨率进行预测,但这是以丢失人体表面细节为代价的。

近年来,针对非欧式数据的图卷积(GraphConvolution)在三维重建中逐渐流行。相比于用体素来表示三维物体,基于图卷积的三维重建则将其转化为网格表示(点、面)。Pixel2Mesh[46]是最早提出利用图卷积从单张RGB图像重建三维物体的工作,该方法为所有输入图像中包含的重建物体都初始化为一个椭球,并利用从输入图像提取到的图像特征逐步对椭球进行变形从而产生目标几何形状。

图4 Kolotouros等人 [38] 的工作

随后的一些研究者[38,43]将图卷积从通用物体的三维重建引入到人体的三维重建中。Kolotours等人[38]利用图卷积显式建模人体网格的拓扑关系,并且设计了一个从低分辨率网格到高分辨率网格重建的逐步优化的网络结构。如图4所示。该方法重建的三维人体在重建姿态上较为准确,但是在重建体型上与输入图片差异较大。

图5 Saito等人 [40] 的工作

还有一类方法则利用隐式函数来表示人体曲面[40,44]。Satio等人[45]提出一种从单张图像重建出穿衣服人体的表面几何细节和纹理信息。他们设计了一个区分三维点在物体表面内外的隐式函数,在测试阶段预测一个连续的空间内/外概率场,并通过在概率场中提取概率值为0.5的等值面得到人体的模型表面。如图5所示。

随着SCAPE模型的成功,一些研究者在其基础上不断改进,提出了各种升级版本,较为知名的如BlendScape[5],BreathScape[6],S-Scape[7]等等。但是SCAPE模型的变形依赖于三角形面片的旋转变形,而不是以动画软件中常用的顶点变形方法(如骨骼蒙皮)进行变形,因此SCAPE生成的人体几何模型难以在现有的动画软件(如Maya,Blender等)直接使用。

非参数化方法就介绍到这里,下期我们介绍参数化方法中的SMPL方法,喜欢的同学可以点赞,收藏,关注哟。

参考文献

接上篇参考文献

……

[2] ANGUELOVD,SRINIVASANP,KOLLERD,etal.SCAPE:Shapecompletionandanimationofpeople[J].ACMTrans.Graph.,2005,24(3):408-416.

……

[5] HIRSHBERG D A, LOPER M, RACHLIN E, et al. Coregistration: Simultaneous alignment and modeling of articulated 3d shape[C]//European conference on computer vision. Springer, 2012: 242-255.

[6] TSOLI A, MAHMOODN, BLACKM J. Breathing life into shape: Capturing, modeling and animating 3d human breathing[J]. ACM Transactions on graphics (TOG), 2014, 33(4):1-11.

[7] JAIN A, THORMÄHLEN T, SEIDEL H P, et al. Moviereshape: Tracking and reshaping of humans in videos[J]. ACM Transactions on Graphics (TOG), 2010, 29(6):1-10.

……

[33] NEWCOMBE R A, IZADI S, HILLIGES O, etal. Kinectfusion: Real-time dense surface mapping and tracking[C]//2011 10thIEEE international symposium on mixed and augmented reality. IEEE, 2011:127-136.

[34] TONG J, ZHOU J, LIU L, et al. Scanning3d full human bodies using kinects[J]. IEEE transactions on visualization andcomputer graphics, 2012, 18(4):643-650.

[35] CUI Y, CHANGW, NÖLL T, et al.Kinectavatar: fully automatic body capture using a single kinect[C]//AsianConference on Computer Vision. Springer, 2012: 133-147.

[36] LI H, VOUGA E, GUDYM A, et al. 3dself-portraits[J]. ACM Transactions on Graphics (TOG), 2013, 32(6):1-9.

[37] WANG R, WEI L, VOUGA E, et al.Capturing dynamic textured surfaces of moving targets [C]//European Conferenceon Computer Vision. Springer, 2016: 271-288.

[38] KOLOTOUROS N, PAVLAKOS G, DANIILIDISK. Convolutional mesh regression for single-image human shapere construction [C] // Proceedings of the IEEE Conference on Computer Vision andPattern Recognition. 2019: 4501-4510.

[39] ZHENG Z, YU T, WEI Y, et al.Deephuman: 3d human reconstruction from a single image [C]//Proceedings of theIEEE/CVF International Conference on Computer Vision. 2019: 7739-7749.

[40] SAITO S, HUANG Z, NATSUME R, et al.Pifu: Pixel-aligned implicit function for high-resolution clothed human digitization [C] // Proceedings of the IEEE/CVF International Conference onComputer Vision. 2019: 2304-2314.

[41] 童晶. 基于深度相机的三维物体与人体扫描重建[D]. 浙江大学, 2012. [42] VAROL G, CEYLAN D,RUSSELL B, et al. Bodynet: Volumetric inference of 3D human bodyshapes[C]//Proceedings of the European Conference on Computer Vision (ECCV).2018: 20-36.

[43] LITANY O, BRONSTEIN A, BRONSTEIN M, etal. Deformable shape completion with graph convolutionalautoencoders[C]//Proceedings of the IEEE conference on computer vision andpattern recognition. 2018: 1886-1895.

[44] SAITO S, SIMON T, SARAGIH J, et al.Pifuhd: Multi-level pixel-aligned implicit function for high-resolution 3dhuman digitization [C] // Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition. 2020: 84-93.

[45] ZHU H, ZUO X, WANG S, et al. Detailedhuman shape estimation from a single image by hierarchical meshdeformation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019:4491-4500.

你可能感兴趣的:(人体三维重建(四)——非参数化人体方法简述)