人体三维重建(一)——绪论

        狭义的人体数字化主要包含对某一特定人物进行几何重建与纹理估计,使得能够在计算机中重现该人物真实的数字形象。这一问题在计算机图形和视觉领域是一个长久研究的困难课题,其复杂性主要体现在两方面,几何和纹理颜色的复杂性。人体的几何受相当多的因素的影响,包括性别,体态,种族和姿态等。特别是姿态的变化,产生了人体复杂的大尺度非刚性形变,使得广泛应用于人脸的形状混合(BlendShape)和主成分分析(PCA)等线性变形方法难以直接应用于人体的变形。另外,由于现实中的人体都会穿戴衣物,各种材质的服装和各式各样的穿戴物体以及它们和人体之间复杂的交互,极大地增加了人物的形状复杂度。这些复杂度对重建算法的精度和变化拓扑的表达能力提出了极高的要求。另一方面,人体的肤色以及衣物五花八门的颜色和材质属性,使得精准地提取人物的纹理信息也变得相当的困难。

        在影视、游戏等人体数字化比较成熟的行业中,通常采取使用复杂的采集系统以及时间换精度的方式来解决人物重建这一复杂问题。如图1所示,传统方法对处理的数据有很高的要求。采集设备往往是精密设计的多相机光学系统,需要进行精准的相机矫正和同步。另外,被捕捉人物也需要穿戴特制的动作捕捉服装,或佩戴一些关键点标识物进行定位。在数据收集之后,也需要经过耗时且复杂的离线处理,才能够得到目标人物的高精度数字化形象,满足工业应用的要求。这些对高端设备和受控环境的苛刻要求,使得传统方法难以应用到低端设备和日常场景中,阻碍了该技术向广大普通消费者的推广。

图1 左图为谷歌搭建的多相机Relightable系统,用来进行高精度的人体几何和纹理重建以及跟踪。右图为拍摄电影Avatar所用到的动作捕捉技术展示。

        近年来,随着互联网技术的不断发展和5G通信技术的逐渐普及,互联网用户数量不断攀升,智能手术用户也逐年增加,消费者对高质量的数字技术的需求越来越大。以中国为例,根据《中国互联网络发展状况统计报告》,截至2020年6月,我国的网民规模已达到9.40亿。如此庞大的基数,催生了大量的即时通信,数字内容创作,文化娱乐等需求。特别是2020年新冠疫情的爆发,催生了“远程办公”、“线上交流”等保持社交距离的新型工作生活潮流,更使得人体数字化技术加快发展,逐渐革新普通消费者的日常生活。例如,虚拟主播技术开始应用于新闻和直播行业,各大厂商逐步推出各自的数字形象代言人,虚拟现实和增强现实技术的逐步应用,全息通信技术即将变革人类的即时通信方式等等。基于上述背景,使用中低端设备进行较高质量的人体数字化,特别是人物几何重建和纹理估计就成为了计算机图形学和视觉领域一个日趋重要的研究方向。

        随着Kinect、primesense、iPhone-X等消费级扫描设备的兴起,RGB-D数据的获取相对于以往变得更加容易。一批基于RGB-D数据的人体捕捉方法涌现。这类方法基于融合的思想,通过将每帧深度信息融合到基准空间,在视频的扫描过程中,实时地逐步恢复出完整的人物形状。然而,追踪的精度是此类方法的一个痛点。通过引入人体信息的先验知识,针对人体实现更加快速稳定的跟踪,是此类方法继续改进的目标。

        尽管深度信息的获取在上述消费级设备的出现后变得更加容易,但对于市面上的大多数移动设备,深度摄像头并未广泛使用。这就使得单目RGB图像数据才是如今真正的唾手可得的数据形式。如何从单目数据中进行精确的人体重建是一个亟需解决的问题。相比于RGB-D数据,由于缺少了深度信息,能够从图像获得的信息进一步减少。对于单目数据,由于透视投影带来的深度歧义性问题,从理论上来说无法准确估计人物的尺度信息,容易产生错误的人体姿态。要处理这一问题,从单目数据中重建相对精确的人体,一般有三种思路:参数化人体形状来正则化解空间,利用神经网络的强大拟合能力从大量图像和几何数据中学出合理的映射,利用视频数据增加更多的限制。

        参数化人体模型通过从大量人体数据中学习其统计分布,将人体的变形分解为几组低维的参数化表示(如身份、姿态)。通过对人体形变空间的低维流形嵌入,大大缩小了合理的解空间,用来对抗单目数据的歧义性。此类方法往往通过优化、回归等手段,建立图像与人体低维参数空间的映射,来实现人体重建。然而,人类裸体形状还比较符合低维假设,但各式衣物的形状本质上是一个极其高维的空问,难以参数化为低维表示。这就使得参数化人体的方法难以推广到穿衣人体之上。

        深度神经网络是一种简单网络结构的多层堆叠而产生的一种具有极强拟合能力的模型,在各种计算机视觉任务中已经取得了广泛的应用和优秀的结果。其核心是通过大量成对的数据来训练网络,使得网络能够学习到数据中潜在的分布。神经网络不仅可以从图像中回归参数化模型的参数,也可以直接回归非参数化的人体表示,包括体素、符号距离场等。这使得重建更复杂的几何成为可能。然而,此类方法的一大局限是训练的模型依赖于数据集,存在泛化能力不足,过拟合等问题。另外,由于高精度的穿衣人体几何数据的获取本就十分困难,稀缺的数据是此类方法落地的一大阻碍。

        相比于单张图像,视频数据包含更多信息。人类的运动在时间上具有一定的连续性和语义性,此类先验可以帮助重建算法对抗单目的歧义性。另外,基于多帧之间的对应关系也可以设计一些正则化来帮助优化和网络的拟合。最近,隐式神经表示和神经渲染技术的兴起,展示了从多张图像输入中自监督地重建高精度几何和照片级真实度渲染的可能性。这对于减少数据的依赖,从视频数据中恢复人体提供了一种崭新的思路。

你可能感兴趣的:(人体三维重建(一)——绪论)