Metaverse-虚拟数字人技术篇

1. 虚拟数字人概念解析

虚拟数字人它是由三个部分组成：虚拟、数字、人。

虚拟：存在于非物理世界，多模态存在于各种介质；
数字：数字化，可复制多个分身，多技术综合体；
人：具备拟人化的外表和行为交互的能力。

具体说明如下：

虚拟：通常是指它是存在于非物理世界，可以是多模态的存在于各种介质上，包括视频、图片，还有目前比较流行的VR、 AR 等这些多种媒体的载体上，它不是存在于真实的物理世界的，它是以一种虚拟的形态来存在的。

数字：数字指的是可以数字化，通常是指它可以复制多个分身，它是多种技术综合而成的一类的技术。目前所主流的虚拟数字人通常都是由 CG 建模，然后 CV 的生成，然后加上 NLP 、语音合成，以及一些知识图谱等技术，来驱动它生成一个数字人的形象。

人：通常讲的虚拟数字人是指那种偏拟人化的审美的外表。它还有类似于人的行为交互。

虚拟数字人效果.png

2. 制作虚拟数字人的通用架构

根据中国人工智能产业发展联盟发布的《2020年虚拟数字人发展白皮书》中指出，虚拟数字人指具有数字化外形的虚拟人物，除了拥有人的外观、行为之外，还拥有人的思想，具有识别外界环境、并能与人交流互动的能力。当前在业界内对数字人形成一些共识：即下图中虚拟数字人的通用系统架构，大概用这五个方面来总结：人物形象、语音生成模块、动画生成模块、音视频合成显示模块、交互模块。

交互模块是可以存在也可以不存在的。因为有一种虚拟人是单方面的输出（视频类、海报类），不存在跟人之间交互，但是其他的几维基本上是具备的，所以一个通用的虚拟数字人，一般会依赖这样的一个系统的架构来产生。

数字人制作通用结构.png（图片来源于网络）

3. 虚拟数字人所依赖的通用技术

CG建模：体现为虚拟数字人外观和拟人程度，当前主流的数字人模型格式为：3D、2D、卡通、动漫、高保真等。

NLP技术：核心体现的是对话能力，通常包括文本对话，语音 AI 助手等等，这个模块通常可以视为虚拟数字人的大脑。

CV技术：体验在数字人的渲染显示，该部分受数据量、计算框架、关键特增点等因素影响，能否呈现自然的面部表情驱动、肢体动作等。

虚拟数字人角色分类

写实/超写实类角色虚拟人，比如：AYAYI、翎ling、柳夜熙等；

超写实数字人.png

二次元角色虚拟人，比如洛天依、七海、星瞳等；

二次元数字人.png

卡通/吉祥物角色虚拟人，比如海尔兄弟、京东狗、苏格拉宁等。

卡通数字人.png

虚拟数字人的驱动技术分类

动捕型驱动：原理是真人根据摄像头传来的用户视频，与用户实时语音，同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上，从而与用户进行交互。它生成的往往是一个静态模型，在绑定关键点之后，需要借助真人通过动作捕捉设备进行形体、眼神、动作等的捕捉，然后才能进行驱动和渲染。

特点：需真人进行驱动，在动作灵活度、互动效果等方面有明显优势。

技术流程：原画设计；建模+骨骼绑定；动捕设备或摄像头将基于真人的动作/表情等驱动虚拟数字人；实时渲染-完成内容录制或者现场互动；

技术突破：动作捕捉环节，随着图像识别技术，姿势、表情等识别算法的进步，昂贵的惯性或光学动捕设备不再是驱动的必备工具。

使用场景：降低影视行业门槛，推动消费及转化，虚拟偶像、大型直播等。

动捕型驱动示例如下：

动作捕捉驱动.gif

AI型驱动：原理是通过智能系统自动读取并解析识别外界输入信息，根据解析结果决策虚拟数字人后续的输出信息，然后驱动人物模型生成相应的语音与动作来使虚拟数字人跟用户互动。该人物模型是预先通过AI技术训练得到的，可通过文本驱动生成语音和对应动画。它是基于深度学习模型的三维场景表达和对应的神经渲染管线，可以自驱动学习模特说话时的唇动、表情、语音以及姿态和动作等。

特点：语音、表情、动作主要通过深度学习实时或离线生成驱动。

技术流程：设计形象或对真人形象进行打点扫描，采集模型信息；建模+骨骼绑定；训练各类驱动的深度模型，学习角色的语音、唇形、表情参数间的潜在映射关系；内容制作，基于输入的语音（或由输入文本转化的语音），预测唇动、表情等参数，推理图片并与时间戳结合；渲染并生成内容。

技术突破：语音合成（语音表述在韵律、情感、流畅度等方面是否符合真人发声的习惯）、NLP技术（与使用者的语言交互是否顺畅、是否能够理解使用者需求）、语音识别（能否准确识别使用者需求）

使用场景：虚拟人视频内容生成，虚拟客服，虚拟助手等。

AI型驱动示例如下：

AI型驱动.gif

虚拟数字人主流动捕技术介绍

光学动捕

概念：光学动作捕捉技术就是在人的身体上进行标记，标记点的会反射到架设好的摄像机，通过反射的不同位置的成像信息，可以进行测算出标记点的空间运动信息，进而将这些信息进行定位或输出实现不同行业的实际应用。

优点：1. 动捕精度高； 2. 保真程度高。

缺点：1. 技术复杂度和拍摄要求高；2. 造价成本高；3. 应用范围小。

惯性动捕

概念：惯性动作捕捉技术是在人的身上佩戴陀螺仪，人运动的过程陀螺仪会进行旋转，通过感知陀螺仪的旋转信息来推算出人的动作行为实现动作捕捉。

优点：1. 价格相对较低；2. 不依赖场地环境。

缺点：1. 动捕精度低； 2. 稳定性低，容易发生位置漂移。

AI视觉捕捉

概念：AI视觉捕捉不需要进行标记和佩戴，只需要在人的活动范围内通过普通的摄像头进行动作的录制实现人体关键点信息的识别进而采用特殊的算法来实现动作捕捉。该项技术对硬件几乎没有特殊的要求，更多的优势在算法上。

优点：1. 简单上手； 2. 成本较低。

缺点：1. 动捕精度低； 2. 自由度较低；3. 视野固定。

实用上手简易程度：AI视觉动捕 > 惯性动捕 > 光学动捕
保真程度和稳定性：光学动捕 > 惯性动捕 > AI视觉动捕
造价成本：光学动捕 > 惯性动捕 > AI视觉动捕

4. 虚拟数字人的变现途径分析

虚拟数字人目前市面上出现的变现途径大致有三种：

第一种是帮助企业建立虚拟数字人，为他们营销代言，由企业买单。目前的合作形式包括定制、IP 授权和代运营。经网上数据搜集，现在市面上的价格都不太一样，定制 Q 版大概在十几万，而定制超写实则可能需要上百万。IP 授权指的是与头部虚拟人 IP 做 KV 合作和短视频软植入，收费视具体情况而定，与粉丝的关系很大。

第二种向企业直接售卖直播工具，类似于 SaaS 服务。它的难点在于打通集成内部的技术，以及积累的技术和样本是否足够多样。当实现 SaaS 化后，企业品牌能够用 SaaS 平台建立数字人，操作系统简单，成本大幅度降低。从市面上的报价来看，月费在几百元到几千元区间不等。

第三种是 UGC 类的创作者经济，让用户参与到创作当中与厂商利润共享。数字人赛道的发展需要大量用户进入承担不同的角色，不光是因为数字人的创作者和服务对象都是人，还因为在未来元宇宙的远景当中将出现更多数字人+数字空间的营销打法，以及更宏大的叙事，势必会产生大量的内容需求。只有更多人共同建立生态，才能让平台具有更强的生命力和想象空间。

在当前很多企业的的变现思路中，打造一个近乎完美的 IP 人设只是第一步，未来终将走向 SaaS 标准化和 UGC 规模化，但是中间过程是需要投入专业团队和技术人才进行打造，尤其对于之前没有数字人周边产品和技术积累的公司，更是一个不小的挑战。

5. 虚拟数字人当前主流的SaaS平台架构

下图是常见的按层划分的虚拟数字人平台架构设计。从下往上依次是：服务层、协议层、化身层、应用层。

常见的虚拟数字人一站式平台框架（图片来源于网络）

其中服务层涉及一些底层技术框架，需搭建“AI能力支撑平台”来承载所有功能，应包括：语音识别、语音驱动、文本驱动、语音转化、手势驱动、图像驱动、声纹复刻、人脸识别、动作捕捉、OCR识别、知识图谱、智能推荐等能力；除技术能力外，服务层还应包含运营使用配置功能；

协议层包含语音交互协议、口型驱动协议、表情驱动协议、动作驱动协议，作用是与服务层和化身层进行对接，将服务层获取到的信息进行运算处理来传递给化身层，以便于模型的控制。

化身层包含对数字人资产的管理，需搭建“角色资源平台”来进行管理，包含：3D/2D角色库、角色配饰库、动作/表情库、特效库、背景环境库、模板管理、音视频频管理等。

应用层又称为应用场景层，该层平台会打包成不同平台SDK供应用集成，应包含：PC、Web、iOS、Android等。