虚拟数字人简介

目录

  • 虚拟人概览
    • 定义
    • 广义与狭义:交互
    • 分类
    • 发展历史
  • 虚拟人技术
      • 核心技术:动捕
    • 计算机驱动-多模态技术和深度学习发展
    • 真人驱动-成本逐渐降低,有消费级应用,技术突破重点在于动捕
  • 技术趋势-拟人化:基础是视觉层面的高保真+实时
    • 虚拟人外观风格选择的两极:高保真+风格化。
    • 高保真技术突破点
  • 技术趋势—拟人化:“形似到神似”的重点为交互能力
  • 技术趋势-工具化:高效创作
    • 虚拟偶像
    • 虚拟分身
    • 虚拟助手
    • 多模态助手
  • 产业链
    • 基础层:海外公司形成较深的技术壁垒
    • 平台层:建模渲染
    • 头部厂商——腾讯:素材+技术
    • 头部厂商——阿里:电商应用+技术
    • 头部厂商——网易:解决方案+捏脸技术(游戏领域)
    • 头部厂商——百度:平台+渲染方案
    • 头部厂商——B站:产业链+平台
    • 头部厂商——字节和快手:虚拟主播
    • 头部厂商——谷歌:底层技术+动捕系统+设备
    • 头部厂商——微软:产业链+AU
    • 头部厂商——Meta:虚拟现实
    • 头部厂商——英伟达:服务架构
    • 头部厂商——英特尔:芯片技术+体育领域
  • 参考资料

虚拟人概览

定义

  1. 虚拟:分场景
  2. 数字:技术手段
  3. 人:多重人类特征

广义与狭义:交互

存在形式、形象特征、身份设定、人格设定
这里讨论广义数字虚拟人

分类

  1. 按外观分
  2. 按技术分
  3. 按应用分

发展历史

  1. 萌芽阶段
  2. 探索阶段
  3. 高速发展阶段
  4. 井喷式发展阶段

虚拟人技术

  1. 《白皮书》通用框架:人物形象,语音生成,动画生成,音视频合成显示,交互
  2. 五横(用于数字人制作、交互)两纵(2D、3D数字人)
  3. 人物生成、人物表达(语音生成、动画生成)、合成显示、识别感知、分析决策

核心技术:建模、驱动(动作生成)、渲染

##建模——静态形象

  1. 纯人工建模 - 成本高、产能低
    1)运用电脑软件画设计稿,描绘建构出人物的三视图;2)根据设计图纸确定人物三维的图形,运用 MAYA、3DMax、Zbrush 等三维建模软件建立基本的三维模型;3)除了建模师,虚拟人的运营需要团队的协作,虚拟人制作的其他环节还涉及到贴图师、绑定师、动画师、道具师、三维场景设计师等。

  2. 借用采集设备建模 - 成本适中、应用广泛

    (1)相机阵列扫描:使用上百台相机进行 360 度的环绕拍摄,构建三维模型,基于模型进行数据的处理,然后转化成可以编辑的格式,再去进行相关的贴图、绑定、动画等操作。相机矩阵输入方式的优点在于制作周期短、节省人力,可满足大多数虚拟人的建模需求,是当前虚拟人建模的主流方式;但缺点在于不能从底层模型去大幅度修改参数;
    (2)结构光扫描:利用三维扫描仪对人体、外部环境等进行扫描,建立点云数据(point cloud data),扫描精度越高,得到的点云数据越多,制作出的模型就越精细。相较前一种的相机矩阵扫描,结构光扫描是一种比较经济的扫描方案;但缺点在于扫描时间长,难以满足运动类目标的重建需求。

  3. AI建模 - 成本低、技术有待提高
    依据的是算法与机器学习。机器能够自动生成虚拟数字人的前提是要获取足够多的数据,对大量的照片/视频进行分析,提取到人的各种数据与信息,然后去模拟出没有提取到的那部分数据,比如鼻子的高度,这不仅依靠算法公式,背后还要基于机器学习,建立在机器对大量人脸照片/视频学习的基础之上,样本越多,算法生成出来的模型就越精准。

    (1)语音识别
    (2)自然语言处理
    (3)语音合成
    (4)语音驱动面部动画

##驱动——动态形象

包括手动调节关键帧、预制动作、动作捕捉(简称动捕)、智能合成(文字/语音驱动)等

核心技术:动捕

通过将捕捉采集的动作迁移至数字虚拟人是目前动作生成主要方式,核心技术是动作捕捉。

###动捕类型
光学式
惯性式
计算机视觉动捕

##渲染——显示
渲染技术,是指把模型在视点、光线、运动轨迹等因素作用下的视觉画面计算出来的过程。
主要由离线与实时渲染两种类型。

#交互式数字虚拟人分类——真人/计算机驱动

  1. 真人驱动型数字虚拟人,以真人为核心,用户可以通过3D建模、动作捕捉技术、渲染等技术,在网络上形成真人的虚拟化身,在动作灵活度、互动效果等方面有明显优势,一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助数字虚拟人完成大型直播、现场路演等互动性、碎片化活动。
  2. 计算机驱动型数字虚拟人,以深度学习技术为主,本质上还是算法,但会拥有一个定制化的虚拟外表。计算驱动的数字虚拟人最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)、NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技术的共同影响。尽管在特定方向上,各感知类技术已有的商业化能力已足以支撑,然而,但要达成理想的综合效果,需要该公司在三个方面同时具有较强的综合能力。

计算机驱动-多模态技术和深度学习发展

可通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策数字人后续的输出文本,然后驱动人物模型生成相应的语音与动作来使数字人跟用户互动。数字虚拟人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动,在渲染后实现最终效果。

真人驱动-成本逐渐降低,有消费级应用,技术突破重点在于动捕

  1. 在真人驱动中,在完成原画建模和关键点绑定后,动捕设备或摄像头将基于真人的动作/表情等驱动数字虚拟人。
  2. 由于背后有真人操作,真人驱动型在动作灵活度、互动效果等方面有明显优势,一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助数字虚拟人完成大型直播、现场路演等互动性、碎片化活动。
  3. 近年来主要的技术突破在于动作捕捉环节。随着图像识别技术,姿势、表情等识别算法的进步,昂贵的惯性或光学动捕设备不再是驱动的必备工具。

技术趋势-拟人化:基础是视觉层面的高保真+实时

虚拟人外观风格选择的两极:高保真+风格化。

由于恐怖谷效应的存在,人类视觉对同类的形象、特别是对面部高度敏感,在似像非像的阶段,很容易跌入“恐怖谷”。因此虚拟人外观存在风格化+高保真两个发展路线,风格化的虚拟角色艺术创作空间较大,卡通形象做出夸张化的动作表情并不会吓到观众,过去漫画、影视等艺术形态均有过成熟的标准;而1:1接近真人的高保真技术难度相对更大。

高保真技术突破点

  1. CG建模/图像迁移技术影响外观的拟人程度。
  2. CV等深度学习模型影响驱动效果

技术趋势—拟人化:“形似到神似”的重点为交互能力

  1. TTS、NLP、ASR
  2. 以对话为核心

技术趋势-工具化:高效创作

#演进:数字虚拟人成为数字世界接口

虚拟偶像

  1. 同人创作+要素抓取
  2. 虚拟网红,直播带货
  3. 虚拟歌姬
  4. 虚拟主播

虚拟分身

  1. 游戏
  2. 社交
  3. 影视替身

虚拟助手

  1. 虚拟主持人/新闻播报
  2. 虚拟客服
  3. 导航导览

多模态助手

  1. 医疗健身顾问
  2. 个性化交互AI助手
  3. 感情陪伴

产业链

虚拟人产业链主要包含基础层(建模/渲染引擎等基础软硬件)、平台层(动捕等软硬件系统、垂直平台、AI厂商)以及应用层,

基础层:海外公司形成较深的技术壁垒

基础层为数字虚拟人提供基础软硬件支撑,硬件包括显示设备、光学器件、传感器、芯片等,基础软件包括建模软件、渲染引擎。

平台层:建模渲染

平台层包括软硬件系统、生产技术服务平台、AI 能力平台等为数字虚拟人的制作及开发提供技术能力。

头部厂商——腾讯:素材+技术

头部厂商——阿里:电商应用+技术

头部厂商——网易:解决方案+捏脸技术(游戏领域)

头部厂商——百度:平台+渲染方案

头部厂商——B站:产业链+平台

头部厂商——字节和快手:虚拟主播

头部厂商——谷歌:底层技术+动捕系统+设备

头部厂商——微软:产业链+AU

头部厂商——Meta:虚拟现实

头部厂商——英伟达:服务架构

头部厂商——英特尔:芯片技术+体育领域

参考资料

  • 恐怖谷
  • 2021年虚拟数字人行业概览
  • 2021虚拟数字人发展白皮书
  • 证券研究报告-数字虚拟人
  • 一文读懂:虚拟人是什么?她可以做什么?

你可能感兴趣的:(笔记,数字人)