底层软硬件及物联网传感技术决定数字人系统“进化”水平

     
    2021 年是元宇宙元年,随着元宇宙概念的火爆也一同带动了数字人市场的快速升温。据计算全球平均每天都会 诞生一个数字人。数字人正成为一股潮流,涌入人们的日常生活——会“捉妖”的虚拟美妆达人柳夜熙,抖音 出道三天点赞即超百万,一夜之间成为国内虚拟偶像界的“顶流”;在江苏卫视跨年演唱会上,昔日歌后邓丽君“重返”舞台,与歌手周深同台对唱,交织几代人的青春记忆;而在刚刚落幕的冬奥会上,二十多位数字人同台亮相,担当起手语主播、气象主播、奥林匹克公益宣传大使、冬奥官方周边带货主播等各式角色,代替真人为冬奥赛事提供服务支持……数字人的热度吸引着众多参与者纷纷入局,据企查查数据显示,国内现有“数字人”相关企业超过 28 万家,近五年的新增注册企业增速复合增长率达到近 60%。
    与此同时,资本也在不断涌入数字人赛道。据天眼查数据不完全统计,2021 年全年,数字人相关投资共 27 笔,融资金额从数百万元人民币到数千万元美元不等。2022 年开年不到一个月的时间,数字人领域即完成了近百起融资,累计额度超过 4 亿元人民币。
    数字人市场的热度不减,除与元宇宙概念加持的关系外,技术驱动和需求牵引也是助力的关键。
数字人的核心是“人”,本质上是通过数字技术提高数字人的综合体验,使之带来真人般的感受和互动。
    一方面,随着人工智能、虚拟现实、高精度渲染等技术的发展和融合,数字人的拟人化程度愈来愈高,从形象、表情、姿态、动作,再到语音、语意、语态等方方面面正在逐步逼近真人水平。例如,超写实数字人(Metahuman)已成为当前主流,柳夜熙、“邓丽君”等都是超写实数字人的代表,拥有高度逼真的数字化外观形象。另一方面,人工智能技术在数字人形象生成、动作驱动和语言交互等环节的深入应用,也将进一步提升数字人制作的自动化水平 ,推动数字人市场从利基走向大众。
    在需求侧,消费领域的流量经济和产业领域的人口红利都在面临增长瓶颈,对生产效率与成本提出了更多要求。
    数字人的高度拟人化代替真人角色进入生产生活各个领域,将成为数字经济发展的“ 新动能”,为 Z 时代新消费市场,以及产业数字化转型构筑巨大的想象空间和应用前景。据头豹研究所测算,2030 年我国数字人整体市场规模将达到 2700 亿元。
    
    数字人的拟人化,以及生产制作的自动化程度反映数字人系统整体进化和发展水平,代表着数字技术综合运 用能力和成熟度体现。根据“拟人化”和“自动化”两个维度,我们可以将数字人分成 L1-L5 五个等级,如下图所示。
底层软硬件及物联网传感技术决定数字人系统“进化”水平_第1张图片
    其中,我们将 L4 和 L5 等级的数字人统称为“AI 数字人”。Ta 们不仅具备高度的拟人化呈现,在形象、动作和智力层面都更接近于真人水平,能够听懂、看懂、有记忆、自学习,与人进行自然交互;同时,在制作流程中也融合了大量的人工智能算法技术来提升数字人的生产效率,降低数字人的制作成本。我们认为,只有达到 L4 级别及以上的数字人才能真正的走入千行百业,在消费和产业领域大放异彩。
    那么,AI 数字人具有哪些特征?它的市场价值、产业生态和发展趋势又是如何?商汤科技作为一家人工智能企业,我们在生态中扮演怎样的角色,又是如何赋能 AI 数字人产业的可持续发展?白皮书将分别从认知、生态、能力、实践和展望五个方面为大家展现数字人发展的未来图景。

    基础层为 AI 数字人提供底层软硬件技术支撑,包括计算机图形学(CG)技术、人工智能技术和通用设施技术等。
     正如导语中所述,这些技术的综合运用能力和成熟度将决定数字人系统整体进化和发展水平。
通用设施技术,包括 5G 通信网络,云边协同计算,以及芯片、传感器和 IoT 等软硬件技术设施。高拟真的 3D 数字人模型在数据传输方面对网络带宽和稳定性有较高要求。基于 5G 网络的高速率传输,结合云边协同 计算,能够实现数字人模型的高精度、实时渲染效果;传感器用于数字人原始数据及用户数据的采集;芯片用于传感器数据预处理和数字人模型渲染、AI 计算等。 通用设施技术为数字人系统的创建和落地打好数字化基础。
    传统 CG 制作,主要基于专业 CG 软件进行相应的建模、动画制作和渲染等。专业的建模软件,能够对数字人的人体、衣物、配饰等进行三维建模,例如 Maya,3Dmax,Zbrush 等都是 3D 建模的主流软件;在建模的基础之上,经过骨骼搭建及绑定,以及蒙皮、BS 等一系列的准备工作后,动画师再根据角色需求进行动画制作,让数字人“动”起来。整个过程漫长且复杂,除了要反复检查活动的皮肤与骨骼外,还需要删除不必要(多余)的骨骼,以及解决各种穿模问题;渲染引擎,能够对灯光、毛发、布料、纹理等进行细节渲染,达到以假乱真的视觉效果呈现。主流引擎有 Unity、Unreal Engine 等。
    传统 CG 技术脱胎于游戏行业,可以做出从外形、表情到动作 1:1 还原真人的影视级效果,但主要依赖于人工制作,成本高、周期长,且制作门槛对开发者专业要求比较高,掣肘数字人向其他非游戏领域规模化推广。
    人工智能技术,主要包括计算机视觉和语音语义理解两大部分相关技术族。其中,计算机视觉又分成视觉理解分析技术和视觉内容生成技术;而语音语义理解则包含语音识别(ASR)、语音合成 (TTS)、语音动画合成 (STA)、自然语言理解(NLP)等。一方面,与传统 CG 技术结合,可以优化数字人生产流程,提高生产效率;
    另一方面,人工智能技术的集成运用能够有助数字人多模态交互和深度学习能力的提升,增强数字人物角色的表现力、理解力和营业力,向更高等级数字人持续演进。

你可能感兴趣的:(物联网,物联网,iot,数字人)