本篇文章内容转载于“AI TIME论道”公众号,秉持着合作共享的信念,希望给热爱人工智能的你们,提供更全面、前沿的人工智能和学科发展资讯。
2023年1月11日,PhD Debate-14特别邀请了来自上海交通大学博士生马子阳、香港科技大学博士生范杰森、埃因霍温理工大学博士生尹路、马里兰大学博士生乔怿凌、香港科技大学博士生徐昊作为嘉宾,与大家一起聊了聊元宇宙数字人的当下与未来。
Q1:你眼中的数字人、元宇宙、AIGC是什么?
马子阳:不同人眼中有不同视角,这些概念在投资圈、工业上和学术上可能有不同的解读。在我看来数字人其实就是虚拟的“人”,代替真人进行直播、带货、与人交互,提高生产力。元宇宙是一个平台。AIGC究竟能做什么?我觉得AIGC本质上也是提高生产力,比如生成式大模型用于辅助设计,并非代替人而是提升生产的效率。
范杰森:我认为元宇宙是过去大量技术的结合,是为了沉浸式的互联网体验。中国从有互联网开始到之后的变化,今天便是沉浸式的3D体验时代,元宇宙便是这个时代的概称。提到数字人,我更愿意把元宇宙相关的技术模块划分为人、场景和物体三块,这三块当然是不可分割、相辅相成的。数字人,指的就是元宇宙中的“人”。无论是虚拟偶像还是现在的一些虚拟直播或是电影中的数字人,都是为了实现在元宇宙中我们这样一个人和人之间的数字分身交互。AIGC这个概念,我觉得是从22年下半年开始,这个概念爆火。我认为AIGC是元宇宙和数字人之中不可缺少的一部分。
尹路:对于我来说,数字人可能并不是一个3D形式。比如siri一类的语音助手刚出来的时候可能并没有一个3D的形象,我们要怎么定义数字人呢?是在有3D形象出现的时候才是数字人呢?还是只要其能够以人类交互的形式为我们提供反馈和帮助才作为数字人?我起初接触数字人是一个日本的虚拟歌唱偶像,可能在提高生产效率以外也有一些其他应用的地方。AIGC近期也是很好,ChatGPT可以生成很多很多的内容,不止是文字交互。或是帮我们修改一些代码,也能够帮助我们生成一些文章、论文之类的。
乔怿凌:元宇宙是一个比较大的框架,也是之前一些经典技术的结合。由于人在我们世界是很重要的,数字人也是围绕人体建立的数字孪生。整个过程包括人体的数据采集、建模、仿真和实时的感知与追踪。我觉得AIGC是基于大数据所有learning-based生成的技术,可以生成各种各样的技术以及为元宇宙生成一些素材等等。
徐昊:我可能会从另一个角度来看待这个问题,当年的AR、VR和现在的元宇宙,都是人们对下一代互联网的美好想象。我们会不断地发明一些词来描述对未来的想象,但是下一代互联网究竟是什么样子?——是没有被清晰定义出来的。但现在可以肯定的是,下一代互联为一定是3D的。至于元宇宙未来是什么样子?还需要在座的各位一起去创造。数字人是什么呢?我想类比一下图像。大家都知道,deep-learning的很重要转折点是ImageNet,李飞飞在做ImageNet时选择了图像分类作为她的任务。其实对于图像这件事情来讲,有着非常多的不同任务去做,语义分割、语义检测等等。李飞飞选择了图像分类来做,她们觉得图像分类是让机器去理解图像的一个core-task,如果这个task能够完成,我们就很有希望去解决机器视觉或者是图像理解的问题。因此,我想类比一下,数字人相比于元宇宙是ImageNet相比于图像理解。如果我们可以围绕着数字人相关诉求解决这些问题的话,那么元宇宙的基础可能就做好了。很多很多我们对未来的想象都是有人参与的,有人参与的情况下可能是各种各样功能化和社交化的。所有这些诉求都是与人相关的,如果这些问题都可以搞定,那么元宇宙的基础大概也就ok了。
Q2:数字人技术能做什么?
有哪些比较受关注的实际应用和任务?
马子阳:数字人能做什么?我是做语音多模态和大模型的。其中一个任务就是语音驱动的数字人,比如驱动3D,或是2D的数字人。数字人当然还有许多其他能做的方向,如直播电商等沉浸式体验。对于比较受关注的实际应用和任务,我发现单目动捕,在视觉驱动的模式下仍和传感器驱动的模式下存在一定差距,这可能是比较关注的实际应用和任务。此外可能会需要去跑渲染,那么越高质量的数字人生成肯定是需要越高的计算代价。做CG的同学可能会需要去思考,如何将这个计算代价降下来。我觉得这些都是比较实际的东西。
范杰森:对于这个问题,我想从两个角度来回答。一方面是商业的角度,另一方面是学术和技术的角度。从商业的角度来看,数字人能做的还是很多的。以个人做创业公司的经历来看,存在两个较大的应用。一是做虚拟主播,真人驱动下的虚拟主播。这个应用其实还是非常有价值和前景的。然后,我们也有通过数字人做一些虚拟的客服或是虚拟的直播带货工作。这些都是已经落地的商业化场景,很多大的央企、国企也都在通过数字人技术做一些他们的虚拟接待工作,也都是很有落地前景的。另外从教育的场景来说,也有不少的相关机构都在用数字人来替代真人,进行一对一的授课。从学术研究的角度来说,我比较想用清华大学刘烨斌老师对数字人技术的分类进行阐述,其实虚拟人相关的学术技术可以分为三个方向:一个方向是驱动,一个方向是生成,一个方向是重建。我自身做了很多和驱动相关的工作,即单目动捕。也就是说我的美术同学捏出来一个实际的虚拟人,我希望这个虚拟人能够动起来、驱动它。在传统领域来说,大家都是使用动捕服。在前沿领域,大家都是使用视觉算法来实现驱动。另外就是生成,这就和AIGC比较相关了,即我们去生成和虚拟人相关的运动序列。在重建这个点,我们可以理解为是做数字分身的一个关键步骤。虚拟人或是数字人的制作可以分为两种,一种是靠美术师手捏一个形象出来,当然费用也比较昂贵。另一种就是通过深度学习技术、人工智能技术实时生成一个虚拟人,这个虚拟人可以是1:1的复刻,涉及到了重建技术。这时的虚拟人不仅仅是一个3D模型,还需要是可驱动的。所以说,数字人技术可以做的很多,受关注的实际应用和任务也是很多的,是一个很广的领域。这个领域也需要更多的有识之士加入到这个领域,把现有的东西都做好,真正做到商业化落地以及在学术上有相当的影响力。
尹路:我理解的数字人最终目标,应该是人能做的,数字人都能做;人做不了的,数字人也可以帮我们做。在生活中,我们也可以看到许多数字人的应用场景。比如在提高生产力方面,如教育来代替真人、虚拟客服、虚拟助手等等。这些在人类从事的一些重复性比较多且不需要在现场的工作,都可以用数字人来代替。
乔怿凌:数字人能做什么?如虚拟会议、亚马逊的试衣服等等。以试衣服为例,首先就要给人体建模,看看人们穿衣服是否合身。另外,数字人还可以帮助人们在一些虚拟的场景中进行训练、实习,毕竟一些训练或实习在实际场景中的代价过高甚至是危险。
徐昊:我想引用一个马斯克的观点,有一个说法是全社会的人均GDP乘以总人口,看起来约束整个经济规模的就是总人口。虚拟人技术可以创造出更多的人,然后靠着更多的人来创造出更大的经济规模,那么对于人们的生活也是极为有益的。
Q3:数字人技术有哪些新的技术及特点?数字人技术面临哪些挑战?
马子阳:要从两个方面来看。一方面从需求的角度,之前没有的现在有了。比如语音数字人目前是很多公司都想落地的一个东西。另一方面从新的研究角度,是指之前有的,但是我们现在研究的更多了。比如数字人火了之后大家更加关注渲染的效率问题。这也算是已有技术的新热点。对于面临的挑战,我想到的就是单目动捕的流畅度问题,也是我在线下实际体验而发现的问题。
范杰森:元宇宙也好,数字人也好,涉及到的技术都是早已存在的技术,只是元宇宙、数字人的出现将这些技术统一起来了。我们愿意将数字人技术分成驱动、生成和重建三个部分。每个部分都会有一些新的技术,当然也会面临一些新的挑战。比如驱动,这一领域最终的就是动作捕捉。对于一些传统的问题,如人体姿态估计,基本上都是一个人体的关键节点估计。对于这些任务来说,其包含的都只是人体的身体部分,但是实质上如果我们要去驱动数字人,可能更会关注虚拟人的手或脸部。这也就引出了全身动捕这一概念。然而当下这个任务实现起来相当困难,尽管相当有商业价值。从重建的角度来说,涉及到的新技术都是一些跟3D重建等高度相关的前沿技术。其面临的挑战自然是如何将一个虚拟人1比1的刻画出来,这都是我们未来面临的挑战。如何将这些技术真正做到商业化落地,而且不出错和效果好,都是需要我们目前深入研究的一些点。
尹路:之前我在做的更多是模型效率的问题,我觉得特别是在我们用到深度学习模型的时候,往往在学术界更多考虑的是performance效果是否好,但是在数字人落地的时候思考的却是花费的成本是否很贵。我们不仅要考虑模型表现好不好,也要看是否要更多的设备、内存之类的。我们也思考能否将模型压缩技术、模型剪枝技术和数字人更好的结合一些,帮助数字人更好的表现。在伦理层面,我们也会担心若是当数字人仿真出来的结果越来越像真人,会不会有一些不法分子做出一些不太好的事情。
乔怿凌:我觉得和人体相关的技术有很多特点,这些特点也带来了很多挑战。对于图形学来说,不同的部位也有着不同的参数化模型。要是想要模拟出一个真的数字人,就要把所有部分考虑到,如面部、头发等等。毕竟人体的不同部位相差很大,要做好一个完全的人是非常难的。从机器学习角度,数据是一个难题。人体相关数据的采集难度是很大的,而且还涉及到隐私问题。同时,还要构建采集这些数据的环境,设备同样十分昂贵,高质量的人体数据数据库也不是很多。
徐昊:我觉得和虚拟人有关的技术大体可以分为两部分,一部分是CV,一部分是CG。在计算机视觉领域,有很多工作是可以落地被使用到产品商业化场景中去的。我们为了让数字人看起来更真实,我们一定会使用现代计算机图形学的知识,如基于物理的渲染或动画模拟等等。我发现CV和CG这两拨还是比较割裂的,如在做人体驱动的时候可以让CV输出人体的3D关键点并将其给到实时渲染引擎。我们可以让引擎来做从3D关键点到旋转角的操作工作;另一种选择是让CV将所有工作都做掉,这同样是一种挑战。如今的计算机图形学主要是用网格体来作为3D的一种表达,但是我们如今看到的CV结果大部分都不是基于此作为工作,这也就意味着我们需要在CV领域结合基于计算机图形学的mesh表达。我所能想到的结果就是CV和CG领域在进行某种程度的融合。
Q4:数字人技术在学术界和工业界的差异与关联?
马子阳:我首先想到的就是IP的问题,因为我们在做科研的时候是没有考虑到IP问题的,但是工业界的情况不太一样。工业界对IP的看重是很高的,因为不同的IP都需要做不同的精细化设计,同时涉及到很多方面。至于技术方面,每一个技术都是从工业界的需求来的,我们将其进行扩展成为科学问题并进行解决。
范杰森:我觉得数字人技术非常广泛,因此在学术界和工业界之间的差异是非常大的。举个例子,我们在做数字人的时候,单目动捕系统中存在这样一个环节——做一个面部的捕捉。在做面部捕捉的时候,能想到的一个操作方式便是做一个系数的回归。在人脸表情的重建过程中,我们认为当前表情的人脸可以由一些基础表情基去加权求和得到的。就是说人在做某个表情的时候,若是想完全复现出这个表情来,你需要去捕捉相关系数并加权求和得到人脸。在学术界的计算机视觉领域,大家更关注的是matric的accuracy准确率。但是指标的设置是否合理是有待商榷的,有的工作会把有的指标刷的非常高,关节点的误差也会非常小,这些算法也会导致人体的姿态捕捉非常不符合人体运动学。这些差异还有待工业界和学术界在未来紧密合作,共同克服这个差异。
尹路:不仅是数字人技术,很多深度学习工作在学术界在意的是performance。在工业界,更在意实际情况下的应用落地。一般来说,学术界的理论是会领跑工业界的。很多理论都是由知名的大学实验室提出之后,再由工业界去做进一步的改善。深度学习技术或是数字人技术会用到很多数据,可能工业界在数据方面会更加充足。
乔怿凌:从我自己理解来说,差异主要集中在两个方面——scaleability和robustness。学术界中的数字人是偏CG方面的工作,对scaleability还没有太多的要求,把人重建或者驱动、仿真的比较好就够了。但是如果到用户的层面,光是支持成百上千到万的需求,要求也比较高,到工业界落地大概是不行的。对于robustness,我们实验室发paper会找一些很好的数据,但是在工业界落地就要应对各种各样的环境,数据采集的质量可能会很低。
徐昊:我觉得在对人的建模上,早年间从CV的角度看人体的姿态识别,我们就会把人定义成一个skeleton,在人的全身上下定义一些关键的key point,并用图的方式联系起来,形成一个skeleton。我们只要恢复这个skeleton在2D或者3D空间中的位置,就认为我们做好了人体姿态估计这件事。2015年之后,有研究提出对人体重新做了一个建模,用mesh网格体的方式建了一个人体的通用模型出来。这样,我们就可以恢复人的表面,而不仅仅是skeleton。基于这个工作,后续很多机构也做了很多的工作。但是在进行商业化落地的过程中,工业界做虚拟人的时候又高了一个档次。因为我们在实际应用中都希望这个人栩栩如生,看起来真实,动起来也真实。也许,人体相关的下一个突破在于能否基于当前已有的工作,放到新的人体标准模型上来做到目前无法做到的工作。
Q5:数字人技术的未来
马子阳:对于数字人的未来,我们目前其实做的东西都比较独立,做数字人的在做数字人,做人机交互的在做人机交互。需要一起把沉浸式交互做起来。像现在的远程手术,就是一个比较重要的事情,可以提高非常大的生产力,释放更大的能量。
范杰森:我刚刚下载了网上一位做直播带货的女主播视频,并建立了思维导图。如果我们要用虚拟人做出一个一模一样的出来,都需要什么技术呢?对于数字人的未来,虚拟人背后有真人驱动的并不是数字人的未来。数字人的未来一定是一个AI-Driven的数字人。我希望未来的数字人语言风格不是生硬的,可以生动的发出像真人主播一样搞笑且带有情绪的声音,同时还能根据用户的实时评论去对话、调侃和开玩笑。当然,这些说起来简单,但背后涉及的技术起码是10个以上的ChatGPT。我认为,未来这个技术一定能实现,而且也是必须要实现的。现在还是属于虚拟人的早期版本,在未来技术走向成熟的过程中,我们不知道这条路怎么走,但可以肯定是最终形态——一定是结合元宇宙、AIGC,有场景,有互动。这也是未来10年甚至更短时间内可以预见到的数字人未来。
尹路:可以预见的是,数字人技术和云宇宙在我们生活中的应用也会日趋扩大,让每个人都能应用得到。刚刚提到目前一些虚拟人的背后是真人在驱动,AIGC的加入可能会在今后加上3D渲染,使其表现更像真人,这也可能是下一步数字人的未来。
乔怿凌:我能想象的未来就是数字人和真人真假难辨,一个比较近的未来就是把数字人的仿真、建模渲染好,这就已经很不容易了。另一方面,解决这些问题怎么办也是未来需要思考的问题。是从纯CV等方向加入,还是从其他方向更好的感知、渲染人和世界的交互?人们还是需要看一下哪条路会走得更好一点。
徐昊:我想分两个角度来看这个问题,从工业界或商业化角度来看,一个新的技术落地到社会中总是有顺序的。比如新的技术可能会先应用在军事领域来加强国家的竞争力。逐渐从军事到娱乐,娱乐也是一个受众广泛的领域。大家也会在未来的一两年内看到更多的虚拟偶像出现在公共媒体上。之后是会趋向于功能化,如虚拟的客服和销售,这件事我们自己也在做。而从学术的角度来看,我们应该会看到数字人通过AI领域中鼎鼎大名的图灵测试,或者可以先说是一定时间内通过图灵测试。然后我们慢慢延长时间,当时间到无限大,我们就可以默认数字人通过了图灵测试。这样的数字人也许会很快出现。
点击此处查看直播回放!
非常感谢大家的阅读,小Mo在这里祝您在未来的机器学习职业生涯中一切顺利!
欢迎关注我们的微信公众号:MomodelAI
同时,欢迎使用 「Mo AI编程」 微信小程序
以及登录官网,了解更多信息:Mo 平台
Mo,发现意外,创造可能