把虚拟数字人装进你的手机!百度、腾讯、讯飞盯准这条新赛道。
短短三个月内,几乎每一家拥有智能语音技术能力的大厂都在采取行动布局虚拟数字人。
百度、华为、阿里等都纷纷引入AI数字人入职,担任技术宣讲员、形象代言人;OPPO、小米接连宣布其智能语音助手的虚拟形象;腾讯联合搜狗一口气推出了五款数智人,为企业定制智能客服、数字员工;科大讯飞、华为、OPPO、英伟达等都推出了虚拟人生成或交互平台……
今日,百度APP上线龚俊数字人语音助手
如何让一个智能语音助手更像人?在围绕智能音箱展开的探索中受挫后,头部玩家们纷纷将目光投向了拥有拟人形象、能说会动的“虚拟数字人”。
关于虚拟数字人当下没有一致定义,一般认为是具有人的外观、语言和肢体表达能力的数字化的人物。背后,主要是语音生成、动画生成、音视频合成、对话交互等多个智能语音及多模态模块的配合。
“元宇宙”概念的走红,让龚俊数字人、清华数字学生“华智冰”、虚拟偶像 “A-SOUL”等虚拟数字人看起来更具有改变世界的潜力。
他们就像来自一个新星球的外星人,模仿人类的讲话和行动方式,又通过影响人的情感和思维方式对真实世界产生作用。而在躯壳之下,很多是被安装上了人类研发的AI“大脑”,或者嵌入了AI语音能力。
生动形象的虚拟数字人为存量不足的智能语音赛道带来新玩法,这也让智能语音玩家们看到潜藏的“造富”新故事。
不知从何时起,“虚拟数字人”已经火出了圈。
他们出现在短视频平台和直播中——穿着简单的白T,喝着可乐打着哈欠,一个叫“阿喜”的小姑娘没有台词,不跟用户互动,却获得了抖音50w粉丝;能说能互动的女团“A-SOUL”则获得了更高人气,在直播中,五个二次元的小姐姐与用户聊天,相互打趣,收获了很多愿意去现场看他们表演的死忠粉。
左图为抖音网红“阿喜”,右图为虚拟女团“A-SOUL”
他们出现在手机APP里、带屏智能音箱上,以活泼生动的形象充当用户的智能助手,甚至让喜欢的偶像对自己“言听计从”,做信息搜索等语音识别服务;
数字人出现在手机APP中
他们也早已出现在新闻播报中——在新华社APP上,一位像真人一样的AI合成主播已经累计播报新闻超过1万条,并且零误差,可实现对日常和突发事件的实时响应;
在新华社上线的AI合成女主播
他们出现在各种服务场合里,在金融、医疗等APP的客服界面中,像真人一样和需要答疑解惑的用户进行互动,连续7x24小时提供服务……
除了国内,国外虚拟数字人也十分火热,比如近日,韩国的创企DeepBrain AI正在用提供能代替群众演员的虚拟数字演员;2019年,一位名为“安德鲁”的美国作家在AI技术的帮助下有了首个孪生“数字人”,用以在百年之后依然在云端陪伴家人……
从实验室到现实应用场景,从无智能交互能力到有智能交互,从2C端市场到2B市场……
据我们不完全统计,在过去2~3年里,国内以“数字人”、“虚拟人”、“数智人”等标签出道并引起关注的虚拟数字人物众多。目前,已经有众多虚拟数字人具备智能驱动或交互功能,究其背后推手,有很多都是2017~2019年那场智能音箱大战中的头部选手,以及其他智能语音玩家。
“虚拟数字人”一词最早源于1989年美国国立医学图书馆发起的“可视人计划”(Visible Human Project, YHP)。1982 年,日本动画《超时空要塞》的女主角林明美被包装成歌手,成为世界上第一位虚拟歌姬。2007年,“初音未来”在日本诞生于成本较高的CG(计算机动画)技术,是第一个被广泛认可的虚拟数字人 。近年来,随着深度学习算法突破,智能驱动的虚拟数字人开始崭露头角。
从视觉发展角度来看,当下虚拟数字人在“捏脸”设计人形的环节门槛降低,往视觉形象上加智能驱动和交互能力成为新趋势。当我们反过来从智能语音交互技术发展的角度来看,语音助手正在实现技术的变道和升维,进化为多模态的虚拟数字人。
虚拟数字人正在成为令智能语音玩家兴奋的新故事。在这个故事中,语音助手更加具有人情味,但这与“元宇宙”中的虚拟人不同的是,它们更关注促进现实世界的产业数字化转型。
正如腾讯智能产品副总裁李学朝在采访中谈到他的观点:元宇宙很火,但腾讯现在主要是当成数字世界的打造的数字员工,它与“元宇宙”中的虚拟人有技术上的重叠,但腾讯打造数智人不是往元宇宙方向,而是从数字员工怎么更好的服务行业场景。
相比于元宇宙,虚拟数字人显然是一个更加落到实处、更聚焦的技术应用领域,拥有从To C到To B的更广大市场想象空间。
智能语音玩家与跨界玩家混战
作为智能语音技术的主要落地方向,在前两年还炙手可热的“语音助手”故事,如今似乎已不再动听。“不像人”、“缺乏人情味”是被广为吐槽的点。
就拿各大玩家悉数入局的智能音箱来说,2018年出货增长1051.8%,2019年继续翻一番达4589万台(IDC咨询数据),智能音箱一度成为百度、阿里、小米等玩家进行疯狂技术和价格战的大战场。然而,市场行情却在2020年以来陡转直下——2020上半年同比下降14.8%,2021年最新数据显示第三季度同比下降1.5%,智能音箱告别高速增长期,究其背后原因,离不开“傻瓜对话”、“难以理解深度含义”等技术上的发展瓶颈。
以“智能音箱”为代表的语音助手故事再难以引起市场和资本的太大兴奋,但令一众智能语音玩家欣慰的是,一个围绕“虚拟数字人”新形态展开的新故事、新玩法已经雏形初显。
这是一个池子更大、场景更丰富的市场,而各大智能语音助手早已入局,成为这一领域的龙头玩家。根据调查机构头豹研究所发布的预测,当前虚拟数字人市场规模已超2000亿元,2030年有望达2703亿元。
腾讯联合搜狗VS百度,互联网巨头之战打响
在互联网玩家阵营中,腾讯和搜狗联合组成的战队无疑是打头阵的玩家。就在11月刚刚举办的腾讯数字生态大会上,腾讯一口气推出五款不同能力的数智人,面向AI播报、手语播报、客服对话等场景有需求的客户赋能;同时,腾讯推出一款“云小微”数智人平台,这也成为整个腾讯云智能发力产业互联网的三大平台之一。
腾讯推出多种风格的数智人
在智能音箱大战中,腾讯直到2018年才发布其第一款智能音箱腾讯听听,彼时,百度和阿里正为新的带屏音箱打的火热。但面向虚拟数字人的新风口,腾讯首先将能力值拉满,对这个市场龙头宝座势在必得。
腾讯自己早在2018年就布局3D实时动作捕捉的数字人,而新并入的搜狗则为其带来自2018年就积累的虚拟主播数字人能力。同时,从腾讯CSIG(云与智慧事业部)内部发展来看,其在5月最新建立的技术委员会组织架构下,与拥有多模态智能语音技术的AI Lab实验室进一步跨部门合作,使其在虚拟数字人领域获得了双重能力加成。
能与腾讯“掰腕子”的互联网玩家,当属百度。百度在智能音箱热潮中当之无愧的赢家,曾占据近三成市场。
眼看腾讯联合搜狗在虚拟数字人领域大大发力,百度也紧锣密鼓。近日,百度节奏紧密地上线了冬奥会手语机器人、龚俊数字人语音助手等多款应用,一把用虚拟数字人抓住年轻人、体育爱好者等不同人群的心。而早在两年前,百度就推出了一款名为“小浦”的虚拟数字人,进入浦发银行作为国内首个虚拟数字员工正式上岗,完成身份审核、答疑解惑等工作。
浦发银行行长亲手为小浦佩戴上了正式员工工牌
百度创始人李彦宏曾透露了自己做虚拟人的一大初衷:因为想在怀念时,与过世的父亲沟通,他认为这种情感需求会促进虚拟人交互方式产生很大的市场。
百度早在2010年就率先成立了“自然语言处理部门”,据彭博报道,从自然语言处理到语音交互领域,百度过去十年中已投入了数十亿美元。百度的虚拟数字人背后是实打实研发资金砸出来的,可以说可与腾讯+搜狗一敌高下。接下来,要看的就是谁能够在这条赛道找到更加巧妙应用场景。
再看看其他曾经参团“智能语音助手”大战的互联网玩家,阿里、京东、网易都已迅速在一些垂直领域探索落地虚拟数字人。比如,阿里、京东近期纷纷将数字人引入电商,担任代言人、卖货人;网易也在教育、游戏等领域推出了文本驱动的虚拟讲解员、虚拟讲师等应用。
当然,更不能忽视字节跳动、快手这样的新兴移动互联网玩家,它们原生具有人工智能基因。比如字节跳动与乐华娱乐合作打造的“A-SOUL”的虚拟二次元女团获得了无数的粉丝。虚拟主播领域已经展现出商业化价值,视频网站哔哩哔哩数据显示,2020年6月~2021年5月已有32,412位主播在其上开播,同比增长40%。
作为当下最接近“元宇宙”代言人Facebook的公司,下一步字节是否会为“A-SOUL”嵌入AI交互能力取代背后扮演的真人?这想想就很“元宇宙”。
可以看到,新老互联网巨头正成为虚拟数字人的主要玩家,背后的深层次逻辑也不再仅仅是它们擅长的“2C故事”。
当下,互联网行业高速增长时代已经远去,百度、腾讯、阿里等互联网巨头们比之前任何时候都更需要考虑第二增长曲线。虚拟数字人虽然看起来只是一条很小、且还很初期的赛道,却可能暗藏云与AI技术在未来产业互联网中的诸多新机遇。
科大讯飞商汤等AI玩家,可与互联网巨头一战?
除了互联网巨头,AI企业也是这场“造人”派对的主场玩家。
其中,智能语音龙头企业科大讯飞无疑是这一玩家阵营的龙头。科大讯飞早在2012年就上线语音智能助手,2015年与京东联合发布了国内第一款智能音箱“叮咚智能音箱”,而到了虚拟数字人时代,对于科大讯飞这样的玩家来说更多是技术的自然演变。
去年1024开发者节现场,科大讯飞就推出了AI虚拟人5G交互一体机硬件,其虚拟数字人“爱加”已陆需进入春节拜年、“两会”播报等应用场景。在今年10月刚刚过去的1024开发者节上,科大讯飞更进一步,推出了赋能B端生态伙伴的虚拟人交互平台1.0,虚拟人家族形象已经达到了54位,并且还支持自定义形象,未来将在多模感知、情感贯穿、多维表达和自主定制上持续升级。
科大讯飞在2021年1024开发者节上推出的虚拟数字人
科大讯飞有声平台总经理郜静文告诉我们,传统的智能语音赛道是以声音为传递的,虚拟人的加入,使得信息的传递在有声化的基础上实现了可视化。虚拟人多元化、个性化、情感表现等特点,将拓宽智能语音的赛道,有更多的应用方向和场景,反向又驱动人工智能有更高的智能化表现。
除了科大讯飞,其他智能语音玩家布局虚拟数字人也都比较早。如AI创企思必驰公司在2019年就推出能够实时对话的导演陆川数字人,追一科技、硅基智能等创企也都推出了落地银行、公检法等场景的数字人产品。对于这些智能语音玩家来说,虚拟数字人一方面是其技术迭代的自然而然演化出的新形态,另一方面也是一个新的吸引资本的好故事。
好故事并不仅仅属于智能语音玩家,还有从视觉相向切入的智能视觉玩家,以及下一代通用人工智能玩家。
比如,计算机视觉厂家如商汤科技的“小糖”、通用AI研究机构智源研究院的清华虚拟学生“华智冰”、冬奥会的手语数字播报员,都将虚拟数字人可能达到的交互效果和应用空间不断拓展。
商汤科技推出的数字人“小糖”
可以看到,早先一批做智能语音助手、电话机器人的玩家无疑是这场虚拟数字人抢滩大战的主场玩家;同时,更多拥有跨界能力的AI玩家也在成为这一领域的爆品制造者,有望成为新的“黑马”。
从虚拟数字人长期的发展路径来看,AI企业有望将数字人生动形象之下的“内涵”大大提升,让其更加接近人的思维和对话水平,这是AI类玩家更大的优势。但与此同时,互联网玩家广泛的C端入口和客户渠道也是AI企业难以追赶的。
3、智能手机商:华米OV你追我赶,从2C到2B
在上一波智能语音技术的落地中,华为、OPPO、小米等智能手机玩家既是这一市场的推动者也是获益者。他们的智能语音助手、智能音箱产品活跃在人居生活的多个场景,正在成为全屋智能的中枢。
如果有什么企业希望通过让智能语音助手变得更加有人情味这种方式,俘获更多的用户量和更大的用户黏度,非智能手机厂商莫属,而虚拟数字人做的正是这件事。
就在今年,在智能音箱大战时代错过机遇的OPPO已经在虚拟数字人这件事上摆出态度和实力。就在10月刚刚举办的OPPO开发者大会上,OPPO推出了小布虚拟人和小布虚拟人定制平台。小布是OPPO月活用户突破1.3亿的智能语音助手,此次小布助手从纯粹的手机语音助手升级为多终端、多模态的对话式智能助手。
OPPO推出了小布虚拟人和小布虚拟人定制平台
在OPPO数智工程事业部总裁刘海锋的畅想中,OPPO希望构建一个以小布助手为中心,实现智能设备之间的万物互融。可以想象,小布虚拟人未来在智能家居场景,也有望成为一个更有人情味的管家。
同样快速布局的还有华为公司,作为一家在ICT和消费电子跨界的玩家,华为做虚拟数字人的布局在To B领域具有更宽广的想象空间。
就在今年9月,华为推出了一款名为“云笙”的虚拟数字人,担任华为云内部员工,会进行技术内容宣讲、答疑解惑等工作。一个月后,华为又推出了一款虚拟数字人平台,要把这一能力开放给行业。华为此举既让我们看到其对自身虚拟数字人技术的自信,也能看出,当下华为的业务中心正在从消费电子端向To B领域有所偏移。
华为云CEO张平安在与云笙互动
除了今年动作迅猛的OPPO、华为,其他智能手机玩家在虚拟数字人也不甘示弱。比如小米公司,就在OPPO公布“小布”虚拟数字人的前后脚,小米也宣布在新款Civi手机中上线“小爱同学”的虚拟数字人形象,而早在2020年8月,这一技术已经在小米用户中内测这一应用。
结合前面互联网玩家的动作来看,各家做虚拟数字人的落地,其实越来越跳出智能音箱时代聚焦的消费互联网,而是更加宽广的产业互联网。
说完产业,我们再来看看技术。
不同的场景选用不同的虚拟人驱动方案,目前包括AI算法、真人捕捉等驱动方案,各有优劣势,不同应用场景选择不同的方案,综合从成本、体验效果考虑会有不同选择。
根据驱动方式的不同,我们可把市面上存在的虚拟数字人大致分为四类:
1、文本驱动的虚拟数字人,比如搜狗AI合成主播“雅妮”、“两会”期间播报的爱加和小C等,多以文本或语音驱动,多用于新闻播报等领域。
2、会话场景驱动的虚拟数字人,比如OPPO推出的小布虚拟人、腾讯的金融数字客服等,它们可以与人对话,同步嘴型和动作。
3、真人(实时捕捉)驱动的虚拟数字人,如 “A-SOUL”女团,它们一般在形象背后由真人扮演,通过实时捕捉实时驱动。
4、无智能化驱动,如抖音网红“阿喜”,暂时还没有显示出AI驱动及智能语音能力,强调形象逼真而非动感交互。
在过去很长一段时间里,智能语音技术的研究主要解决两大挑战,第一大挑战是围绕着“听得清”做研究,“前言不搭后语”,尤其是出现指代不明的问题,这主要是因为需要的数据以指数函数增加,但实际可用的对话数据太少。
第二大挑战,则是多模态——即除了语音,还通过视觉、触觉等多种感知来支持机器对话决策,比如眼神、唇语等。
在克服第一重挑战中,很多企业仍然还有很长的路再走。而在克服第二重挑战的过程中,很多玩家看到了“虚拟数字人”这一条新路。既然语音识别的瓶颈一时难以破除,何不转个弯,从多模态的角度让AI更加像人,实现服务升级?
为此,虚拟数字人应运而生。当下国内这些布局虚拟数字人的公司,正是率先掌握了唇语识别技术进而将语音识别的准确度大大提升,形成了技术壁垒。
一般来说,市面上的虚拟数字人主要包括人物形象、语音生成、动画生成、音视频合成显示、交互等5个模块构成,其中多个环节主要用到的就是智能语音技术,以及智能语音与视觉融合的多模态技术。
图源《2020年虚拟数字人发展白皮书》
在语音生成方面,基于文本生成对应的人物语音,主要采用了TTS(从文本到语音)技术,比如很多人知道的明星语音包,早已不是由明星一句句录制,而是只需要录制几句话,就可以合成明星的声音。
在动画生成方面,2D、3D数字人的嘴型动作,基本可以靠AI模型实现智能合成。这是对已采集到的文本到语音和嘴型视频(2D)/嘴型动画(3D)的数据进行模型训练,得到一个输入任意文本都可以驱动嘴型的模型,再通过模型智能合成。但对于一些肢体动作来说,大多采取录播形式。
另外,动态实时捕捉也是一种方案,光学式和惯性式动作捕捉占据主导地位,此外,基于计算机视觉的动作捕捉成为聚焦热点。
交互模块使得数字人具备交互功能,比如通过语音语义识别能实时明白用户的意图,并据此对用户进行语音、表情、动作的反馈。这其中需要用到的基础技术包括智能语音识别、自然语言处理、图文合成技术等。交互能力并不是当下虚拟数字人的标配,也是智能语音玩家的门槛所在。
当下,深度学习技术的进步使得虚拟数字人技术成本越来越低,效果更好。但与此同时,虚拟数字人的规模化部署仍然面临难点。
腾讯智能产品副总裁李学朝在接受智东西等媒体的采访中指出:“当通过虚拟数字人这一外形变得更加像人,这样用户对数字人的期待就会变得更高。这时,如果语音交互能力依然得不到提升,‘答非所问’,其实得到的落差会更大。”换句话说,逼真好看的外貌对智能语音应用只是锦上添花,在“人人捏脸”的时代,过硬的AI交互能力成为一大更核心的竞争力。
可以看到,尽管虚拟数字人为智能语音赛道带来了新故事,但这并不代表智能语音玩家就可以完全绕开先前的障碍。这一难点,即便是在虚拟数字人阶段,依然是玩家们绕不过去的大石头。
此外,除了智能语音技术发展的瓶颈无法真正绕开,还需要注意的是安全问题。当虚拟数字人变得更像人,更加容易地牵动人的心智,也意味着可能的风险越大。比如,如果虚拟数字人如果用来制作现实人的形象,没有得到本人的同意,可能带来非常恐怖的影响。
可以看到,尽管一阵“元宇宙”的风让大家对虚拟数字人都兴奋不已,但回到虚拟数字人技术本身,这个动听故事其实更接近智能语音玩家推进企业将产品和服务进入一个新的阶段——从智能语音阶段到虚拟数字人阶段,从单维的智能语音技术到多模态技术,从消费互联网市场拓展到产业互联网市场……
而在这一新阶段,不论是腾讯(搜狗)、科大讯飞这样的老牌智能语音龙头,还是百度、阿里、华米OV这样的智能音箱时代的收割者,亦或者商汤、智源研究院、字节这样的跨界新玩家,都正在争夺入场券。
我们从中国智能语音技术十年发展脉络来看,对于虚拟数字人新玩法的探索,不仅是一场搜狗(腾讯)和科大讯飞两大智能语音技术龙头的对拼,更是一场将整个互联网、消费电子、行业玩家圈入混战的开始。
从语音助手进化到虚拟数字人,是人工智能技术与人类交互方式进化新的重要节点。当然,正如腾讯李学朝指出的,当下,虚拟数字人发展仍处于探索阶段,还有很长的路要走。这很有可能是一场智能语音赛道的升维战,也是AI交互领域的未来新战场。