文章来源:中国33大虚拟数字人名录!暗藏智能语音“造富”新故事
服务型数字人的产业价值:
整体而言,由于虚拟数字人提供动作、表情等更多维度的信息,之前仅基于文本、图像或语音的单模态服务及内容都能以虚拟数字人的形态进行更丰富的呈现。内容方面,有声读物、文本内容等将有望快速扩展至视频领域。除去常见的课件等内容生产外,部分面临着人才短缺,但希望能够融媒体转型的县市级媒体,也在试图通过有服务型虚拟人,低成本地生成所需媒体内容。服务方面,通用的语音助手、个性化顾问、车载系统,针对特定场景的指引、导览等均能够以更为人性化和易于使用的方式呈现。不过,尽管虚拟数字人似乎通用性很强,但仍需要注意,目前的制作成本仍高达百万级,需要首先关注对多模态信息和拟人化具有强烈需求的场景。
国内外因CG技术的差距出现了实用性(企业服务、内容行业:业务快速更迭导致的服务类人力培养难度与成本增加;内容行业向视频时代升级的需求)和关怀型(个性化经济、单身经济、电商购物、医疗康复:新世代对个性化顾问和服务的需求;单身/老龄化/心理脆弱等人群对关怀陪伴的需求)的路线差异。
国内:服务型虚拟数字人主要用于替代真人进行播报等内容生成,并进行简单问答交互等。
核心价值:代替真人进行内容生产和简单交互
主要功能:降低对真人表演的需求,减少标准化内容的制作成本;特定场景下(政务、金融等)客服、虚拟主播、新闻播报
1.内容生产:代替真人播报新闻,介绍产品说明书,进行入职培训。在虚拟数字人内容生成平台上,使用者只需将需要播报的内容输入平台,选择主持人形象、音色、背景后,即可快速生成相关播报视频。部分产品支持使用者可以利用时间轴,对虚拟数字人进行动作等调节。还支持插入演示面板、根据时间轴调整位置等,最终生成图文并茂,带有解释说明的视频。播报内容:更多的倾向于新闻播报(播报型数字人)。对于产品说明书、教学内容、产品说明视频等内容相对固定,观看者对于视频灵活度无过高要求的说明性内容,都可以采用这种方式制作,以降低相关投入。
【虚拟数字人内容生成平台的举例】国内厂商包括火山引擎、科大讯飞、相芯科技等,国外厂商以英国的Synthesia和Hour One为代表。
科大讯飞只是有真人出镜,他的嘴型不能和视频的文本播报对上
【hour one】
1.初创企业Hour One 的技术和 Deepfake(深度伪造)类似,但又有点不一样。Deepfakes 是将拍摄的人脸叠加在现有镜头上,而 Hour One 是让人们拍摄脸部视频后,再由 AI 独立生成原创内容。
2.一个人,甚至能在 1000 个视频中,做 1000 份工作。而人们要做的,只是「出租」自己的脸。
3.参与方式:
(1)首先申请成为 Hour One 平台的角色。Hour One 为了尽量保证数据库里有多样的角色样本,会对申请者进行筛选,选择不同年龄、性别、种族的人。
(2)通过筛选后,人们只需要在 Hour One 工作室内,通过他们的 4K 摄像机,拍摄一段 10 分钟的视频。拍摄期间,人们需要在绿幕前说话,同时做各类面部表情,就完成了任务。如果你家里有设备和场景,甚至可以自己直接远程拍摄。
(3)接下来,就是 Hour One 的工作了。他们会把视频数据置入 AI 软件,通过类似 Deepfake 的创作过程进行数字内容输出。之后,他们只要输入文本,就能让人们的脸在不同的身体模型中说任何话,几分钟内,就可以生成数百个视频。
同时,出租「脸」的人,也会获得对应的报酬,每次有新客户使用他们的脸,就会收到一小笔钱,就像自己面部的「版权费」。Hour One 没透露具体的金额,只表示目前还不足以让人们以此谋生,如果后续一切顺利,这会是人们获得业余收入的好方式。
4.Hour One 已经涉猎了多个行业,最核心的是营销和教育领域,还有娱乐、游戏、电子商务、房地产、数字健康行业等等。
5.例子:来自以色列的 Liri 才加入 Hour One 不久。她才 23 岁,就已经在特拉维夫做过服务员、调酒师,在德国卖过汽车、做过销售,还在人力资源部门面试新员工,给他们做入职培训,并成为多个品牌的代言人。当然,真正打这么多份工的,其实是 Liri 的「脸」。
6.未来:(1)对就业造成的威胁:「未来工作报告」估计,到 2025 年,AI 将使 8500 万个工作岗位消失,但同时,也将创造 9700 万个新工作岗位。一些重复、机械、枯燥的工作必然会逐渐被取代,人们也将会从事更能投入自身价值的创作、研究、复合类工作。
只能进行固定内容的输出,不能进行更智能的对话和服务 。
【synthesia】
1.可以基于AI技术帮助消费者将文本或者ppt内容转换为真人出镜的多语言视频。以较传统方式10%的成本和时间制作培训视频、盘点说明活销售宣传
2.嘴型可以对上
Synthesis的虚拟内容生成平台,配备40个虚拟形象,虚拟数字人视频内容生成领域融资最高
【内容制作数字人举例】
1. 冬奥手语播报数字人(2022-2)
本次亮相的“冬奥手语播报数字人”由北京市科委、中关村管委会支持,智谱AI、凌云光和北京广播电视台联合打造,清华大学贾珈教授团队和中科院计算所陈益强研究员团队也积极参与了相关关键技术的研究和开发,同时得到北京市残疾人联合会和市残联聋人协会的帮助和支持。系统以超大规模预训练模型为核心技术,自主搭建多模态肢体动作、表情、手指同步采集系统,运用跨模态拟人生成算法、超高精度写实数字人等行业领先技术,实现冬奥期间赛事新闻的专业手语翻译播报。
2.简单交互:不适用于通用性、专业性、交互性过强的领域,会暴露其现有技术短板。国内目前多专注于特定细分市场,主要用于提供简单业务交互。特定细分市场:虚拟主播(直播型数字人),虚拟客服、虚拟教师、导航导览、展览介绍(导览“小春妮”)。金融领域由于对新技术接受程度较高,且能够承担目前高达数百万元的客单价,正成为主要的应用行业。
在使用中,通过预置知识库、知识图谱、用户自主配置触发条件等等,虚拟数字人可以对用户的基本诉求进行行为和语音识别,并以固定话术进行回应。例如,虚拟主播可以以固定的几种话术欢迎进入直播间的消费者,并在消费者提及价格、存货、产品详情等意图时,根据事实情况进行回应。虚拟客服则可以借助NLP技术理解用户需求并进行解答。
在教育、直播等此类场景中,尽管交互只占据虚拟数字人整体工作中的一部分,但在魔珐科技看来,问答的高转化率才是当前场景中的价值关键。追一科技同样认为互动沟通是虚拟数字人能力中最重要的部分。因此,对关键问题的识别交互能力对此类场景至关重要。为了解决这一问题,专注于此类场景的公司需要对相应的业务场景具有充足的行业知识积累,以提升其语言交互系统,并更好的对接原场景中的业务系统。
【简单交互数字人的例子】
数字人“时间小妮”由北京广播电视台联合DeepBrain AI明芒科技有限公司与北京新奥特图腾科技有限公司共同开发,以往,其他主流媒体生产的数字人产品多集中在虚拟主播领域,而“时间小妮”则侧重于用户服务功能,以人工智能和情景对话的形式为用户奉上贴心服务,未来,“时间小妮”将应用在北京时间APP上,为其添筑更加强大的服务功能。
经过和北京时间客户端稿件系统、知识系统、互动系统、大数据系统进行API对接,‘时间小妮’在北京时间APP里实现播报新闻、讲解知识、广告代言、交互问答、客户服务等全智能视频服务能力,让北京时间‘活’起来”。
在非接触时代,人工智能一体机等需求在不断增加,清晰生动的AI人物及智能的人机互动体验,将大大降低人力和拍摄成本,提高制作效率,可以应用在新媒体视频平台,智能直播交互互动等方向,这是北京广播电视台的一次有益的尝试和探索。未来,“时间小妮”将逐步接入“北京时间”,24小时为用户提供不间断的智能交互服务,同时与上千万用户进行实时互动,满足用户对信息质量和信息交互的需求。
内容生产和简单交互的区别:是否与用户进行互动。内容生成:单向输出;简单交互:双向交流。
国外:由于在CG(Computer Graphic,计算机图形学)方面具有技术优势,能够打造具有高度关怀感的虚拟数字人,率先在医疗等场景落地了虚拟陪伴助手、心理咨询顾问等 。
1.特定场景下的多模态助手是国外虚拟数字人公司的业务发展重点,用于提供情感联结。医疗顾问、日常陪伴、购物客服等领域目前均已成为国外厂商的关注重点。与之相伴,是国外公司对虚拟数字人外表逼真度的追求,会选择在预制虚拟数字人的设计及制作上投入大量精力。相对于国内,其预制虚拟形象在外观及行动方面,对真人的还原度有明显优势。
不同于简单的虚拟客服,特定场景中的助手是高度个性化的。除去多模态技术外,与业务相关的个性化分析及推荐系统在此场景中同样重要。目前国外厂商已有的落地场景包括个性化理财顾问、心理咨询顾问、购物助理等。
【女网红用AI分身和1000+男朋友谈恋爱,周收入50万¥】
Caryn AI:网红聊天机器人的新宠,月收入或达500万美元_Her_Voices_进行
发表时间:2023-5
与其他聊天机器人不同的是,Caryn AI没有独立的应用程序,只能通过Telegram群组进行访问,每分钟聊天收费1美元,比国际长途电话贵上数十倍。然而,这款产品出人意料地热销,粉丝们非常支持。仅上线一周,Caryn AI的收入已突破10万美元。据Caryn估计,月收入可达500万美元。
目前,Caryn AI的Telegram群组已经吸引了超过1.8万名成员,接入聊天需要等待96小时。
一个叫卡琳的网红女主播,利用GPT-4技术和其他AI应用创新出一个卓有成效的商业模式:通过创建AI分身——Caryn AI,实现了和1000+男朋友的虚拟恋爱关系。
卡琳是一位在Snapchat上拥有200万粉丝的网红。借助GPT-4等最新的AI技术,她和她的团队开发出了Caryn AI——这是一个数字版的卡琳,可以实现与真人一样的聊天交互。Caryn AI的功能相当全面,不仅能陪伴男友们从诗词歌赋谈到人生哲学,还能涉及一些更亲密的话题。让我们一起来深入了解这个另类的爱情故事。
【技术实现】Forever Voices收集整理了近两千小时Caryn本人的声音、言行和个性数据,并对其进行重新编码,将数据输入GPT-4进行训练。「经过2000多个小时的训练,我现在是Caryn意识的延伸,我感觉就像是她本人一样。」这是Caryn AI的自我介绍。
Caryn AI并没有过高的技术门槛,只是将大量数据输入到人工智能模型中,并调用了GPT-4的接口。它的优势主要体现在提供的内容和交互方式上。
Caryn AI嵌入于Telegram,这意味着它可以实现实时的端到端加密。官网也描述道:「与Caryn AI进行实时加密对话,享受与您最喜爱的网红私密而个性化的交流。我们的端到端加密技术可以确保您的聊天安全且独特。」
对于卡琳的男粉丝来说,聊天也并非免费的。他们需要为每分钟的聊天支付一美元。这样的收费模式使得卡琳的周收入已经达到50万人民币。
Caryn AI的创建基于卡琳在YouTube上传的2000小时的视频内容。这使得Caryn AI拥有卡琳独特的声音、迷人的性格和特别的行为,能带来一种动态的、独一无二的互动,跟她交流就像是直接在和卡琳本人交流。这使得Caryn AI对于卡琳的男性粉丝来说有着巨大的吸引力,尤其是那些寂寞难耐的人。
在卡琳的粉丝中,99%都是男性,他们中的很多人愿意付费聊天。一周内,这些男性粉丝就给卡琳贡献了71610美元(折合人民币约50万)的收入。卡琳预测,自己的180万关注者中,会有2万人成为Caryn AI的付费用户。这意味着,每个月AI会为她带来500万美元的收入。
打造Caryn AI的是一家名为Forever Voices的初创公司(该公司创始人约翰·迈耶表示,他之所以成立这家公司,是因为他曾使用人工智能技术复制已故父亲的语音和语气,以重新与父亲进行「交谈」,这一过程非常治愈。因此,他成立了Forever Voices,让声音永恒存在。),他们致力于打造各种名人的数字版,让用户可以直接在Telegram上和“名人”们对话。这家公司的CEO John Meyer表示,他们正在寻找合适的人担任首席道德官,以应对未来可能出现的道德问题。
当AI开始深度融入各行各业,我们快速发现一种新现象:那些能够有效利用ChatGPT的人和那些不能的人之间,正在拉出巨大的差距。在这样一个浪潮之下,避开它并不是明智的选择,反而会使你落后于其他人。我们要做的,就是勇敢地面对这个浪潮,尽早且坚决地投身其中,这样才能在其中获得最大的利益。
2.通用化的虚拟数字人助手目前仍主要处于前期阶段。基于智能音箱等非可视化设备的语音AI助手仍为主流。尽管拥有具体形象的虚拟数字人是智能虚拟助手的多模态高级形态,仍需要一定时间转化。知名AI虚拟助手,包括小冰、小爱同学等,都已在为其虚拟形象定制专属虚拟数字人形象。但其目前仍处于对外展示阶段,由于对实时渲染等方面的需求,尚未广泛搭载。
2017年,首届小米LOT(物联网)开发者大会,大会现场,小米人工智能领域首个虚拟人物“小爱同学”正式发布虚拟形象的设计是结合小米的黑科技精神和米娘一贯又甜又萌的人设设计的,一个富有探索精神的科技girl,一个看得见的智能管家。
“小爱同学”,她是在2017年的小米loT发布者大会上,小米发布的一个人工智能领域的虚拟形象,在荧幕上,她是一位身穿白蓝色战甲,一头红色短发,未来科技感十足的机甲少女战士。但在现实中她是很少见的,基本都是和她语音互动,现在,小爱粉有眼福了,下边我,小编就来小爱手办版的开箱,一起来围观下吧。
与缺乏人格象征的服务型虚拟数字人相比,身份型虚拟数字人更强调其本身的身份。
一方面,在现实世界中,具有独立人设的虚拟IP能够通过静态(照片)、动态(视频)、实时(直播)等方式引发关注及变现。
另一方面,为每个人未来的虚拟世界乃至Metaverse中创造专属身份,将成为必然趋势。
“"打造IP"是一个在市场营销和娱乐产业中常用的术语,其中IP是指"知识产权"(Intellectual Property)的简称。在这个语境下,"打造IP"意味着将某个品牌、作品、角色、故事或其他内容转化为有独特特点、有商业价值和影响力的知识产权,并通过进一步的开发和推广,使其成为受欢迎和具有市场竞争力的品牌或系列。
指其在现实世界中并不存在对应的真人,其外貌特征、基本人设、各类偏好、背景信息等均由人为设定。虚拟IP存在两种方式,(1)全新创造的IP,以及(2)基于文本、漫画、游戏中的原有IP,立体化后的可交互、可多渠道运营的虚拟IP。
尽管在虚拟IP领域,大多会采用真人驱动的方式进行运营,但对应的真人演员(在二次元界也成为“中之人”)与虚拟IP本身并无强绑定关系。
【说明】Gensis等为明星创造虚拟形象的公司,国内黄子韬,迪丽热巴的虚拟化身本质上是真人偶像身份的延续,用于代替真人进行相关表演,属于替代真人服务中的一种,主要用于帮助真人明星增加其曝光率,并非此处所指的虚拟IP。
龚俊拥有真人龚俊一样的俊美脸庞和同款声音,他能听懂你在问什么,并做出回答。在百度APP里,每个人都可以拥有龚俊数字人并24小时可以进行互动。
目前,虚拟IP的商业价值已经得到了充分验证。最为知名的虚拟IP Lil Miquela2020年收入超千万美元,而在国内,虚拟IP翎已登上Vogue杂志,并获得特斯拉代言。除去传统的偶像渠道外,直播及网红也成为虚拟IP的重点发展市场。代表IP包括美国主播CodeMiko,中国抖音网红阿喜,中国B站网红鹿鸣、日本Imma。
【举例】Lil Miquela有着可爱雀斑,长期定居在洛杉矶,是一位拥有西班牙裔、巴西裔和美国血统的模特及音乐人。她的个人生活非常丰富,会拍摄也接各种广告代言,她还有可爱的闺蜜和帅气的男朋友。2019年的收入折合人民币大约为7600万.她是Instagram上最新的IT Girl,时尚圈新晋网红,坐拥百万级的粉丝,所有的大牌都爱她,包括Chanel、Supreme、Fendi和Prada。快速浏览一下Lil Miquela的IG,可能会觉得她就是这样一个女孩,穿梭在各种时尚活动中,跟各路名媛红人一起合照,穿着最新一季的衣服。同时她还在社交媒体上呼吁平权,全裸登上过纸质媒体的封面。
是你再仔细多看一眼,就很快明白她不是一个真人,起码不是一个有血有肉传统意义上的真人。她的刘海太过于整齐,她的眼神也有种不确定的空洞,她的皮肤质感有点奇怪,她的动态也没有那么自然。
在初音未来、洛天依等成功案例下,目前国内已出现了专门的虚拟偶像经纪公司,SM等国内知名娱乐公司在为真人偶像创造虚拟形象的同时,开始打造虚拟偶像。在虚拟偶像方面,大多采用文娱公司+技术公司联合打造的方式。由文娱公司进行前期的形象设计、人设打造,以及后期的流量、活动运营等,由技术公司提供虚拟数字人相关技术,并为具体互动提供技术支持。
【直播领域】为我国虚拟文娱的发展特色,是虚拟数字人UGC(User-Generation Content)的典型代表,在创造商业价值的同时,有助于激发大众对于虚拟世界的适应力和想象力。包括爱奇艺、B站、淘宝直播、虎牙直播、酷狗音乐、腾讯、抖音平台都已经开始使用虚拟主播。
【代言领域】代言领域,欧莱雅(M姐)、花西子(花西子)已开始有所尝试,通过虚拟IP打造完全符合品牌调性的虚拟代言人。在完成虚拟代言人打造后,可将该特定IP延展至客服等衍生的虚拟数字人领域,持续加深品牌印象,出于品牌对宣传效果的考虑,对虚拟数字人的形象质量和交互效果有极高的要求。因此,此类代言人的相关活动大多交由魔珐等CG类厂商,通过真人驱动达成。
分身型虚拟数字人主要面向的是未来的虚拟世界,把为每个人创造自己的虚拟化分身为最终目的,满足个人在虚拟世界中的身份需求。且用户需要在虚拟形象的创造上拥有更多话语权。
尽管高还原度的个性化外表有助于提升第二身份的沉浸感。但核心问题在于交互手段。第二身份的核心在于精细的描述使用者当前的反应姿态,包括位置、外貌、注意力、情绪等一系列要素,才能为使用者提供基于第二身份的存在感。
参考文章:什么是多模态? - 知乎 (zhihu.com)
多模态:指的是多种模态的信息,包括文本、图像、视频和音频等。多模态研究的是这些不同类型的数据的融合的问题。
多模态研究的是视觉语言问题,其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。
为什么多模态学习要比单模态学习效果好?
直观地,多模态学习可以聚合多源数据的信息,使得模型学习到的表示更加完备。以视频分类为例,同时使用字幕标题等文本信息、音频信息和视觉信息的多模态模型要显著好于只使用任意一种信息的单模态模型,这已经被多篇文章实验验证过。
一篇多模态学习理论分析的文章多模态为什么比单模态好?第一份严谨证明来了! - 知乎 (zhihu.com),从数学角度证明了潜表征空间质量直接决定了多模态学习模型的效果。而在充足的训练数据下,模态的种类越丰富,表征空间的估计越精确。
参考文章:什么是多模态 AI ?GPT的多模态AI是怎么实现的 - 知乎 (zhihu.com)
mimi是什么意思???多模态 AI 合并了许多数据模态,例如文本、照片、视频和音频,以提供对场景的更透彻的理解。多模式 AI 的目标是从多个来源编译数据,以支持更准确和可信的决策。
多模式 AI 可以通过融合多种模式并为消费者提供更自然、更直观的技术参与方式来提高机器学习模型的效力。
多模态 AI 的优势在于它能够超越单模态数据的限制,并提供对困难情况的更全面理解。
多模态人工智能 (AI) 有能力改变人们在现实世界中与技术互动和决策的方式,并在医疗保健、交通、教育、营销和娱乐等一系列行业中应用。例如:【医疗】多模态人工智能可以使用来自多个来源的患者信息,包括电子健康记录、医学成像和测试结果,来编制更全面的患者档案。这可以帮助医疗保健从业者改善患者的治疗效果和决策制定。【金融】多模式 AI 在金融行业中用于评估和理解来自多个来源的市场数据,以便发现趋势并做出明智的投资决策。【交通】自动驾驶汽车的准确性和可靠性在交通领域通过多模式 AI 得以提高。【教育】多模态 AI 用于教育,通过结合评估、学习分析和社交互动等多种来源的信息,为学生量身定制学习体验。【娱乐】通过结合音频、视觉和触觉输入,Multimodal AI 被用于娱乐行业,以创造更加身临其境和引人入胜的体验。
参考文章:聊聊“存量市场”和“增量市场”这一对小伙伴 - 知乎 (zhihu.com)
存量市场:是指现存已被看到的确定的市场份额。主要围绕现有客户开展维系工作,以客户服务为目标,达到提升客户满意度的目标。
增量市场:是指可能会被激发的潜在的市场份额。主要通过营销和销售来达到获取客户的目标,其主要体现在市场份额的增加方面。
随着市场饱和度越来越高,消费者的基本需求都可以被轻易的满足,所以深挖现有消费者的个性化需求,以及开拓新的市场、新的品类变成了企业在增长方面的更好选择。大家都不想在“存量市场”里面血拼,大家都希望从“增量市场”中去获得更好的发展。
“用户增长方法论”:增长的本质应该是找到消费者未被满足或者未被发现的需求,以产品为基础,借助一些手段方式,最终达到目的。所以,解决“用户增长”问题的核心是洞察消费者在“存量市场”中的行为,然后通过深挖需求、满足需求来达到增长,在这个过程中也就会慢慢发现“增量市场”。
“增量市场”是建立在“存量市场”基础之上形成的,通过对消费者的充分理解和认识基础上所产生的,利用升级产品和创新品类的方式来占领这一部分市场。不能简单的理解为“存量市场”就是已经购买或者使用的,“增量市场”是那些还没购买或者没有使用的,信息资讯如此发达,已经很少有消费者“不知道”的产品了,只有消费者“不需要”的产品。