本文是针对《All One Needs to Know about Metaverse: A Complete Survey on Technological Singularity, Virtual Ecosystem, and Research Agenda》的翻译,只针对文字部分,图表请查看原文。
自20世纪90年代互联网普及以来,网络空间一直在发展。我们已经创建了各种以计算机为媒介的虚拟环境,包括社交网络、视频会议、虚拟3D世界(例如VR聊天)、增强现实应用程序(例如Pokemon Go)和NonFungible Token Games(例如Upland)。这样的虚拟环境,虽然不是永久的,也没有联系,却为我们带来了不同程度的数字化变革。“元宇宙”一词的出现,是为了进一步促进我们物质生活各个方面的数字化转变。元宇宙的核心是将沉浸式互联网视为一个巨大、统一、持久和共享的领域。虽然元宇宙似乎是未来的,受到扩展现实、5G和人工智能等新兴技术的推动,但我们的网络空间的数字“大爆炸”并不遥远。
该综述文章首次尝试提供一个全面的框架,在最新技术和元宇宙生态系统的维度下检查元宇宙的最新发展,并说明了数字“大爆炸”的可能性。首先,技术是推动从当前互联网向元宇宙过渡的推动者。因此,我们严格审查了八项使能技术——扩展现实、用户交互(人机交互)、人工智能、区块链、计算机视觉、物联网和机器人技术、边缘和云计算以及未来移动网络。在应用方面,元宇宙生态系统允许人类用户在一个自我维持、持久和共享的领域内生活和玩耍。因此,我们讨论了六个以用户为中心的因素——化身、内容创造、虚拟经济、社会可接受性、安全与隐私以及信任与责任。最后,我们提出了元宇宙发展的具体研究议程。
元宇宙,前缀“meta”(意指超越)与单词“universe”的组合,描述了一个与物理世界相联系的假想合成环境。“元宇宙”一词最早出现在Neal Stephenson于1992年写的一篇名为《雪崩》的推理小说中。在这部小说中,斯蒂芬森将元宇宙定义为一个与物理世界平行的大规模虚拟环境,用户通过数字化身进行交互。自第一次出现以来,元宇宙作为一个计算机生成的宇宙已经通过各种各样的概念进行了定义,例如生命记录、虚拟中的集体空间、体现互联网/空间互联网、镜像世界、全宇宙:模拟和协作的场所。在本文中,我们认为元宇宙是一个融合了物理和数字的虚拟环境,这得益于互联网和网络技术以及扩展现实(XR)之间的融合。根据Milgram和Kishino的现实虚拟连续体,XR在不同程度上集成了数字和物理,例如增强现实(AR)、混合现实(MR)和虚拟现实(VR)。同样,《雪崩》中的元宇宙场景投射出现实世界的二元性和数字环境的副本。在元宇宙中,所有个人用户都拥有各自的化身,类似于用户的物理自我,在虚拟世界中体验另一种生活,虚拟世界是用户真实世界的隐喻。
为了实现这种二元性,元宇宙的发展必须经历三个连续的阶段,即(I)数字孪生,(II)数字原生者,以及(III)物理虚拟现实或超现实的共存。图1描述了三个阶段之间的关系。数字孪生是指在虚拟环境中复制的大规模高保真数字模型和实体。数字孪生反映了其物理对应物的特性,包括物体运动、温度甚至功能。虚拟孪生和物理孪生之间的联系取决于他们的数据。现有的应用有很多,例如产品设计和建筑结构的计算机辅助设计(CAD)、智慧城市规划、人工智能辅助工业系统、机器人支持的风险操作。在建立物理现实的数字副本之后,第二阶段侧重于本地内容的创建。内容创造者,可能由化身代表,参与数字世界中的数字创作。这样的数字创作可以与它们的物理对应物相联系,甚至只存在于数字世界中。同时,相互关联的生态系统,包括文化、经济、法律和法规(如数据所有权)、社会规范,可以支持这些数字创造。这种生态系统类似于现实社会的现有规范和条例,支持物质产品和无形内容的生产。然而,对此类应用程序的研究仍处于初级阶段,重点放在与用户的第一接触点,例如用于内容创建的输入技术和创作系统。在第三个也是最后一个阶段,元宇宙可以成为一个自我维持和持久的虚拟世界,与物理世界共存并相互操作,具有高度的独立性。因此,代表物理世界中人类用户的化身可以实时体验异构活动,其特点是理论上在多个虚拟世界中存在无限数量的并发用户。值得注意的是,元宇宙能够提供代表不同虚拟世界的平台之间的互操作性,即允许用户创建内容并在虚拟世界中广泛分发内容。例如,用户可以在游戏(如Minecraft1)中创建内容,并将这些内容转移到另一个平台或游戏(如Roblox2)中,从而获得持续的身份和体验。在更大程度上,该平台可以通过各种渠道与我们的物理世界连接和互动,用户可以通过头戴式可穿戴显示器或移动耳机(如Microsoft Hololens3)访问信息,内容、化身、元宇宙中与智能设备和机器人交互的计算机代理等等。
根据上面提到的计算机中介宇宙的各种概念,人们可能会争辩说,我们已经处于元宇宙中。尽管如此,这只是部分正确,我们通过考虑三阶段元宇宙开发路线图,检查了几个例子来证明我们的说法。地球3D地图提供了真实世界的图片框架,但缺乏GPS信息以外的物理属性,而社交网络允许用户创建内容,但仅限于文本、照片和视频,用户参与的选项有限(例如,喜欢帖子)。电子游戏变得越来越逼真和令人印象深刻。用户可以通过游戏内物理体验出色的图形,例如《使命召唤:黑色行动冷战》(Call of Duty:Black Ops Cold War),它提供了一种逼真感,在细节上与真实世界非常相似。18岁的虚拟世界第二人生(Second Life)就是一个引人注目的例子,它被认为是最大的用户创建的3D宇宙。用户可以构建和塑造自己的3D环境,奢侈地生活在这样一个虚拟世界中。然而,视频游戏之间仍然缺乏互操作性。利用虚拟环境(如VRChat和Microsoft Mesh)的新兴平台提供了丰富的环境,模拟社交聚会和在线会议的虚拟空间。然而,这些虚拟空间并不是永久的,在聚会和会议之后就消失了。AR游戏中的虚拟物体(例如Pokémon Go)也被附加到物理现实中,而没有反映出数字孪生的任何原理。
图2进一步显示了当前网络空间和元宇宙之间的巨大差距。x轴和y轴都显示了替代关系:从左到右(例如,文本<图像)和从下到上(例如,读写(RW)<个性化)。x轴按信息丰富程度的顺序描述了各种媒体,包括文本、图像、音频、视频、游戏、虚拟3D世界、虚拟性(AR/MR/AR,紧随Milgram和Kishino的真实虚拟连续体),最后是物理世界。y轴表示瞬时(读写,RW)和永久(体验双重性,ED)之间的频谱下的用户体验。我们重点介绍几个示例,以显示y轴上的这种替代关系。在阅读时&写入级别,用户体验不会随着用户的发展而变化。每次用户发送短信或拨打Zoom电话时,他们的体验与之前的体验以及所有其他用户的体验相似。通过个性化,用户可以利用他们的偏好来探索Spotify和Netflix等网络空间。向上移动到下一个级别,用户可以主动参与内容创建,例如,Super Mario Marker允许玩家创建定制的游戏级别。一旦大量用户交互记录保留在网络空间中,在个性化和内容创建的背景下,网络空间就演变为一个社会社区。
然而,据我们所知,我们很少发现现实生活中的应用程序达到了体验二元性的最高水平,即共享、开放和永久虚拟世界(根据图1中提到的概念)。简而言之,体验二元性强调了与持久的物理环境相匹配的永久虚拟世界。例如,一个人,即保罗,可以邀请他的超宇宙朋友到保罗的物理家中,保罗的朋友作为化身,可以通过AR/VR/MR和全息图等技术物理地出现在保罗的家中。与此同时,化身可以呆在元宇宙的虚拟会议室里,通过3D虚拟世界中的Zoomalike对话窗口,在保罗的物理环境(他的家)中与他交谈。
为了实现元宇宙,应该考虑互联网、社交网络、游戏和虚拟环境以外的技术。AR和VR、高速网络和边缘计算、人工智能和超级账本(或区块链)的出现是元宇宙的构建块。从技术角度来看,我们确定了元宇宙的基本原理及其技术奇异性。本文回顾了现有的技术和技术基础设施,为构建以永久、共享、并发和3D虚拟空间为特征的元宇宙提供了一个关键优势,这些虚拟空间连接成一个可感知的虚拟宇宙。这篇文章的贡献有三方面。
1) 我们提出了元宇宙的技术框架,为实现元宇宙铺平了道路。
2) 本文回顾了推动元宇宙发展的最新技术,如边缘计算、XR和人工智能,反映了最新技术与实现元宇宙要求之间的差距。
3) 我们在回顾的基础上提出了研究挑战和机遇,为元宇宙的最终阶段铺平了道路。
这项综述是首次尝试从技术和生态系统两个维度提供元宇宙的全面视图。图3概述了综述文章–在技术和生态系统背景下的重点主题中,相应主题的关键词反映了综述文章中讨论的关键主题。在下一节中,我们首先通过检查现有的综述和相关研究来说明我们的动机,并相应地将我们的评论文章放在第二节中。因此,我们描述了考虑到技术和生态系统方面的元宇宙框架(第三节)。
为了了解与元宇宙相关的现有研究的全面情况,我们决定对2012至2021(即十年)的相关文献进行回顾。在第一次尝试搜索时,我们在文章的标题、摘要或正文中使用了搜索关键字“元宇宙”。我们只关注虚拟环境、VR、AR和XR的高质量研究的几个主要来源:(ACM CHI)ACM CHI计算系统中的人为因素会议;(IEEE ISMAR)IEEE混合增强现实国际研讨会;(IEEE VR)IEEE虚拟现实会议;(ACM VRST)ACM虚拟现实软件与技术研讨会。我们从ACM Library和IEEE Xplorer的两个主要数据库中仅获得了两个有效的结果,即CHI中出现了一篇关于人工道德代理设计的完整文章;VRST上出现了一篇关于游戏化环境中科学家多用户协作工作的海报文章。由于第一轮文献搜索中应用的标准只产生了少数符合条件的研究文章,我们的第二次尝试将搜索标准放宽为具有相同搜索关键字“元宇宙”的论文,而不管发布地点如何。ACM Library和IEEE Xplorer的两个主要数据库产生了43个和24个实体(总计=67)。然后,我们只收录了用英语撰写的研究文章,排除了演示、书籍章节、短篇论文、海报,以及以研讨会、课程、讲座、访谈、意见、专栏和邀请演讲形式出现的文章,而文章中的标题、摘要和关键词没有提供明显的排除理由,我们阅读了整篇文章,并在接下来的段落中简要总结了剩下的30篇论文。
首先,我们发现了解决元宇宙中可伸缩性问题的一些系统解决方案和架构,例如平衡工作负载以缩短现代大型多人在线游戏(MMOG)的响应时间,元宇宙和现实环境之间的3D模型无监督转换,大规模虚拟环境的高性能计算集群,分析虚拟世界中犯罪行为的地下论坛(例如,交易被盗物品和数据集),探索多玩家环境下虚拟3D空间的新组合和空间化方法,管理游戏中用户生成的内容,加强元宇宙内部高度不同的虚拟环境的集成和互操作性,并在虚拟世界中重新分配网络吞吐量,以通过虚拟环境中的化身改善用户体验。
其次,我们列举了三篇文章,提出了跨物理和虚拟环境进行用户交互的用户交互技术。Young等人提出了一种交互技术,用户可以在物理和虚拟环境中同步击掌手势。Vernaza等人提出了一种交互式系统解决方案,通过平板电脑和智能穿戴设备将元宇宙和现实世界环境连接起来。接下来,Wei等人为虚拟世界中的虚拟角色定制制作了用户界面。
第三,元宇宙中用户活动的分析也得到了研究界的一些关注。公认的聚类方法可以帮助理解虚拟环境中的化身行为,以及在众多虚拟世界中创建的文本内容。由于元宇宙可能会将用户与其他非人类动画对象连接起来,Barin等人的一项有趣的研究重点是通过VR耳机上的第一人称视角观看高性能无人机比赛的坠毁事件。他们研究的结论性意见主张,物理约束(如加速度和空气阻力)将不再是用户无人机通过虚拟环境进行交互的问题。相反,用户界面的设计可能会限制用户的反应时间,并导致撞车事故的关键原因。
接下来,我们报告了虚拟环境的各种场景,例如虚拟博物馆、中国古代城市、虚拟实验室或教室。我们看到,现有的虚拟环境通常被视为一个协作学习空间,在这个空间中,人类用户可以在各种主题下共同完成一些虚拟任务,例如学习环境物联网、教学微积分、虚拟环境中的化身设计和排版艺术、培养对农业环境影响的意识,展示中国文化。
最后,我们介绍了在研究文章集中发现的综述文章。只有一篇完整的综述文章、两篇小综述和三篇立场论文。Dionisio等人撰写的长期综述侧重于元宇宙的发展,并据此讨论了现实性、普遍性、互操作性和可伸缩性的四个方面。这两项迷你调查关注虚拟环境中用户交互的现有应用程序和耳机,以及在VR中构建艺术品的各种艺术方法。关于立场文件,Ylipulli等人主张未来混合型城市的设计框架,以及3D虚拟城市和有形对应物之间的相互交织关系,而另一个理论框架通过利用Utilitas、Firmitas和Venustas的经典维特鲁威原理,对元宇宙中的实例类型进行分类。此外,由于元宇宙可以作为虚拟环境中的一个集体共享公共空间,因此[48]中讨论了此类新兴空间中的用户隐私问题。
由于我们发现现有的强调元宇宙的研究数量有限,我们认为元宇宙研究仍处于起步阶段。因此,在设计和构建元宇宙时,应加大研究力度。我们没有以随机的方式选择主题,而是关注两个关键方面——技术和生态系统,理由如下。首先,技术方面是形成元宇宙的关键因素。图4描述了元宇宙开发的时间线。元宇宙经历了四次转变,从基于文本的交互式游戏、虚拟开放世界、大规模多人在线游戏(MMOG)、智能手机和可穿戴设备上的沉浸式虚拟环境,到元宇宙的当前状态。每一次转变都是由新技术的出现推动的,例如互联网的诞生、3D图形、大规模互联网使用以及超级账本。显然,技术是推动网络空间转型的催化剂。
事实上,研究界仍在探索元宇宙的发展。理想情况下,新技术可能会解锁元宇宙的其他功能,并将虚拟环境推向感知的虚拟世界。因此,我们试图将有助于元宇宙进一步发展的各种新兴技术连接起来。在讨论了各种新兴技术的潜力之后,基于游戏的元宇宙可以打开许多机会,并最终可能到达虚拟环境,根据第一节中讨论的三阶段元宇宙,虚拟环境是一个与现实世界中现有社会平行的社会。因此,我们的综述文章,基于我们现实世界中的社会规划元宇宙生态系统的设计。现有文献只关注零散的问题,如用户隐私。有必要提供一个关于元宇宙生态系统的整体观点,而我们的文章正是为了这个目的。
在我们开始讨论第三节中的技术和生态系统问题之前,我们首先指出元宇宙的跨学科性质。因此,该综述涵盖了与元宇宙相关的十四个不同主题。技术专家、研究工程师和计算机科学家可以了解最新技术、挑战和研究机会,以塑造元宇宙的未来。本文将八个技术主题之间的关系联系起来,我们尽最大努力展示了它们之间的关系。另一方面,社会科学家、经济学家、化身和内容创造者、数字政策制定者和管理者可以理解构建元宇宙生态系统不可或缺的六个构建块,以及新兴技术如何对物理和虚拟世界产生影响。此外,其他已经参与元宇宙的利益相关者,可能专注于以游戏为导向的发展,可以将我们的文章视为技术催化剂何时进一步推动元宇宙的演变,以及“数字大爆炸”的反映。
由于元宇宙的跨学科性质,本节旨在解释技术和生态系统两个关键类别下十四个重点领域之间的关系,然后我们继续讨论每个重点领域。图5描述了这两个类别下的重点领域,其中技术作为一个巨大的应用支持元宇宙及其生态系统。
在技术方面,即元宇宙的八大支柱下,人类用户可以通过扩展现实(XR)和用户交互技术(如操纵虚拟对象)访问元宇宙。计算机视觉(CV)、人工智能(AI)、区块链和机器人/物联网(IoT)可以与用户合作,通过用户交互和XR处理元宇宙内部的各种活动。边缘计算旨在通过将本地数据源作为边缘设备中可用的预处理数据来管理,从而提高对延迟敏感和带宽需求大的应用程序的性能,而云计算因其高度可扩展的计算能力和存储容量而广受认可。利用基于云的服务和基于边缘的服务可以实现协同作用,例如最大限度地提高应用程序性能和用户体验。因此,具有先进移动网络的边缘设备和云服务可以在适当的硬件基础设施之上支持CV、AI、机器人和物联网。
生态系统描述了一个独立的、元大小的虚拟世界,反映了现实世界。物理世界中的人类用户可以通过XR和用户交互技术控制他们的化身,以进行各种集体活动,例如内容创建。因此,虚拟经济是这种活动在元宇宙中的自发衍生。我们考虑社会可接受性、安全和隐私以及信任和问责制三个重点领域。与现实世界中的社会类似,内容创作和虚拟经济应符合社会规范和条例。例如,虚拟经济中的生产应该受到所有权的保护,而这种生产结果应该被元宇宙中的其他化身(即人类用户)接受。此外,人类用户希望他们的活动不会受到隐私风险和安全威胁。
本文的结构如下。基于提出的框架,我们回顾了对元宇宙有重要贡献的十四个关键方面。我们首先讨论技术方面——XR(第四节)、XR中的用户交互和无处不在的界面(第五节)、机器人和物联网(第六节)、人工智能(第七节)、计算机视觉(第九节)、支持各种用户活动的超账本和元宇宙市场中的新经济(第八节)、边缘计算(第十节),未来网络满足了元宇宙的巨大需求(第XI节)。关于基于上述技术的生态系统,我们首先讨论元宇宙的关键参与者–第十二节中代表人类用户的化身。接下来,我们讨论内容创建(第十三节)和虚拟经济(第十四节),以及相应的社会规范和条例——社会可接受性(第十五节)、隐私和安全(第十六节)以及信任和责任(第十七节)。最后,第十八节确定了构建元宇宙的巨大挑战,并讨论了推动“数字大爆炸”和促进虚拟统一、共享和集体空间的关键研究议程。
起源于Milgram和Kishino的现实虚拟连续体,最新的连续体进一步包含了交替现实的新分支,倾向于物理现实的一边,即MR和未来全息图,如《星际迷航》系列中显示的数字对象。连续体中的不同类别允许人类用户通过物理世界和数字世界中不同的交替现实体验元宇宙。然而,我们的讨论仅限于四种主要类型的现实,这四种现实引起了学术界和工业界的广泛关注。本节从公认的VR领域开始,逐步讨论AR及其高级变体、MR和全息技术的新兴领域。本节还介绍了XR如何将虚拟实体与物理环境连接起来。
VR具有全合成视图的显著特点。商用VR耳机提供了常见的用户交互技术,包括头部跟踪或有形控制器。因此,用户位于完全虚拟的环境中,并通过用户交互技术与虚拟对象交互。此外,VR被称为“现实虚拟连续体中离现实最远的一端”。也就是说,使用VR耳机的用户必须充分关注虚拟环境,从而脱离物理现实。如前所述,元宇宙中的用户将在数字孪生中创建内容。如今,商业虚拟环境允许用户创建内容,例如VR绘画。用户启示的探索可以通过用户与虚拟环境中的虚拟实体交互来实现,例如修改虚拟对象的形状,创建新的艺术对象。此类虚拟环境中的多个用户可以实时协作。这与虚拟环境定义明确的要求相一致:共享空间感、共享存在感、共享时间感(实时交互)、通信方式(通过手势、文本、语音等)以及共享信息和操作对象的方式。需要注意的是,虚拟世界中的多个用户,即元宇宙的子集,应该接收到与其他用户相同的信息。用户还可以以一致和实时的方式进行交互。换言之,用户应该如何处理虚拟对象以及虚拟共享空间中的多用户协作将成为关键因素。考虑到元宇宙的最终阶段,位于虚拟共享空间中的用户应与物理对等方(如AR和MR)的任何添加或交互同时工作。构建元宇宙的核心是通过组成众多虚拟共享空间,将所有对象、代表其用户的化身,以及它们的交互,例如,对象化身、对象对象和化身化身。虚拟环境中的所有参与过程应同步并反映虚拟空间的动态状态/事件。然而,大规模管理和同步动态状态/事件是一个巨大的挑战,特别是当我们考虑到无限并发用户共同作用于虚拟对象并相互交互时,没有明显的延迟,延迟可能会对用户体验产生负面影响。
AR超越了单一的虚拟环境,为人类用户在其物理环境中提供不同的体验,重点在于增强我们的物理世界。理论上,计算机生成的虚拟内容可以通过多种感知信息渠道呈现,例如音频、视觉、气味和触觉。第一代AR系统框架只考虑视觉增强,旨在组织和显示叠加在物理环境之上的数字叠加。如20世纪90年代早期的工作所示,笨重的透明显示器没有考虑用户的移动性,这需要用户以久坐的姿势与文本和2D界面与有形控制器进行交互。
自第一次工作以来,已经进行了大量研究,以改善用户与AR中数字实体的交互。重要的是要注意,数字实体,可能来自于元宇宙,覆盖在用户的物理环境前面,应该允许人类用户融合同时的动作(类似于VR)。因此,在AR中保证与此类数字实体的无缝和轻量级用户交互是一个关键挑战,将世界物理用户与元宇宙连接起来。大多数科幻电影(如《少数派报告》)中描述的手绘交互技术,为AR用户交互提供了直观和现成的界面。一种名为Voodoo Dolls的著名徒手交互技术是一种系统解决方案,用户可以使用双手通过捏手势选择和处理虚拟内容。HOMER是另一种用户交互解决方案,它提供了用户虚拟手的光线投射轨迹,指示正在选择和随后操作的AR对象。
此外,AR将在我们的生活环境中无处不在,例如,在一个不熟悉的地方注释方向,并精确定位由用户上下文驱动的对象。因此,我们可以认为,通过AR,元宇宙将与我们的城市环境相结合,数字实体将以简单明了的方式出现在城市地区众多物理对象之上。换句话说,使用AR的用户在物理环境中工作,同时与元宇宙中的虚拟对等方通信。这需要在检测和跟踪技术方面做出重大努力,以将显示的虚拟内容与真实环境中的相应位置进行映射。第九节将提供更详细的讨论。Touring Machine被认为是第一款允许用户在户外体验AR的研究原型。原型包括计算硬件和一个装在背包上的GPS装置,以及一个包含地图导航信息的头戴式显示器。使用Touring Machine的用户可以通过手持式触摸感应表面和手写笔与AR地图交互。相比之下,最近的AR耳机表现出了显著的改进,尤其是在用户移动性方面。使用轻型AR耳机的用户可以收到指示AR对象的视觉和音频反馈提示,但其他感官维度,如气味和触觉仍然被忽略。值得指出的是,AR耳机并不是访问元宇宙内容的唯一选项。当我们审视AR开发的当前状态时,AR覆盖层,甚至来自元宇宙的数字实体,都可以通过各种设备交付,包括但不限于AR耳机、手持式触摸屏设备、天花板投影仪、桌面、Pico(可穿戴)投影机等。然而,AR耳机相对于其他方法来说具有优势,在用户注意力的转换和占用用户的双手方面。首先,人类用户必须在物理环境和其他类型AR设备上的数字内容之间切换注意力。相比之下,AR耳机允许AR叠加显示在用户眼前。其次,用户的手不会被有形设备占据,因为计算单元和显示器安装在用户的头上。这些优势使使用AR耳机的用户能够无缝体验“通过AR镜头的元宇宙”。第五节详细介绍了用户交互性。
在解释了现实的两个极端——虚拟连续体——AR和VR之后,我们试图讨论元宇宙和MR之间的关系。不幸的是,对于MR没有公认的定义,但有一个共同的术语来描述位于增强现实和虚拟现实两个极端之间的交替现实是至关重要的。然而,截然不同的定义可以总结为六个工作定义,包括现实的中间空间-虚拟连续体中的“传统”MR概念,MR是AR的同义词,MR是一种协作类型,MR是AR和VR的组合,MR是环境的对齐,AR的“更强”版本。
上述六个定义通常出现在与MR相关的文献中。研究社区认为MR介于AR和VR之间,允许用户在物理环境中与虚拟实体交互。值得一提的是,MR对象在强大的环境理解能力或情景感知能力的支持下,可以与各种物理环境中的其他有形对象协同工作。例如,物理螺丝刀可以在MR中安装开槽螺钉的旋转数字实体,这表明了数字实体和物理实体之间的互操作性的一个重要特征。相反,正如现有应用所观察到的那样,AR通常只显示叠加在物理环境上的信息,而不考虑这种互操作性。考虑到这一附加功能,在大量文章中,MR被视为增强版AR,这些文章在物理空间、用户交互和虚拟实体之间建立了更多的联系和协作关系。
从上面的讨论中,尽管我们无法对MR得出明确的结论,但MR是元宇宙的起点,六个工作定义的某些属性在元宇宙和MR之间通常是共享的。我们认为元宇宙从连接到物理世界的数字孪生开始。人类用户随后开始在数字孪生中创建内容。因此,数字创建的内容可以反映在物理环境中,而人类用户希望这些数字对象能够跨越空间和时间与我们的物理环境融合。虽然我们无法准确预测元宇宙最终将如何影响我们的物理环境,但我们看到现有的MR原型包含了一些特定的目标,例如追求现实场景、带来存在感、创造移情的物理空间。这些目标可以被视为与元宇宙的一致,元宇宙主张多个虚拟世界相互补充。
根据现有文献,本段旨在推测如何将虚拟环境(最终是元宇宙)中独特创建的内容带回共享公共空间中的物理对应方。由于公共空间中移动耳机的社会可接受性仍存在疑问,我们缺乏证据表明移动耳机将成为向公共空间传递元宇宙内容的唯一渠道。相反,其他成熟的技术,如大型显示器和微投影仪,可能会成为将像素投射到现实世界的渠道。图6描述了三个示例。大屏幕和微投影仪允许没有移动耳机的用户以高度逼真的方式查看数字实体。此外,嵌入智能手机中的微型投影仪,例如MOVI Phone,允许随时随地共享内容。同样值得注意的是,智能手机是当今最普遍的设备。
最后,我们讨论了全息技术的可能性,该技术强调丰富的通信媒体超过2D显示,并追求真正的体积显示(显示图像或视频),与日常物体没有区别。当前的全息技术可分为两种主要类型:基于反射的全息和激光驱动的全息。最近的一项工作证明了在笨重和久坐的设备上使用彩色体积显示器的可行性,低分辨率的实际限制可能会影响用户对真实感的感知。然而,基于反射的全息术的主要优点是生成彩色全息图,其色彩再现与现实物体非常相似(图7(a))。另一方面,Plasma Fairies是一种3D航空全息图,可以被用户的皮肤表面感知,尽管该设备只能在不大于5 c m 2 cm^2 cm2的半空中区域产生等离子发射(图7(b))。我们推测,如果技术突破允许这种三维立体物体无处不在地出现在现实世界中,那么元宇宙可以与我们生活的城市融合也就不足为奇了,如图3(右上角)所示,并为城市地区的利益相关者提供一种强烈的存在感。然而,全息技术在上述工作中存在三个关键弱点,包括分辨率有限、显示尺寸以及设备移动性。因此,克服这些弱点成为在现实世界中提供丰富的3D图像的关键转折点。
本节首先回顾了使用户能够在物理环境中与数字实体交互的最新技术。然后,我们确定了向人类用户显示数字实体的现有技术。我们还讨论了用户反馈线索以及触觉驱动的远程呈现,它将物理环境中的人类用户、元宇宙中的化身以及整个扩展现实高级连续体中的数字实体连接起来。
由于元宇宙的最终阶段将连接物理世界及其数字孪生,物理世界中的所有人类用户都可以使用位于物理环境中的元宇宙和MR中的化身和虚拟对象,即物理世界和虚拟世界不断相互影响。让用户能够无处不在地与数字实体交互是必要的。然而,大多数现有的元宇宙只允许用户与键盘和鼠标二重奏进行交互,这不能准确反映化身的身体运动。此外,这种笨重的键盘和鼠标不是为移动用户交互而设计的,因此会迫使用户保持久坐姿势(例如,坐着)。
尽管徒手交互由于徒手操作而具有直观性,并进一步实现了对象指向和操作,但大多数徒手交互都依赖于计算机视觉(CV)技术。因此,准确、实时地识别徒手交互在技术上要求很高,即使是最基本的空中指向也需要足够的计算资源。计算资源不足可能会给用户操作带来延迟,从而恶化用户体验。除了基于CV的交互技术外,研究社区还搜索了多种输入模式,以支持复杂的用户交互,包括光学、IMU驱动、热释电红外、电磁、电容和IMU驱动的用户交互。这种替代模式可以捕获用户活动,从而与元宇宙中的数字实体进行交互。
我们展示了几种现有的工作,以说明具有替代输入模式的移动输入技术,如下所示。首先,人类用户本身可以成为最方便和随时可用的交互界面,称为体上用户交互。例如,ActiTouch拥有一个连接到用户前臂的电容表面。ActiTouch中的电极将用户的身体变成一个宽敞的输入面,这意味着用户可以在自己的身体上执行轻触操作,以便与元宇宙中各种数字实体的其他利益相关者进行交流。另一种类似的技术丰富了输入命令集,用户可以通过叠加在用户手臂上的AR与图标、菜单和其他虚拟对象进行交互。此外,这种身体上的互动可以作为人际互动的解决方案,实现远程社交。这种身体上的用户交互可以丰富人类用户和化身之间的交流。最新的体上交互技术显示出设备尺寸不断减小的趋势,从手掌到指尖。因此,用户交互比前面提到的手指到手臂的交互更不易察觉。然而,搜索替代输入模式并不意味着基于CV的技术不适用。综合使用替代输入模式和基于CV的技术可以保持直观性和处理时间敏感或复杂用户输入的能力。例如,基于CV的解决方案可以补充IMU传感器。基于CV的技术确定了用户在半空中的虚拟物体之间的相对位置,而IMU传感器可以精确地操纵虚拟物体。
另一种替代方法是数字纺织品,而不是将传感器连接到我们的身体上。数字纺织品将新型材料和导电线集成到常用织物中,支持用户与2D和3D用户界面(UI)的交互。PocketThumb和ARCord等研究原型将我们的衣服转换为MR中数字实体的用户界面。PocketThum是一种位于裤子前口袋的智能面料。用户可以在织物上点击和触摸以执行用户交互,例如,在MR中使用3D虚拟对象进行指向任务时定位光标。此外,ARCord是一种连接在夹克上的基于绳索的纺织品,用户可以摩擦绳索,在各种虚拟环境中对虚拟对象执行菜单选择和光线投射。值得注意的是,科技巨头在这一领域进行了投资,以支持下一代移动用户输入。例如,谷歌启动了雅卡尔项目,试图以可承受的价格大规模生产智能编织物。因此,智能编织可以与我们的日常服装(如夹克和裤子)融合,支持用户随时随地输入。尽管由于空间有限,我们无法讨论所有类型的移动输入,但研究界正在为移动输入和XR中的替代输入模式寻找更自然、更小巧、更微妙和不易察觉的界面,例如脑电图(EEG)和肌电图(EMG)。
如第IV-B节所述,移动耳机具有关键优势,如物理和虚拟现实之间的一致视图,以及用户移动性,这可以被视为一种新兴的渠道,可以无处不在地显示虚拟内容。由于VR移动耳机将人类用户与物理现实及其在公共空间中的潜在危险隔离开来,因此在本节中,我们将讨论最新的AR/MR耳机,这些耳机是为在物理环境中合并虚拟内容而设计的。
目前,用户对元宇宙的沉浸感可能会受到AR/MR移动耳机上有限的视野(FOV)的限制。缩小视野会对用户体验、可用性和任务性能产生负面影响。MR/AR移动耳机通常拥有小于60度的视野。移动耳机上可用的有限视野远小于典型的人类视觉。例如,在低规格耳机(如谷歌眼镜)上,视场相当于距离用户视线240厘米的25英寸显示器。第一代Microsoft Hololens提供了30 X 17度视野,与15英寸16:9显示屏的大小相似,显示屏距离用户的自我中心视图约60厘米。我们相信,随着显示技术的进步,限制视野最终会得到解决,例如,第二代Microsoft Hololens拥有43 X 29度视野的放大显示器。此外,MR耳机上笨重的眼镜架,如微软Hololens,会遮挡用户的周边视觉。因此,用户可以降低对即将到来的危险和紧急情况的认识。因此,隐形眼镜等其他形状因素可以缓解这些缺点。隐形眼镜形状的原型AR显示器虽然为用户提供了低分辨率的视觉效果,但可以在导航任务中提供虚拟叠加,例如上下左右方向。
剩下的部分讨论了通过移动耳机呈现虚拟对象的设计挑战,以及如何在元宇宙中利用人类视觉。首先,一种设计策略是利用用户的外围视野,最初的目的是识别障碍物,避免危险事件,并在广泛的机车活动中测量脚的位置,例如行走、跑步、驾驶和其他运动活动。结合其他反馈线索,如音频和触觉反馈,用户可以感知粒度更高的虚拟实体。最近的工作也通过在MR/AR移动耳机上的FOV边缘区域显示数字覆盖层来展示这种设计策略。在边缘区域显示虚拟叠加可以产生实际应用,例如在AR地图上执行导航任务期间的直线、左侧和右侧导航指令。这种设计的一个突出优点是,用户外围视觉上的虚拟叠加与机车活动高度一致。因此,用户可以专注于物理世界中的其他任务,而不会受到元宇宙中虚拟实体的显著干扰。值得注意的是,在呈现用户视野中的虚拟叠加时,应综合考虑其他因素,例如颜色、照明、内容易读性、可读性、尺寸、风格、视觉疲劳、运动驱动的抖动。此外,信息溢出可能会破坏用户识别有用信息的能力。因此,信息量和内容放置的适当设计(图8)对于提高显示从元宇宙中提取的虚拟叠加的有效性至关重要。
在考虑了输入和输出技术之后,用户反馈线索是用户与元宇宙交互的另一个重要维度。我们试图用3D虚拟世界中的基本元素来解释这个概念——用户与虚拟按钮的交互。除上述讨论外,虚拟环境可以提供高度自适应但逼真的环境,但可用性和逼真感取决于用户反馈线索的正确设计(例如,视觉、音频、触觉反馈)。触摸屏设备和虚拟环境之间的关键区别在于,当用户点击触摸屏时,触摸屏设备提供触觉反馈提示,从而提高用户响应能力和任务性能。相反,虚拟环境中缺乏触觉反馈可以通过多种模拟方法进行补偿,例如虚拟弹簧、重定向工具介导操纵、刚度、物体权重。通过这种模拟触觉线索,用户可以将按钮的虚拟叠加与按钮的物理隐喻联系起来。换言之,触觉反馈不仅与视觉和音频线索一起工作,而且在虚拟触摸(甚至交互)过程中,在元宇宙中的虚拟叠加层中,它还作为丰富的通信信号传递给用户。更重要的是,此类反馈线索应遵循第V-A节中提到的用户移动性原则。现有的工作通过考虑多种机制,包括喷气、超声波和激光,展示了各种形状因子外骨骼、手套、手指附件、智能腕带。此外,移动触觉设备的完整分类见[162]。
在补偿虚拟环境中缺失的触觉反馈后,最好利用各种反馈线索并实现多模式反馈线索(例如,视觉、听觉和触觉)非常重要,以改善用户体验、用户响应、任务准确性、虚拟对象获取效率,在各种虚拟环境中。我们还认为包容性是在虚拟环境中利用触觉反馈的另一个好处,即视力受损者。由于先前关于多模态反馈线索的研究没有考虑到新的丰富实例会出现在元宇宙中的不同场景中,因此有必要进一步探索反馈模态的组合,并引入新的模态,如气味和味道。
前面段落中的讨论可以看作是实现用户与虚拟对象以及代表其他人类用户的其他化身无缝交互的刺激因素。为此,我们必须考虑使用这些刺激物的可能性,这些刺激物通过元宇宙为远程呈现铺平了道路。除了设计稳定的触觉装置外,这种刺激的同步也是一个挑战。根据描述“两个刺激之间的最小时间间隔”的韦伯-费奇纳定律,为了让用户感觉两个刺激是可区分的。因此,研究界采用了“恰到好处的差异”(JND)度量来量化必要的最小时间间隔。考虑到在虚拟环境中包含触觉反馈的好处,如第V-C节所述,触觉刺激应单独处理。因此,通过死区压缩技术(带宽减少60%)可以有效解决传输这种新形式的触觉数据的问题。该技术旨在为皮肤触觉反馈服务,并进一步管理JND,以确保用户能够接受可识别的触觉反馈。
其次,传递触觉刺激的网络需求将是另一个关键挑战。现有的4G通信技术几乎负担不起AR和VR应用程序的费用。然而,现有4G网络仍然很难管理和交付触觉渲染,以便用户以微妙的方式感知虚拟环境的真实性。尽管5G网络具有低延迟、低抖动和高带宽的特点,但触觉移动设备作为一种机器型通信类型,可能无法通过当前设计的用于机器对机器通信的5G网络应用于大规模用户交互(更多详情见第六节)。此外,当网络容量满足上述要求时,触觉移动设备可用于任何地方的用户一整天的活动。因此,下一个重要问题是解决移动设备上能源和计算资源的限制。除了降低触觉渲染的算法复杂性外,一个直接的解决方案是将此类触觉驱动的计算任务卸载到相邻设备,如云服务器和边缘设备。有关高级网络以及边缘和云计算的更多详细信息,请分别参阅第XI节和第X节。
尽管我们预计电子和未来无线通信的新进展将导致元宇宙中的实时交互,但如果元宇宙将为无限并发用户提供服务,网络需求将变得极其苛刻。因此,网络延迟可能会损害此类刺激的有效性,从而影响现实感。为此,Fettweis提出了触觉互联网的一个富有远见的概念,主张重新设计互联网主干,以减轻延迟带来的负面影响,并为元宇宙中的虚拟物体建立超可靠的触觉感官。更具体地说,预计1毫秒是触觉互联网的最大延迟,这有助于实时触觉反馈,以便在临场感期间进行各种操作。需要注意的是,网络延迟并不是唯一的原因。其他延迟源可能由设备引起,即设备延迟。例如,从智能手机摄像头拍摄的视频到智能手机屏幕上出现的虚拟覆盖层的玻璃到玻璃延迟为19.18 ms,远远超过了触觉互联网的理想值1 ms。延迟的聚合可能会进一步恶化用户对元宇宙中虚拟环境的感知。因此,我们呼吁在这一领域进行更多的研究,以构建无缝而逼真的用户交互,其中包括与元宇宙相关联的各种实体,如图9所示。
根据Statista,到2025年,全球物联网设备总数将达到309亿,比2021预计的138亿大幅跃升。与此同时,互动模式的多样性正在扩大。因此,许多观察家认为,集成物联网和AR/VR/MR可能适合于多模式交互系统,以实现引人注目的用户体验,特别是对于非专家用户。原因是它允许交互系统将代理的真实环境和沉浸式AR内容结合起来。为了与我们对元宇宙的重点讨论保持一致,本节重点关注扩展现实范围下的虚拟环境,即数据管理和可视化,以及人类物联网接口。因此,我们详细阐述了XR对物联网、自主车辆和机器人/无人机的影响,并随后指出了新出现的问题。
我们日常环境中智能物联网设备的加速可用性为新型服务和应用提供了机会,可以提高我们的生活质量。然而,微型物联网设备通常无法容纳用于正确用户交互的有形接口。XR光谱下的数字实体可以补偿缺失的交互组件。特别是,具有透视显示器的用户可以在半空中查看XR界面。此外,由于形状因素的限制,一些笨重的设备(如机器人手臂)更喜欢用户远程控制设备,其中XR充当按需控制器。考虑到不可能为众多物联网设备带来一组控制器,用户可以摆脱有形控制器。虚拟环境(AR/MR/XR)显示了可视化不可见实例及其操作的显著特征,例如WiFi和用户个人数据。此外,AR还可以将智能摄像头和扬声器的物联网数据流可视化给用户,从而告知用户其在用户物联网交互中的风险。因此,用户可以通过AR可视化平台控制其物联网数据。
AR/VR/MR导向物联网交互系统的分类有几个关键原则。图10显示了根据呈现的AR内容的规模和类别定义的三个模型。空中图标、菜单和虚拟3D对象允许用户通过自然手势控制物联网设备。图12根据物联网设备和标识实体的可控性提供了四种模型。简而言之,AR/MR/XR中的虚拟叠加可以促进数据表示和人机物联网交互接口。与此相关的是,最近在这方面提出了一些工作。例如,[188]提出了V.Ra,这是一种视觉和空间编程系统,它允许用户使用AR手持界面执行任务创作,并将AR设备连接到移动机器人上,从而以机器人的所作所为(WYDWRD)方式执行任务计划。此外,XR中越来越多地使用无人机,这是一种流行的物联网设备。在[189]中,多个用户可以远程控制无人驾驶飞机,并协同工作,在室外搜索任务。Pinpointfly提供了一个手持AR应用程序,允许用户通过增强的AR视图编辑无人机的运动和方向。同样,SlingDrone通过移动耳机利用MR用户交互来规划无人机的飞行路径。
由于如今的车辆配备了强大的计算能力和先进的传感器,具有5G或更先进网络的连接车辆可以超越车辆到车辆的连接,并最终连接到元宇宙。考虑到车辆是具有高机动性的半公共空间,车辆内的驾驶员和乘客可以接收丰富的媒体。在上述激励下,研究界和产业界正在努力推动人工智能时代的自动驾驶技术进步。联网车辆是物联网设备的一个例子,因为自动车辆可能成为我们日常通勤中最流行的场景。近年来,由于最近出现的技术,如AR/MR,已经取得了重大进展。AR/MR在推动自主驾驶创新方面发挥着重要作用。迄今为止,AR/MR已在三个方向上应用于自动驾驶。首先,AR/MR通过提供车辆方向等视觉提示,帮助公众(旁观者)了解自动驾驶车辆在道路上的工作方式。有了这些理解,行人安全得到了加强。为此,一些工业应用程序,如Civil Maps,应用了AR/MR,为人们了解自动驾驶车辆如何在室外环境中导航提供了指南。例如,它显示了车辆如何检测周围环境、车辆、交通灯、行人等。带有AR/MR/XR甚至元宇宙的插图可以与连接车辆的用户建立信任。此外,一些支持AR的动态地图还可以帮助驾驶员在道路上驾驶时做出正确的决策。其次,AR/MR有助于改善道路安全。例如,虚拟实体出现在车辆挡风玻璃前面,这些实体可以增加物理世界中的信息,以增强用户对道路状况的认识。值得注意的是,与大幅修改的实体道路基础设施相比,此类虚拟实体被视为一种低成本、方便的解决方案。最新的工作还明确了数字孪生的概念,以提高道路安全,特别是对脆弱的道路使用者,而不是邀请人类用户亲自从事危险任务。例如,密歇根大学的Mcity测试设施应用AR测试驾驶汽车。在该平台中,创建了真实测试车辆和虚拟车辆之间的测试和交互,以测试驾驶安全性。在这样一个MR世界中,观察者可以看到一辆真实的车辆在十字路口经过并停下来,而虚拟车辆在红绿灯处。最后,AR/MR改进了车辆导航和用户体验。例如,WayRay开发了一种基于AR的导航系统,有助于提高道路驾驶安全性。这项技术的亮点在于,它减轻了驾驶员在驾驶时过分依赖仪表的需要。令人惊讶的是,WayRay为驾驶员实时提供了高度精确的路线和环境信息。最近的研究还表明,需要在连接的车辆之间共享视图以增强用户安全,例如,前车的视图与后车的视图共享。从上面可以看出,在互联车辆和道路交通上引入虚拟实体的好处。也许元宇宙可以在不影响道路安全的情况下将这些驾驶信息转换为有趣的动画。
最近的例子也说明了智能车辆和虚拟环境之间的集成。日产的“隐形到可见”(I2V)是一个典型的尝试,旨在构建元宇宙平台,其中AR接口旨在将物理和虚拟世界连接在一起,从而使驾驶员看不见的信息可见。如图11所示,I2V使用多个系统从车辆内部和外部提供丰富的信息。具体而言,I2V首先采用全方位传感技术实时收集交通和周围车辆的数据。同时,元宇宙系统从实时信息中无缝分析道路状态。根据分析,I2V会立即识别车辆周围的行驶条件。最后,通过从全方位传感系统收集的数据创建车辆、驾驶员、建筑物和环境的数字孪生模型。这样,数字孪生就可以从道路交通的角度来分析人与城市的相互作用。由用户活动驱动的共享信息可以进一步连接到元宇宙。因此,元宇宙通过XR接口生成信息,如第四节或车辆挡风玻璃所述。综上所述,元宇宙的数字化转型可以在通勤过程中为人类用户提供丰富的媒体。此外,I2V在两个方面有助于驾驶。第一个是可视化无形环境,以获得更舒适的驾驶体验。元宇宙系统可以显示道路信息和隐藏的障碍物、交通拥堵、停车引导、在山上驾驶、在恶劣天气条件下驾驶等。同时,I2V 元宇宙系统通过MR可视化虚拟人通信。例如,它为来自世界各地的家庭成员提供了一个加入元宇宙化身的机会。它还提供了一个旅游场景,当地导游可以加入元宇宙来指导司机。
此外,Roborace元宇宙是另一个将物理世界与虚拟世界相融合的平台,AR在其中生成虚拟障碍物以与赛道互动。Hyundai Motor还推出了“现代移动冒险(HMA)”,以展示未来的元宇宙生活方式。HMA是一个共享的虚拟空间,在这里,各种用户/玩家(被表示为“化身”)可以见面并相互交流以体验移动。通过元宇宙平台,参与者可以定制自己的“化身”,并进行富有想象力的互动。
AR/VR/MR等虚拟环境由于其可视化内容的突出特点,是打开机器人与虚拟环境之间通信通道的理想解决方案候选。此外,各种工业示例集成了虚拟环境,使人类用户能够理解机器人操作,例如任务场景分析和安全分析。因此,人类用户与机器人建立信任和信心,导致人类机器人协作的范式转变。同时,到目前为止,研究重点是用户对机器人的感知以及相应的虚拟环境界面设计。此外,使用V.Ra的人类用户可以协同开发AR环境中的任务计划,并编程移动机器人与物理环境中的固定物联网进行交互。
如今,新兴的MR技术作为工作空间中的类人机器人的通信接口,对协作机器人的接受程度很高。在我们的日常生活中,机器人有可能成为我们的朋友伴侣设备、服务无人机、护理机器人、公共空间检查员、家庭监护人(例如亚马逊Astro)、性伴侣,甚至是狗的伙伴,因为人类用户可以适应与机器人和无人机的自然交互。不难想象机器人会主动为我们的社会服务,并自发地参与各种各样的应用和服务。
元宇宙与协作机器人的愿景不仅限于利用机器人作为现实世界中化身的物理容器,还探索我们与元宇宙交替的空间设计机会。元宇宙中的虚拟环境也可以通过协作机器人改变用户感知的游戏规则。值得注意的是,数字孪生和元宇宙可以作为新机器人设计的虚拟试验场。数字孪生,即我们物理环境的数字副本,允许机器人和无人机设计者检查用户在我们物理环境中对新型机器人代理的接受程度。新的机器人角色(如替代类人机器人和机械化日常物体)增强了用户对我们空间环境的感知,这些变化是什么?在[216]中,设计师评估了用户对居住空间的数字孪生中的机械化墙的感知,而没有在现实世界中实际实施。机械化的墙可以动态地配合不同上下文的用户活动,例如,附加墙将用户与人群分隔开来,用户喜欢独自工作,或使用较小的墙进行社交聚会。
人工智能(AI)是指使机器能够从经验中学习并执行各种任务的理论和技术,类似于智能生物。人工智能于1956年首次提出。近年来,它在各种应用场景中取得了最先进的性能,包括自然语言处理、计算机视觉和推荐系统。人工智能是一个广泛的概念,包括表示、推理和数据挖掘。机器学习是一种广泛使用的人工智能技术,它使机器能够学习并利用从经验中提取的知识提高性能。机器学习有三类:监督学习、非监督学习和强化学习。监督学习需要标记训练样本,而非监督学习和强化学习通常应用于未标记的数据。典型的监督学习算法包括线性回归、随机森林和决策树。K-means、主成分分析(PCA)和奇异值分解(SVD)是常见的无监督学习算法。流行的强化学习算法包括Q-learning、Sarsa和policy gradient。机器学习通常需要手动选择特征。深度学习涉及机器学习,这是受生物神经网络启发的。在深度神经网络中,每一层接收来自前一层的输入,并将处理后的数据输出到后续层。深度学习能够从大量数据中自动提取特征。然而,深度学习也需要比传统机器学习算法更多的数据来提供令人满意的准确性。卷积神经网络(CNN)和循环神经网络(RNN)是两种典型且广泛应用的深度学习算法。
毫无疑问,新兴元宇宙的主要特征是覆盖了大量深不可测的复杂数据,这为人工智能的应用提供了机会,使操作员摆脱枯燥和艰巨的数据分析任务,例如监控、监管和规划。在本节中,我们回顾并讨论了人工智能如何用于元宇宙的创建和操作。具体来说,我们将元宇宙中的人工智能应用分为三类:自动数字孪生、计算机代理和虚拟形象的自治。
数字化有三种,包括数字模型、数字阴影和数字孪生。数字模型是物理实体的数字复制。元宇宙和物理世界之间没有相互作用。数字阴影是物理实体的数字表示。一旦物理实体发生变化,其数字阴影也会随之变化。就数字孪生而言,元宇宙和物理世界能够相互影响。其中任何一项的任何更改都会导致另一项的更改。在元宇宙中,我们关注第三种数字化。
数字孪生是对物理实体或系统具有高度完整性和意识的数字克隆,并与物理世界保持互动。这些数字克隆可用于为其物理实体提供分类、识别、预测和确定服务。人工干预和手动特征选择非常耗时。因此,有必要自动化数据处理、分析和训练过程。深度学习可以从大量复杂的数据中自动提取知识,并在各种应用程序中表示,而无需手动特征工程。因此,深度学习在促进数字孪生的实施方面具有巨大潜力。Jay等人提出了一个通用的自主深度学习数字孪生模型,如图13所示。在训练阶段,元宇宙和物理系统的历史数据被融合在一起,用于深度学习训练和测试。如果测试结果符合要求,将实施自主系统。在实现阶段,来自元宇宙和物理系统的实时数据被融合用于模型推理。
智能医疗需要物理和信息系统之间的交互和融合,以便为患者提供快速响应和准确的医疗服务。因此,数字孪生的概念自然适用于智能医疗。Laaki等人设计了一个用于数字孪生远程手术的验证原型。在这个原型中,为患者创建了一个数字孪生。医生对这对数字孪生进行的所有手术都将使用机器人手臂对患者进行重复。原型还与深度学习组件兼容,例如智能诊断和健康预测。Liu等人将学习算法应用于老年人及其数字孪生的实时监控和危机预警。
如今,城市中安装了更多物联网传感器,以监测各种信息并促进城市管理。此外,建筑信息模型(BIM)越来越精确。通过将物联网大数据和BIM相结合,我们可以为智慧城市创建高质量的数字孪生。这样一个智慧城市数字孪生将使城市规划和管理更加容易。例如,我们可以了解空气污染和噪音水平对人们生活质量的影响,或者测试红绿灯间隔对城市交通的影响。Ruohomaki等人为城市地区创建了一个数字孪生模型,用于监测和预测建筑能耗。这种系统也可用于帮助选择太阳能电池板布局的优化问题。
工业系统非常复杂,包括多个组件,例如控制策略、工作流程、系统参数,很难实现全局优化。此外,数据是异构的,例如结构化数据、非结构化数据和半结构化数据,这使得深度学习驱动的数字孪生至关重要。Min等人为石化行业设计了一个数字双框架,以优化生产控制。该框架是基于工作流和专家知识构建的。然后,他们使用历史生产数据来训练机器学习算法,以预测和优化整个系统。
计算机代理,也称为非玩家角色(NPC),是指不受玩家控制的角色。NPC在游戏中的历史可以追溯到街机游戏,在街机游戏中,随着等级的增加,敌人的移动模式将变得越来越复杂。随着视频游戏对逼真度的要求越来越高,AI被应用于NPC模拟玩家的智能行为,以满足玩家对高质量娱乐的期望。NPC的智能体现在多个方面,包括控制策略、逼真的角色动画、奇异的图形、声音等。
NPC响应玩家行为的最直接、最广泛的模型是有限状态机(FSM)。FSM假设对象在其生命周期中存在有限状态。FSM有四个组件:状态、条件、操作和下一个状态。一旦满足条件,对象将采取新操作,并将其当前状态更改为下一个状态。行为树和决策树是NPC在游戏中进行决策的两种典型的基于FSM的算法,其中每个节点表示一个状态,每个边表示一个动作。基于FSM的战略很容易实现。然而,FSM的可伸缩性较差,特别是当游戏环境变得复杂时。
支持向量机是一种具有最大类间余量的分类器,适用于游戏中NPC的控制。Pedro等人在射击游戏中提出了一种基于SVM的NPC控制器。输入是一个三维矢量,包括左子弹、耐力和附近的敌人。输出是建议的行为,例如,探索、攻击或逃跑。显然,这种算法的主要缺点是有限的状态和行为类以及决策的灵活性。
强化学习是一种经典的决策问题机器学习算法,它使代理能够从与周围环境的交互经验中自动学习。代理人的行为将得到相应的奖励。期望的行为有更高的回报。由于其优异的性能,强化学习已广泛应用于许多游戏,例如射击游戏和驾驶游戏。值得注意的是,NPC设计的目标是增加游戏的娱乐性,而不是最大化NPC击败人类玩家的能力。因此,奖励功能可以根据游戏目标进行定制。例如,Glavin等人开发了一种技能平衡机制,根据球员的表现,基于强化学习,动态调整NPC的技能水平。
当游戏变得越来越复杂时,从2D到3D,代理状态变得数不清。为了解决这些问题,提出了神经网络与强化学习相结合的深度强化学习方法。基于深度强化学习的最著名游戏是DeepMind于2015年开发的AlphaGo国际象棋。国际象棋的状态用矩阵表示。通过神经网络的过程,AlphaGo输出获胜可能性最大的动作。
替身是指元宇宙中玩家的数字表示,玩家通过替身与其他玩家或计算机代理交互。玩家可以在不同的应用程序或游戏中创建不同的化身。例如,创建的化身可能像人的形状、想象中的生物或动物。在社交通信中,需要远程存在、面部和运动特征反映实际人类的相关应用是必不可少的。该领域现有的工作主要集中在两个问题上:化身创建和化身建模。
要创建更逼真的虚拟环境,需要多种化身表示。然而,在大多数视频游戏中,创作者只依赖于几个特定的模型,或者只允许玩家用几个可选的子模型(例如鼻子、眼睛、嘴巴等)创建完整的化身。因此,玩家化身非常相似。
生成性对抗网络(GAN)是一种先进的深度学习模型,用于学习训练样本的分布,并按照相同的分布生成数据。GAN的核心思想是生成器网络和鉴别器网络之间的竞争。具体来说,生成网络用于输出具有学习到的数据分布的假图像,而鉴别器网络则输入假图像并判断它们是否真实。生成器网络将被训练,直到识别器网络无法识别这些假图像。然后对鉴别器网络进行训练,以提高其识别精度。在此过程中,这两个网络相互学习。最后,我们得到了一个性能良好的生成器网络。一些作品应用了GAN在游戏中自动生成2D化身。一些作品进一步引入实时处理3D网格和纹理,以生成3D化身。Chalas等人开发了一种基于面部扫描而非2D图像的自主3D化身生成应用程序。
一些视频游戏允许玩家在游戏结束时留下自己的模型。例如,Forza Motorsport开发了Drivatar,它通过人工智能学习玩家的驾驶风格。当这些玩家不玩游戏时,其他用户可以与他们的化身比赛。具体来说,该系统收集玩家的驾驶数据,包括道路位置、比赛路线、速度、刹车和油门。Drivatar从收集的数据中学习并创建具有相同驾驶风格的虚拟玩家。值得注意的是,虚拟玩家是不确定的,这意味着给定虚拟玩家在同一游戏中的比赛结果可能不同。在[279]中,神经网络也实现了类似的框架。
Gesler等人在第一人称射击(FPS)游戏中应用多种机器学习算法来学习玩家的射击风格,包括移动方向、跳跃时刻和加速器。通过大量实验,他们发现神经网络优于其他算法,包括决策树和朴素贝叶斯。
对于决策相关游戏,强化学习通常优于其他AI算法。Mendoncca等人在格斗游戏中应用强化学习。他们使用相同的战斗数据来训练强化学习模型和神经网络,并发现强化学习模型表现得更好。
预计它将在元宇宙中连接世界上的一切。一切都是数字化的,包括物理实体和系统的数字孪生、用户的化身、各种区域的大比例尺、细粒度地图等。因此,产生了难以估量的大量数据。由于网络资源有限,无法将如此巨大的数据上传到集中式云服务器。与此同时,区块链技术发展迅速。可以将区块链应用于数据存储系统,以确保元宇宙中的分散和安全。
区块链是一个分布式数据库,其中的数据存储在块中,而不是结构化表。区块链的架构如图14所示。用户生成的数据被填充到一个新块中,该块将进一步链接到以前的块上。所有区块都按时间顺序链接。用户在本地存储区块链数据,并使用共识模型将其与存储在对等设备上的其他区块链数据同步。用户被称为区块链中的节点。每个节点在链接后维护存储在区块链上的数据的完整记录。如果一个节点上存在错误,数百万其他节点可以引用来更正错误。因此,去中心化和安全性是区块链的两个明显特征。区块链最著名的应用是比特币,它是2009年提出的数字货币。在本节中,我们将讨论区块链如何应用于元宇宙。
在元宇宙中,各种用户数据被数字化、收集和存储。如何存储如此海量的数据是一个关键问题。传统的数据存储系统通常采用集中式体系结构,这需要将所有数据传输到数据中心。考虑到这样的数据量,极高的存储容量是必不可少的,这通常非常昂贵。此外,此类数据中可能包含敏感信息,这可能会导致潜在的隐私泄露问题。区块链作为一个分布式数据库就足以处理这些问题。区块链用户可以创建数据块,并协同验证和记录交易。考虑到采矿的计算需求,也可以应用边缘计算,这将在第十节中讨论。
Zyskind等人提出了一种基于区块链的分布式个人数据管理系统。有一个安全的数据访问通道。数据所有者与请求数据的所有其他用户共享密钥。需求的认证是通过区块链完成的,这保证了数据的安全性。然而,关键在于矿工。随后,Li等人应用无证书签名来解决问题。如果数据被恶意黑客篡改,可以通过本地再生代码技术恢复。再生代码基于数据冗余。一旦发现数据被篡改或损坏,可以使用其他活动节点上的数据以多线程方式进行修复。
大多数智能设备,如智能手机,存储能力有限。如果生成的数据量过大,用户可能会从其他用户那里借用存储空间,这可能会由于用户的自私而失败。Ren等人提出了一种基于区块链的数据存储激励机制。具体来说,此存储系统中有两个区块链。第一个用于数据存储,而第二个用于访问控制。他们建议使用合理数量的存储数据来代替采矿中的工作证明,这可能会大大减少计算操作。
最近,电子投票越来越流行。在电子投票系统中,人们无论身在何处,都可以在线参与投票。因此,将存储投票记录和结果。区块链在防止故意篡改和投票事故方面具有巨大潜力。然而,区块链作为投票系统的应用存在一些挑战。第一个挑战是身份验证。在基于区块链的投票系统中,人们使用虚拟身份进行投票,而投票需要真实身份。在不知道选民真实身份的情况下,很难验证投票结果的有效性。Bistarelli等人提出了一个端到端的投票框架,该框架采用匿名Kerberos对选民进行身份验证以解决问题。第二个挑战是投票结果的可审计性。区块链能够永久存储所有交易记录。然而,选民的私人信息可能在审计过程中泄露。Meter等人分别对投票内容和私钥应用非对称加密和阈值加密来解决此类问题。
基于区块链的数据存储系统具有高度的可扩展性和灵活性。用户在区块链中贡献他们的存储资源。每个用户既可以是数据请求者,也可以是数据提供者。此外,数据被加密并重新定位到匿名节点进行存储,进一步增强了数据安全性。区块链中的所有节点都记录数据位置。因此,数据所有者可以非常方便地访问他们的数据。然而,由于区块链不支持传统的共享模型,这种数据存储架构不利于数据共享。此外,还需要其他密钥管理机制来共享加密数据。
Li等人为区块链中的数据共享设计了一种密钥管理机制,该机制与基于区块链的数据存储系统兼容。密钥与元数据集成并存储在区块链中。它们还应用代理重新加密,以在不受信任的情况下保护密钥。Xia等人利用区块链的防篡改机制来保证共享数据的安全,并引入智能合约和访问控制来跟踪所有用户的数据访问行为。[296]采用了另一种类似的方法。
隐私和安全对于管理元宇宙中的数据至关重要。然而,多方访问和操作此类数据是不可避免的。因此,会发生冲突。区块链提供了一个具有极高安全性的数据平台,使不同的公司能够共享数据。例如,银行和保险公司可以通过区块链为各自的业务共享相同的客户数据,以实现互操作性。
区块链在数据互操作性方面的典型应用场景是智能医疗。正如我们前面提到的,将根据患者的个人资料数据为患者创建数字孪生,以实现精确的医疗保健。这样的数字孪生可以被多个医生访问。一些文献从理论上证明了应用分布式账本存储患者信息的可行性。Azaria等人设计并实现了基于区块链的医疗数据管理系统。该系统能够提供身份验证、互操作性和保密性服务。该系统的操作类似于比特币,它通过挖掘为聚合和匿名化提供了机会。
值得注意的是,区块链也广泛应用于金融领域。世界各地的金融机构都渴望缩短清算和结算周期,最终提高交易效率,降低风险缓解。Singh等人设计了一种用于跨银行安全支付的电子钱包架构。在此架构中,银行是区块链中的节点,并将高性能服务器部署为矿工。他们采用权益证明(PoS)作为共识模型。
在本节中,我们将研究交互式系统中计算机视觉的技术状态及其在元宇宙中的潜力。计算机视觉在XR应用中发挥着重要作用,为实现元宇宙奠定了基础。大多数XR系统通过光学透视或视频透视显示器捕获视觉信息。这些信息经过处理,结果分别通过头戴式设备或智能手机发送。通过利用这些视觉信息,计算机视觉在处理、分析和理解数字图像或视频等视觉信息以得出有意义的决策和采取行动方面发挥着至关重要的作用。换句话说,计算机视觉允许XR设备识别和理解用户活动及其物理环境的视觉信息,帮助构建更可靠、更准确的虚拟和增强环境。
计算机视觉广泛用于XR应用中,以构建用户环境的3D重建,并定位用户和设备的位置和方向。在第IX-A节中,我们回顾了最近关于室内和室外环境中3D场景定位和映射的研究工作。除了位置和方向,XR交互系统还需要跟踪用户的身体和姿势。我们期望在元宇宙中,人类用户将被计算机视觉算法跟踪,并被表示为化身。基于这种直觉,在第IX-B节中,我们分析了计算机视觉中人体跟踪和身体姿势估计的技术现状。此外,元宇宙还需要基于场景理解技术来理解和感知用户的周围环境。我们在第IX-C节中讨论这个主题。最后,增强和虚拟世界需要解决与对象遮挡、运动模糊、噪声和图像/视频输入的低分辨率相关的问题。因此,图像处理是计算机视觉中的一个重要领域,其目的是恢复和提高图像/视频质量,以获得更好的元宇宙。我们将在第IX-D节中讨论最先进的技术。
在元宇宙中,人类用户及其数字代表(即化身)将在物理世界和数字世界的交叉点连接在一起并共存。考虑到数字孪生的概念及其互操作性的突出特点,在物理和数字环境中建立这种联系需要深入了解可能驱动化身行为的人类活动。在物理世界中,我们用眼睛获取空间信息,并在大脑中构建世界的3D重建,在那里我们知道每个物体的确切位置。同样,元宇宙需要获取未知环境的3D结构并感知其运动。为了实现这一目标,同步定位和映射(SLAM)是一种常见的计算机视觉技术,用于估计设备运动并重建未知环境的。视觉SLAM算法必须同时解决几个挑战:(1)未知空间,(2)自由移动或无法控制的摄像机,(3)实时性,以及(4)鲁棒性特征跟踪(漂移问题)。在各种SLAM算法中,ORB-SLAM系列,例如ORB-SLAM-v2已被证明工作良好,例如在AR系统中。
可视化SLAM算法通常依赖于三个主要步骤:(1) 特征提取,(2)将2D帧映射到3D点云,以及(3)闭环检测。
许多SLAM算法的第一步是找到特征点并生成描述符。传统的特征跟踪方法,如尺度不变特征变换(SIFT),检测和描述图像中的局部特征;然而,它们通常太慢,无法实时运行。因此,大多数AR系统依赖于计算效率高的特征跟踪方法,例如基于特征的检测,以在不使用GPU加速的情况下实时匹配特征。尽管最近,卷积神经网络(CNN)已应用于视觉SLAM,并在使用GPU的自动驾驶方面取得了良好的性能,但应用于资源受限的移动系统仍然具有挑战性。
对于跟踪的关键点(特征),视觉SLAM的第二步是如何映射2D相机帧以获得3D坐标或界标,这与相机姿态估计密切相关。当相机输出新帧时,SLAM算法首先估计关键点。然后将这些点与前一帧进行映射,以估计场景的光流。因此,摄像机运动估计为在新帧中找到相同的关键点铺平了道路。然而,在某些情况下,估计的相机姿态不够精确。一些SLAM算法,例如ORBSLAM也添加了额外的数据,通过找到更多的关键点对应来优化相机姿态。通过从连接的帧中对匹配的关键点进行三角剖分来生成新的地图点。该过程将关键点在帧中的2D位置以及帧之间的平移和旋转捆绑在一起。
SLAM的最后一个关键步骤旨在恢复相机姿态并获得几何一致的地图,也称为闭环检测。如AR的图15(c)所示,如果检测到循环,则表明相机捕捉到了先前观察到的视图。因此可以估计摄像机运动中的累积误差。特别是,ORB-SLAM检查帧中的关键点是否与来自不同位置的先前检测到的关键点匹配。如果相似度超过阈值,则表示用户已返回到已知位置。最近,一些SLAM算法还将相机与其他传感器(例如IMU传感器)结合起来,以提高环路检测精度,而一些工作(例如[314])试图将语义信息融合到SLAM算法中,以确保环路检测性能。
尽管当前最先进的(SoTA)视觉SLAM算法已经为空间理解奠定了坚实的基础,但元宇宙需要理解更复杂的环境,尤其是虚拟对象和真实环境的集成。Hololens已经开始加深对空间的理解,苹果公司已经推出了用于3D关键点跟踪的ARKitv2,如图15(c)所示。在元宇宙中,感知的虚拟宇宙构建在共享的3D虚拟空间中。因此,获取未知环境的3D结构并感知其运动是至关重要的,但也是具有挑战性的。这可能有助于收集数据,例如数字孪生结构,它可以与人工智能连接,实现与物理世界的自动转换。此外,在元宇宙中,确保物体配准的准确性以及与物理世界的交互是很重要的。有了这些严苛的要求,我们期望元宇宙中的SLAM算法变得更加精确,计算效率更高。
在元宇宙中,用户由化身表示(见第十二节)。因此,我们必须考虑在3D虚拟环境中对化身的控制。通过人体和眼睛在物理世界中的定位和定向,可以实现对化身的控制。人体姿势跟踪指的是在交互式环境中获取关于人体的空间信息的计算机视觉任务。在VR和获得的关于人体姿势的视觉信息通常可以表示为每个人体部位的关节位置或关键点。这些关键点反映了人体姿势的特征,这些特征描绘了身体部位,如肘部、腿部、肩部、手部、脚等。在元宇宙中,这种类型的身体表示很简单,但足以感知用户身体的姿势。
跟踪眼睛的位置和方向以及视线方向可以进一步丰富元宇宙中的用户微观交互。眼动追踪可以实现视线预测,意图推断可以实现直观和沉浸式的用户体验,这可以适应XR环境中实时交互的用户需求。在元宇宙中,眼动追踪必须在不同的用户、位置和视觉条件下可靠运行。眼动追踪需要在设备施加的功率和计算限制内进行实时操作。
实现上述两种技术的重要里程碑取决于发布几个高质量的身体和眼动追踪数据集,并结合深度学习的最新进展。在下面的小节中,我们回顾和分析了为XR开发的身体姿势和眼睛跟踪方法,并得出它们对元宇宙的潜在益处。
1) 人体姿势跟踪:当开发在元宇宙中跟踪人体姿势的方法时,我们需要考虑几个挑战。首先,姿态跟踪算法需要处理身体部位的自遮挡。其次,跟踪算法的鲁棒性会影响存在感,尤其是在多用户场景中。最后,姿势跟踪算法需要跟踪人体,即使在极为不同的照明条件下,例如在太亮或太暗的场景中。考虑到这些挑战,大多数身体姿势跟踪方法都将RGB传感器与红外或深度传感器相结合,以提高检测精度。这样的传感器数据对于突然的照明变化是相对鲁棒的,并且传送被跟踪像素的深度信息。对于XR应用程序,Microsoft Kinect和Open Natural Interaction(OpenNI)是两个流行的身体姿势估计框架。
近年来,研究界不断开发深度学习方法,从RGB摄像机数据中提取2D人体姿势信息或来自RGB-D传感器数据的3D人体姿势信息。在用于2D姿势跟踪的SoTA方法中,OpenPose已被研究人员广泛用于在各种虚拟环境中跟踪用户的身体,如VR、AR和元宇宙。对于3D姿态跟踪,FingerTrack最近提出了一种3D手指跟踪和手姿态估计方法,该方法显示了XR应用和元宇宙的巨大潜力。
与单体姿态跟踪相比,多人跟踪更具挑战性。跟踪算法需要计算用户的数量和位置,并按类别对其进行分组。在文献中,针对VR和AR提出了许多方法。在元宇宙中,在不同的情况下需要单人和多人身体姿态跟踪算法。需要可靠和高效的身体姿势跟踪算法来确保元宇宙与物理世界和人之间的密切联系。
2) 眼动追踪:眼动追踪是实现元宇宙的另一个挑战性主题,因为人类化身需要“看到”沉浸式3D环境。眼动追踪基于连续测量瞳孔中心和角膜反射之间的距离。眼睛的角度会聚在视线相交的某一点。眼睛角度内显示的区域称为“会聚”距离随眼睛角度而变化。直观地说,眼睛跟踪中的计算机视觉算法应该能够通过从视线固定的眼睛角度推断来测量距离。为了测量距离,一种有代表性的方法是利用红外摄像机,它可以记录和跟踪眼睛的运动信息,就像在HMD中一样。在VR中,HMD设备靠近眼睛放置,便于显示会聚。然而,由于3D深度信息,设备无法跟踪距离。因此,沉浸式环境中虚拟物体的深度估计是关键问题之一。
眼动追踪可以为元宇宙中的沉浸式环境带来很多好处。其中之一是减少渲染虚拟环境的计算成本。眼动追踪使得只在用户的视野中呈现内容成为可能。因此,它还可以促进虚拟世界和现实世界的融合。然而,眼动追踪仍然存在挑战。首先,缺少焦点模糊会导致对虚拟环境中对象大小和距离的错误感知。眼睛跟踪的另一个挑战是确保在由于遮挡而导致的不完全注视的情况下进行精确的距离估计。最后,眼动追踪可能导致运动病和眼疲劳。在元宇宙中,对眼睛跟踪的要求可能比传统的虚拟环境高得多。这开辟了一些新的研究方向,例如准确理解人类行为,为化身创造更逼真的眼神接触,类似于3D沉浸式环境中的物理眼神接触。
在物理世界中,我们通过回答四个基本问题来理解世界:我的角色是什么?我周围的内容是什么?我离参考目标有多远?目标可能在做什么?在计算机视觉中,整体场景理解旨在回答这些问题。一个人的角色在元宇宙中已经很清楚了,因为他们是通过化身投射出来的。然而,计算机视觉中的第二个问题是基于语义分割和对象检测的。关于第三个问题,我们根据我们在物理世界中的眼睛来估计到参考物体的距离。计算机视觉中的这种场景感知方式称为立体匹配和深度估计。最后一个问题要求我们根据我们的理解来解释物理世界。例如,“一只兔子正在吃胡萝卜”。我们首先需要认出兔子和胡萝卜,然后预测相应的动作来解释场景。元宇宙要求我们与物理世界和虚拟世界中的其他对象和用户进行交互。因此,整体场景理解在确保元宇宙运行中起着关键作用。
1) 语义分割和目标检测:语义分割是一项计算机视觉任务,根据每像素信息将图像分类为不同类别,如图17(a)所示。它被认为是全面了解环境的核心技术之一。在计算机视觉中,语义分割算法应该基于类别信息高效、快速地分割每个像素。最近的基于深度学习的方法在为自动驾驶设计的城市驾驶数据集中显示出显著的性能提升。然而,实时执行准确的语义分割仍然具有挑战性。例如,AR应用程序要求语义分割算法以每秒60帧(fps)左右的速度运行。因此,语义分割是实现元宇宙的一项关键但具有挑战性的任务。
目标检测是另一项基本的场景理解任务,旨在定位图像或场景中的目标并识别每个对象的类别信息,如图17(b)所示。目标检测在XR中得到了广泛的应用,是实现元宇宙不可或缺的任务。例如,在VR中,人脸检测是典型的目标检测任务,而文本识别是AR中的常见目标检测任务。在更复杂的应用中,AR目标识别旨在将3D模型附加到物理世界。这要求物体检测算法精确定位物体的位置并正确识别类别。通过放置3D虚拟对象并将其与物理对象连接,用户可以操纵和重新定位它。AR对象检测可以帮助在元宇宙中构建更丰富、更沉浸式的3D环境。接下来,我们分析和讨论了用于实现元宇宙的SoTA语义分割和对象检测算法。
语义分割的早期尝试主要将特征跟踪算法(例如,SIFT)统一起来,这些算法旨在基于手工制作的特征的分类来分割像素,例如支持向量机(SVM)。这些算法已应用于VR和AR。然而,这些传统方法的分割性能有限。最近的研究工作探索了CNN在语义分割方面的潜力。这些方法已成功应用于AR。一些研究表明,语义分割能够解决MR中的遮挡问题。然而,由于图像分割处理每个像素,这会导致相当大的计算和内存负载。
为了解决这个问题,最近的研究集中在实时语义分割上。这些方法探索了图像裁剪/调整大小或有效的网络设计或迁移学习。通过这些技术,一些研究工作成功地实现了MR中的实时语义分割。
在元宇宙中,我们需要更健壮和实时的语义分割方法来理解3D沉浸式世界中的像素级信息。由于虚拟和真实对象、内容和人类化身的多样性和复杂性,需要更多的自适应语义分割方法。特别是,在交错元宇宙世界中,语义分割算法还需要区分虚拟对象和真实对象的像素。在这种情况下,类信息可能会更加复杂,语义分割模型可能需要处理看不见的类。
元宇宙中的目标检测可分为两类:检测特定实例(例如,人脸、标记、文本)和检测一般类别(例如,汽车、人类)。广泛研究了XR中文本检测方法。这些方法已经成熟,可以直接应用于实现元宇宙。近年来,人脸检测也得到了广泛的研究,这些方法在XR应用中的各种识别场景中表现出了鲁棒性,例如[377]–[381]。
在元宇宙中,用户被表示为化身,多个化身可以相互交互。人脸检测算法需要检测真实人脸(来自物理世界)和合成人脸(来自虚拟世界)。此外,遮挡问题、突然的面部姿势变化和元宇宙中的照明变化会使元宇宙中检测面部变得更加困难。人脸检测的另一个问题是隐私问题。一些研究工作在AR应用中研究了这个问题。在元宇宙中,许多用户可以停留在3D沉浸式环境中;因此,人脸检测中的隐私可以更加严格。未来的研究应该考虑人脸检测的鲁棒性,并且需要为元宇宙中的人脸检测研究更好的规则或标准。近些年来,研究界对属类的检测进行了大量研究。使用深度学习的许多努力都集中在检测多个类上。两阶段检测器FasterRCNN是早期开发阶段使用深度学习的SoTA方法之一。后来,Yolo系列和SSD探测器在具有多个类别的各种场景中表现出了出色的检测性能。这些探测器已成功应用于AR。
从上面的回顾中,我们可以看到,SoTA目标检测方法已经被证明对XR很有效。然而,实现元宇宙仍然存在一些挑战。第一个挑战是较小或微小物体的检测。这在3D沉浸式环境中是一个不可避免的问题,因为许多内容共存于共享空间中。随着相机视野(FoV)的变化,一些内容和对象将变得更小,从而难以检测。因此,应加强元宇宙中的目标检测器,以检测这些目标,而不管捕获硬件如何。第二个是数据和类分布问题。一般来说,收集100多个类的大规模数据集很容易;然而,在元宇宙中收集具有不同场景和类别分布的数据集并不容易。最后一个是元宇宙中目标检测的计算负担。元宇宙中的3D沉浸式世界包含许多内容,即使在遥远的地方也需要共享。随着类的增加,计算负担也相应增加。为此,研究界期望更高效、更轻量的目标检测方法。
2) 立体深度估计:使用立体匹配进行深度估计是实现元宇宙的关键任务。估计的距离直接确定沉浸式环境中内容的位置。估计深度的常用方法是使用立体相机,如图17(c)所示。在VR中,在虚拟空间中进行立体深度估计。因此,深度估计估计虚拟对象到虚拟相机(第一人称视图)或参考对象(第三人称视图)之间的绝对距离。传统方法首先提取特征点,然后将其用于计算成本体积,用于估计差异。近年来,广泛的研究集中于探索深度学习在VR中估计深度的潜力,例如[394]、[395]。
在XR中,关键问题之一是确保基于虚拟和真实对象进行深度估计。这样,XR用户可以将虚拟对象放置在正确的位置。文献中早期的AR/MR深度估计方法依赖于绝对以自我为中心的深度,这表明它距离虚拟对象有多远。关键技术包括“盲人行走”、想象盲人行走和行走三角测量。最近,基于深度学习的方法已应用于XR,显示了更精确的深度估计性能。立体相机已应用于一些HMD,例如Oculus Rift。红外相机传感器也嵌入在一些设备中,例如HoloLens,使深度信息收集更加容易。
在元宇宙中,深度估计是确保对象和内容精确定位的关键任务。特别是,所有用户都拥有各自的化身,数字内容和真实内容都是连接的。因此,在这样一个由计算机生成的宇宙中进行深度估计是相对具有挑战性的。此外,在物理世界中代表人类用户的化身预计会在虚拟世界中实时体验异构活动,因此需要更复杂的传感器和算法来估计深度信息。
3) 动作识别:在元宇宙中,人类化身需要识别其他化身和内容的动作。在计算机视觉中,理解一个人的动作被称为动作识别,它包括定位和预测人类行为,如图17(d)所示。在XR中,像Hololens这样的HMD通常需要观察和识别用户的动作,并在3D沉浸式环境中生成特定动作的反馈。例如,出于交互目的,通常需要使用相机捕捉和分析用户的运动。随着微软Kinect的问世,人们已经做出了许多努力来捕捉人体信息并理解动作。捕获的身体信息用于识别视图不变动作。例如,动作识别的一个方面是手指动作识别。
最近,深度学习已应用于基于纯RGB图像数据或通过传感器融合的多模态数据的AR中的动作识别。它还显示了VR中情感识别的潜力。当我们深入研究XR中动作识别成功的技术细节时,我们发现基于捕获的姿势信息的局部和全局信息生成上下文反馈非常重要。
在元宇宙中,动作识别可能非常有意义。人类化身需要识别其他化身或对象的动作,以便化身可以在3D虚拟空间中相应地采取正确的动作。此外,人类化身需要在情感和心理上理解他人以及物理世界中的3D虚拟世界。需要探索更具适应性和鲁棒性的动作识别算法。元宇宙中最具挑战性的动作识别步骤是识别不同虚拟世界中的虚拟内容。用户可以创建虚拟内容并将其从虚拟世界分发到另一个虚拟世界。人工智能模型在活动识别的多模态数据上的灾难性遗忘问题也应该得到解决。
元宇宙与物理环境实时无缝连接。在这种情况下,化身需要与自然人合作;因此,在元宇宙中以较少的噪声、模糊和高分辨率(HR)显示3D虚拟世界非常重要。在不利的视觉条件下,例如阴霾、低亮度或高亮度,甚至下雨的天气条件下,元宇宙中的交互系统仍然需要显示虚拟宇宙。
在计算机视觉中,这些问题从两个方面进行研究:图像恢复和图像增强。图像恢复旨在从退化图像(例如,噪声、模糊图像)中重建干净的图像。相比之下,图像增强侧重于提高图像质量。在元宇宙中,图像恢复和增强是非常需要的。例如,当用户快速移动时,捕获的身体信息和生成的化身可能会受到模糊和噪声的影响。因此,系统需要对用户的输入信号进行去噪和去模糊,并输出清晰的视觉信息。此外,当用户远离相机时,生成的化身可能处于低分辨率(LR)。有必要提高空间分辨率并在具有HR的3D虚拟环境中显示化身。
1) 图像恢复:图像恢复已被证明对VR显示是有效的。例如,[418]关注基于图像相似性恢复的彩色VR。在[403]、[419]和[420]中,提出了基于优化的方法来恢复纹理细节并去除VR中虚拟图像的伪影,如图18(b)所示。这些技术可以用作缩小现实(DR),它允许人类用户使用“屏幕内容”查看元宇宙的模糊场景。此外,[422]研究了如何使用图像去叠来恢复干净的水下图像,这可用于AR中基于标记的跟踪。另一个问题是模糊,这会导致XR中的注册失败。真实模糊图像和虚拟内容之间的图像质量差异可以在透视设备(例如Microsoft Hololens)中明显可见。考虑到这个问题,[423],[424]建议首先模糊相机捕获的真实图像,然后使用模糊效果渲染虚拟对象。
图像恢复在VR和AR中得到了广泛的应用。在元宇宙中,颜色校正、纹理恢复和模糊估计在确保真实的3D环境和人类化身之间的正确交互方面也发挥着重要作用。然而,值得探索更具适应性、更有效的恢复方法,以处理真实内容和虚拟内容之间的差距以及与元宇宙中化身的相关性。特别是,物理世界、用户和虚拟实体在元宇宙中的联系比AR/VR更紧密。因此,图像恢复应该与元宇宙中的交互系统巧妙地融合,以确保有效性和效率。
2) 图像增强:图像增强,特别是图像超分辨率,已被广泛研究用于XR显示器。图像分辨率对用户的观看质量有很大影响,这与HMD引起的运动病有关。因此,针对VR/AR显示器的光学SR(例如,[425]、[426]和图像SR)进行了广泛的研究。图18(c)显示了用于VR的360幅图像的图像SR示例。最近,[427]–[430]应用了深度学习,并在VR显示器上取得了良好的性能。这些方法克服了导致显示器中可见像素伪影的分辨率限制。
在元宇宙中,超分辨率显示会影响3D虚拟世界的感知。特别是,为了实现完全沉浸式的环境,为了逼真,考虑显示器的图像质量非常重要。这不仅在光学成像中而且在图像形成过程中需要图像超分辨率。因此,未来的研究可以考虑元宇宙的显示分辨率。最近,一些图像超分辨率方法,例如[431]已直接应用于HR显示,我们相信这些技术有助于促进元宇宙中光学和显示技术的发展。此外,元宇宙中的超分辨率技术也可以统一起来,以促进视觉定位和映射、身体和姿势跟踪以及场景理解任务。因此,未来的研究可以共同学习图像恢复/增强方法和实现元宇宙的最终任务。
通过对物理和虚拟世界中信息的连续、无处不在和通用的接口,元宇宙包含了现实-虚拟连续体,并允许用户在两者之间无缝体验。迄今为止,最具吸引力和被广泛采用的元宇宙界面是移动和可穿戴设备,如AR眼镜、耳机和智能手机,因为它们允许方便的用户移动。然而,元宇宙所需的密集计算对于移动设备来说通常过于繁重。因此,卸载对于保证及时处理和用户体验是必要的。传统的云卸载面临着几个挑战:用户体验的延迟、实时用户交互、网络拥塞和用户隐私。在本节中,我们将回顾新兴的计算解决方案及其应对这些挑战的潜力。
在元宇宙中,保证用户沉浸式的感觉是至关重要的,以提供与现实相同的体验水平。影响沉浸感的最关键因素之一是延迟,例如,运动到光子(MTP)延迟。研究人员发现,MTP延迟需要低于人类可感知的极限,才能让用户无缝、直接地与全息增强交互。例如,在AR的注册过程中,大延迟通常会导致虚拟对象落后于预期位置,这可能会导致疾病和眩晕。因此,减少延迟对于元宇宙至关重要,尤其是在需要实时数据处理的场景中,例如,与物理世界的实时AR交互,如AR手术,或元宇宙中的实时用户交互,如VR中的多人交互展示或多人在Fortnite中的战斗。
如前所述,元宇宙通常需要移动设备进行过于密集的计算,从而进一步增加了延迟。为了弥补移动接口(AR眼镜和VR耳机等)中图形和芯片组的有限容量,通常使用卸载来减轻计算和内存负担,但代价是额外的网络延迟。因此,平衡的权衡对于使卸载过程对虚拟世界中的用户体验透明至关重要。但这并不容易。例如,为了平衡卸载期间的网络延迟,需要将本地可导航视口渲染为大于耳机的视野。然而,所需的视口大小和网络延迟之间存在紧张关系:更长的延迟需要更大的视口和更多的内容流,从而导致更长的延迟。因此,具有物理部署改进的解决方案可能比纯资源编排更现实。
由于可变且不可预测的高延迟,云卸载无法始终达到最佳平衡,并导致长尾延迟性能,从而影响用户体验。最近的云可达性测量发现,当前的云分布能够提供小于100毫秒的网络延迟。然而,只有少数国家(184个国家中的24个)通过有线网络可靠地达到MTP阈值,只有中国(184个中的)通过无线网络达到MTP阈值。因此,需要一个互补的解决方案来保证元宇宙中的无缝和沉浸式用户体验。
与云卸载相比,边缘计算能够计算、存储和传输数据,物理上更接近终端用户及其设备,可以减少用户体验的延迟。早在2009年,Satyanarayanan等人就认识到,部署强大的类似云的基础设施,距离移动设备仅一步之遥,即所谓的cloudlet,可能会改变游戏,这一点已被许多后来的研究证明。例如,Chen等人通过对一套应用程序的实证研究评估了边缘计算的延迟性能。他们表明,与默认的云卸载相比,LTE Cloudlet可以提供显著的好处(延迟减少60%)。类似地,Ha等人还发现,与云计算相比,通过测量,边缘计算可以将服务延迟平均减少至少80 ms。图19描述了从边缘移动到云时的一般端到端延迟比较,以便于理解。
利用边缘计算的延迟优势,研究人员提出了一些解决方案来提高元宇宙应用程序的性能。例如,EdgeXAR、Jaguar和EAVVE以移动AR服务为目标。EdgeXAR提供了一个移动AR框架,利用边缘卸载的优势,提供具有6自由度的轻量级跟踪,并从用户的感知中隐藏卸载延迟。Jaguar通过利用配备GPU的边缘云上的硬件加速,突破了移动AR端到端延迟的限制。EAVVE提出了一种由边缘服务器促进的新型协作AR车辆感知系统,以减少总体卸载延迟增加不足的车载计算能力。VR服务也提出了类似的方法。Lin等人将能量不足的VR体验问题转化为马尔可夫决策过程,并使用普适边缘计算实现了沉浸式无线VR体验。Gupta等人集成了可扩展的360度内容、预期的VR用户视口建模、mmWave通信和边缘计算,以实现具有低交互延迟的8K 360度视频移动VR街机流系统。Elbamby等人提出了一种新颖的主动边缘计算和mmWave通信系统,以提高交互式VR网络游戏机的性能,该游戏机需要动态和实时渲染高清视频帧。随着分辨率的提高,边缘计算将在减少16K、24K甚至更高分辨率的元宇宙流的延迟方面发挥更重要的作用。
在许多业内人士看来,边缘计算在减少虚拟世界中的延迟方面的卓越性能使其成为元宇宙创造的重要支柱。例如,Apple使用带有VR耳机的Mac来支持360度VR渲染。Facebook Oculus Quest 2凭借其强大的高通Snapdragon XR2芯片组,无需连接PC即可自行提供VR体验。然而,与功能强大的PC相比,它的容量仍然有限,因此,独立的VR体验以较低的帧速率为代价,因此VR场景的细节更少。通过卸载到边缘服务器(例如PC),用户可以在更高的帧速率下享受更具交互性和沉浸式的体验,而不会牺牲细节。Facebook于2021年4月宣布的Oculus Air Link允许Quest 2通过家庭Wi-Fi网络以高达1200 Mbps的速度卸载到边缘,从而实现无延迟虚拟现实体验和更好的移动性。然而,这些产品受限于用户移动受限的室内环境。
为了让用户真正体验无处不在的元宇宙,由蜂窝网络支持的无缝户外移动体验至关重要。目前,最后一英里接入仍然是LTE网络中的延迟瓶颈。随着5G(有望降低至最后一英里延迟1毫秒)和未来6G的发展,多接入边缘计算(MEC)有望通过提供标准和通用的边缘卸载服务来提升元宇宙用户体验,该服务距离蜂窝连接的用户设备(例如AR眼镜)仅一步之遥。MEC由欧洲电信标准协会(ETSI)提出,是一种以电信供应商为中心的边缘云模型,其中边缘服务器的部署、操作和维护由在该地区运营的ISP处理,通常与基站位于同一位置或距离基站一跳。它不仅可以减少数据包传输的往返时间(RTT),而且为多用户交互的近实时编排打开了大门。MEC对于户外元宇宙服务来说至关重要,它可以理解详细的本地环境,并协调附近用户或设备之间的亲密合作。例如,5G MEC服务器可以仅通过一跳数据包传输来管理附近用户的AR内容,并为诸如“神奇宝贝GO”等社交AR应用程序实现实时用户交互。ETSI提出的MEC解决方案示例如图20所示。
使用MEC来改善元宇宙体验已引起学术界的关注。Dai等人在云无线接入网络(C-RAN)中的MECCache服务器上设计了一个基于视图合成的360度VR缓存系统,以提高无线VR应用的QoE。Gu等人和Liu等人分别利用亚6GHz链路和mmWave链路以及MEC资源来解决VR HMD上的有限资源以及正常VR和全景VR视频(PVRV)传输的传输速率瓶颈。
事实上,元宇宙公司也开始使用MEC来改善用户体验。例如,领先的体积捕获公司DoubleMe于2021年8月宣布了一个概念验证项目Holoverse,该项目与Telefonica、Deutsche Telekom、TIM和MobiledgeX合作,以测试使用元宇宙无缝部署各种服务的最佳5G电信边缘云网络基础设施。著名的Niantic公司开发了“Ingress”、“Pokémon GO”和“Harry Potter:奇才联合”设想建造一个“星球级AR”。它与全球电信运营商(包括德国电信、EE、环球电信、Orange、SK电信、软银公司、TELUS、Verizon和Telstra)结盟,利用MEC提高AR服务性能。随着5G和6G技术的进步,最后一英里的延迟将进一步减少。因此,MEC有望提高其在通用元宇宙体验中的收益。
元宇宙正在改变我们的社交、学习、购物、游戏、旅行等方式。除了它带来的令人兴奋的变化,我们还应该为它可能出现的错误做好准备。由于元宇宙将收集比以往任何时候都多的用户数据,如果情况恶化,后果也将比以往更糟。其中一个主要问题是隐私风险。例如,科技巨头亚马逊(Amazon)、苹果(Apple)、谷歌(Google(Alphabet)、脸书(Facebook)和微软(Microsoft)长期以来一直提倡无密码身份验证,即通过指纹、人脸识别或PIN验证身份。元宇宙可能会延续这种趋势,可能会有更多的生物识别技术,如音频和虹膜识别。以前,如果用户丢失了密码,最糟糕的情况是用户丢失了一些数据,并创建了一个新密码以保证其他数据的安全。然而,由于生物特征与用户永久关联,一旦它们被泄露(被冒名顶替者盗取),它们将永远被泄露,无法被撤销,用户将面临真正的麻烦。
目前,云收集并挖掘终端用户和服务提供商的数据,因此存在严重的隐私泄露风险。相比之下,边缘计算将是一个更好的安全和隐私解决方案,它允许在边缘进行数据处理和存储。边缘服务还可以在授权过程中从应用程序中删除高度私有的数据,以保护用户隐私。例如,联邦学习,一种获得广泛关注的分布式学习方法,在本地设备上训练和保存用户数据,并通过聚合本地模型更新全局模型。它可以在终端用户拥有的边缘服务器上运行,并在分布式客户机上进行大规模数据挖掘,而无需要求上传除本地梯度更新之外的用户私有数据。这种解决方案(在边缘训练,在云端聚合)可以提高元宇宙的安全性和隐私性。例如,数百万用户的可穿戴设备收集的眼动追踪或运动追踪数据可以在本地边缘服务器(理想情况下由用户拥有)中进行训练,并通过联合学习参数服务器进行聚合。因此,用户可以享受元宇宙中的视觉内容推荐等服务,而不会泄露他们的隐私。
由于不同的分布和异质性特征,边缘计算涉及多个信任域,需要对所有功能实体进行相互认证。因此,边缘计算需要创新的数据安全和隐私保护机制来保证其利益。详情请参阅第十八节。
如上所述,边缘在几个方面取得了胜利:由于其靠近终端用户,延迟较低;为附近用户的交互提供更快的本地协调;通过本地数据处理保护隐私。然而,当涉及到长期、大规模的元宇宙数据存储和经济运营时,到目前为止,云仍然处于领先地位。主要原因是,云数据中心中的数千台服务器可以以比边缘更好的可靠性存储更多的数据。这对于元宇宙来说是至关重要的,因为它拥有难以想象的海量数据。根据高保真的推论,20年后,元宇宙的大小将是地球的1000倍,假设地球上的每台电脑只需要存储、服务和模拟一个比典型视频游戏小得多的区域。因此,健壮的云服务对于在这样一个巨大的元宇宙中为数千甚至数百万并发用户维护共享空间至关重要。
此外,随着互联网带宽和用户设备容量的增加,元宇宙将继续扩展,因此需要扩展计算和存储容量。与分布式和空间有限的边缘站点相比,在集中式云仓库中安装更多服务器更容易、更经济。因此,云仍将在元宇宙时代发挥重要作用。另一方面,边缘计算可以作为一种补充解决方案,在云维护全局的同时,增强实时数据处理和本地用户交互。
为了优化云和边缘之间的交互,高效的协调器是满足元宇宙中不同流程的多样化和严格要求的必要条件。例如,云为延迟容忍操作运行广泛的数据管理,而边缘负责附近元宇宙用户之间的实时数据处理和交换。在这种情况下,协调器可以帮助安排云和边缘之间的工作负载分配和必要的数据流,以提供更好的集成服务,确保用户的无缝体验。例如,边缘服务在云端虚拟校园的虚拟教室中处理实时学生讨论。或者,如第X-C节所述,边缘存储私人数据,如眼动轨迹,这可能会泄露用户对各种类型视觉内容的兴趣,而云存储公共视觉内容。
最近提出了一些相关的工作,以探索元宇宙边缘云协作的潜力。Suryavansh等人将混合边缘和云与基线(如仅边缘和仅云)进行了比较。他们分析了广域网带宽变化、云成本、边缘异质性的影响,发现混合边缘云模型在实际设置中表现最佳。另一方面,Younis等人和Zhang等人分别提出了AR和VR的解决方案。更具体地说,Younis等人为MAR提出了一个混合边缘云框架MEC-AR,其设计与图20相似。在MEC-AR中,MEC处理传入的边缘服务请求并管理AR应用对象。同时,云为数据存储提供了广泛的数据库,由于内存限制,无法在MEC中缓存。Zhang等人关注VR MMOG的三个主要需求,即严格的延迟、高带宽和支持大量同时播放的玩家。他们相应地提出了一种混合游戏架构,将本地视图更改更新和帧渲染放在边缘,将全局游戏状态更新放在云上。因此,系统巧妙地分配了工作负载,同时保证了即时响应、高带宽和用户可伸缩性。
总之,边缘计算是一个很有前途的解决方案,可以补充元宇宙中当前的云解决方案。它可以1)减少元宇宙任务卸载的用户体验延迟,2)提供具有更好移动性支持的实时本地多用户交互,3)提高元宇宙用户的隐私和安全性。事实上,边缘计算的分布和异构特性也给充分发挥其潜力带来了额外的挑战。我们在第十八节中简要概述了几个挑战。
根据设计,元宇宙将依赖于普遍的网络访问,无论是远程执行计算繁重的任务、访问大型数据库、自动化系统之间的通信,还是在用户之间提供共享体验。为了满足这些应用的多样化需求,元宇宙将严重依赖未来的移动网络技术,如5G及更高版本。
继实时多媒体应用已经确立的趋势之后,元宇宙将需要大量带宽来实时传输非常高分辨率的内容。许多交互式应用程序认为运动到光子的延迟,即用户的动作与其对屏幕的影响之间的延迟,是用户体验的主要驱动因素之一。
未来多媒体应用的吞吐量需求呈指数级增长。5G(高达10Gb/s)的增强功能为大量依赖于大量数据实时传输的应用程序(AR/VR、云游戏、联网车辆)打开了大门。通过将如此广泛的技术相互连接,元宇宙的带宽需求将是巨大的,高分辨率视频流将占流量的最大部分,随之而来的是无处不在的传感器部署产生的大量数据和元数据。在移动网络等共享介质中,元宇宙不仅需要大量可用带宽,还可能与其他应用程序竞争。因此,我们预计元宇宙的需求将超过5G的可用带宽。延迟要求在很大程度上取决于应用程序。对于高度交互的应用程序,如在线和云游戏,130毫秒通常被认为是更高的阈值,而一些研究显示,当延迟低至23毫秒时,用户性能会下降。诸如透视AR或VR之类的头戴式显示器以及触觉反馈设备将运动到光子的延迟要求降至毫秒,以保持用户的沉浸感。
许多因素会影响运动到光子的延迟,其中硬件传感器捕捉时间(例如,帧捕捉时间、触摸屏按压)和计算时间。对于需要毫秒级延迟的应用程序,操作系统上下文切换频率(通常设置在100Hz和1500Hz之间)以及不同组件之间的内存分配和复制时间(例如CPU和GPU内存空间之间的复制)也会显著影响整体运动到光子延迟。在这种受限的管道中,网络操作引入了进一步的延迟。尽管5G承诺显著改善延迟,但最近的测量研究表明,无线接入网络(RAN)本身显示出与4G非常相似的延迟,而大部分改进来自于gNB和运营商核心网络之间的通信。然而,需要注意的是,大多数5G网络是在非独立(NSA)模式下实现的,其中只有到gNB的RAN使用5G无线电,而运营商核心网络主要保持4G。此外,尽管将增强型移动宽带(eMBB)的RAN延迟标准化为4ms,而将超可靠低延迟通信(uRRLC–仍未实现)的RAN标准化为0.5ms,但gNB和核心网络之间的通信占了大部分往返延迟(10至20ms之间),而ISP通常很少控制。因此,除非服务器直接连接到5G gNB,否则边缘计算相对于云计算的优势可能会受到很大限制,尤其是在云部署广泛的国家。减少延迟的另一个考虑因素可能是内容提供商通过使用网络虚拟化来访问ISP内部,从而控制整个端到端路径。这样的愿景要求ISP和内容提供商之间的商业协议比AS之间的对等协议更为深远。元宇宙成功的核心条件之一是所有参与者(应用程序开发人员、ISP、内容提供商)的完全协调,以确保稳定、低延迟和高吞吐量的连接。
目前,5G几乎无法满足现代多媒体应用程序的延迟要求,而且对于透视AR或VR等未来应用程序来说,显示的延迟太高了。URLLC服务类承诺低延迟和高可靠性,这两个目标往往相互冲突,标准化的RAN延迟为0.5毫秒。然而,URLLC目前仍然缺乏涵盖整个网络架构的框架,以提供从客户端到服务器的延迟保证。因此,到目前为止,没有任何URLLC被商业化部署。此外,我们希望uRRLC优先考虑低延迟是安全问题的应用程序,例如作为医疗保健、智能电网或联网车辆,超越娱乐诸如公共接入AR和VR的应用。5G规范提供的第三个服务类别是大规模机器类型通信(mMTC)。该类专门针对自主机器对机器通信,以解决连接到互联网的设备数量不断增长的问题。元宇宙的许多应用程序将要求mMTC处理用户无法触及的设备之间的通信,包括智能建筑和智慧城市、机器人和无人机以及联网车辆。未来的移动网络将面临在数十亿自主设备和人类应用程序之间高效共享频谱的重大挑战。我们在图21中总结了这些服务类的应用。通过为元宇宙中的所有应用提供吞吐量、抖动和延迟保证,网络切片也将成为元宇宙的核心推动者。然而,与URLLC类似,在当前网络中部署网络切片最有可能针对任务关键型应用,在这些应用中,网络条件会显著影响设备或用户的安全。此外,网络切片仍然需要解决有效编排网络资源的问题,以将需求经常冲突的网络切片映射到有限的物理资源。最后,5G的另一个可能显著提高吞吐量和延迟的功能是使用新的频带。毫米波段(24GHz-39GHz)允许宽信道(敢达800MHz)提供大吞吐量,同时将延迟降至1ms以下。毫米波频率受到低范围和障碍物穿透的影响。因此,mmWave主要用于拥挤环境中的密集基站部署,例如2018年的平昌奥运会(韩国)或成田机场(日本)。这样的密集部署允许同时为大量用户提供服务,同时保持RAN的高吞吐量和低延迟。
元宇宙是一个以用户为中心的应用程序。因此,多元宇宙的每一个组成部分都应该以人类用户为核心。在网络设计方面,这种考虑可以采取多种形式,从将用户体验置于流量管理的核心,到实现以用户为中心的感知和通信。
为了解决这些问题,网络社区越来越多地将用户体验指标纳入网络性能度量,称为体验质量(QoE)。QoE旨在提供一种可测量的方式来估计用户对应用程序或服务的感知。大多数研究倾向于使用术语QoE作为可能影响用户体验(例如,延迟、吞吐量)的基本服务质量(QoS)度量的同义词。然而,有几项工作试图通过结合网络和应用层度量的各种模型来正式化QoE。尽管这些模型代表了正确方向的一步,但它们是特定于应用程序的,并且可能受到多种因素的影响,无论是人、系统还是环境。测量在家庭视频游戏控制台(如Sony PS Now)上运行的云游戏应用程序的QoE与在透明耳机上运行的移动XR应用程序明显不同。此外,许多研究关注如何尽可能接近用户的感知来估计视频质量,大多数研究没有考虑其他标准,如可用性或用户主观感知。元宇宙将需要整合这些指标来处理用户期望,并主动管理流量以最大化用户体验。
提供准确的QoE指标以评估用户体验对于以用户为中心的网络应用程序至关重要。下一步是在网络处理流量的方式中集成QoE。QoE可以在网络上的各个级别进行集成。首先,客户机通常在感知用户、他们的应用程序使用情况和应用程序的执行上下文方面具有重要的功能。此外,许多应用程序(如AR或实时视频流)可能会产生大量上传流量。因此,从端到端的角度让客户端负责管理网络流量是有意义的。服务器端通常具有更多的计算能力,某些应用程序下载量很大,例如360视频或VR内容流。在这种情况下,服务器可以使用客户端传送的QoE测量值来相应地调整网络传输。这种方法已被用于基于用户的偏好、使用客户端的反馈来调整视频流的质量。最后,可以使用QoE措施来处理核心网络中的流量管理,无论是通过排队策略、软件定义网络还是网络切片。为了满足带来令人满意的用户体验的严格要求,元宇宙可能需要绕过传统的网络分层方法。较低的网络层可以为应用层传送关于网络可用资源的信息,以适应要传输的数据量,而较低的层可以考虑应用层的QoE测量,以适应内容传输。
使网络更加以人为中心也意味着考虑可能影响网络交流的人类活动。移动性和切换是影响核心网络参数稳定性的主要因素之一。切换总是伴随着等待时间的短暂增加。尽管许多工作试图在5G中最小化切换延迟,但在设计移动场景中的超低延迟服务时,需要考虑此类延迟。移动用户所经历的网络条件也与移动运营商基础设施部署的异质性直接相关。对香港和赫尔辛基多家运营商4G延迟的地理测量研究表明,移动延迟受到ISP选择和用户物理位置的显著影响。总体而言,用户移动性会显著影响驱动用户体验的网络参数,在设计以用户为中心的应用程序时应考虑到这一点。
以人为中心的网络的另一个方面在于嵌入式传感器的兴起。近年来,传感器网络已从固定环境传感器发展到自组织传感器网络。许多这样的传感器被设计为长时间保持在同一位置,或处于受控的移动性。同时,长期以来,人们认为嵌入式传感器只能感知用户。然而,我们现在看到感知用户整个环境的嵌入式传感器的增加,这就提出了这样一个问题:在已经拥挤的通信环境中,这些传感器如何进行通信。检测和聚合独立传感器之间的冗余信息对于释放网络上的重要资源可能至关重要。
在上一节中,我们看到了应用层的QoE测量应该如何驱动内容的传输。虽然此操作通过将网络度量与应用程序使用度量相结合,可以实现对用户体验的高精度估计,但较低的网络层对要传输的内容只有有限的控制。在元宇宙的许多应用中,应用层驱动要传输的数据量以及内容到较低网络层的优先级将更有意义。20世纪90年代后期,提出了网络感知应用程序,以解决此类问题。针对固定和移动网络,提出了许多框架。最近,已经提出了网络感知应用程序,用于资源供应、分布式学习优化和内容分发。
随着5G的快速部署,人们对网络感知应用程序重新产生了兴趣。5G使许多以用户为中心的应用程序能够移动到云,如云游戏、实时视频流或云VR。这些应用广泛依赖于视频流的实时传输,其质量可以适应网络条件。5G规范包括网络能力暴露,其中gNB可以向用户设备传送RAN条件。在边缘服务器位于gNB之后的边缘计算场景中,用户设备因此了解整个端到端路径的状况。当服务器位于网络的更下游时,网络能力暴露仍然会解决端到端路径中最可变的组件之一,为推动传输提供有价值的信息。然后,来自物理层和接入层的此类信息可以传播到网络层,在网络层可以根据各种网络能力做出路径决策,传输层可以主动解决潜在拥塞,应用层可以减少或增加要传输的数据量,从而最大化用户体验。
图22总结了如何在以用户为中心的应用程序和网络感知应用程序之间建立协同作用,以最大化用户体验。应用程序将QoE和应用程序使用度量传送到较低层,以适应传输并改善用户体验。并行地,网络层将网络条件传达给应用程序,应用程序反过来通过降低视频流的分辨率来调节网络上传输的内容量。
“替身”一词起源于印度教的概念,描述了印度教神的化身,在普通世界中以人类或动物的形式出现。替身出现在广泛的数字世界中。首先,它通常被用作各种聊天室(如ICQ)、论坛(如Delphi)、博客(如Xanga)以及社交网络(如Facebook,图23(a))中的个人资料图片。此外,游戏玩家使用非常原始的元宇宙示例,如AberMUD和Second Life,利用术语“化身”来表示自己。最近,游戏玩家或虚拟社交网络中的参与者可以通过几乎无限的选项来修改和编辑其化身的外观,例如Fortnite,如图23(b)所示。此外,VR游戏,如VR聊天(图23(c)),允许用户扫描他们的物理外观,然后选择他们的虚拟服装,以模仿用户的真实外观。图23(d)显示,以AR为特色的在线会议使用户能够将自己的脸转换为各种卡通风格。研究还试图利用化身作为亲密朋友、教练或想象中的自我来管理自己和目标设定,如学习和营养。
在计算机科学和技术领域,化身表示用户在虚拟空间中的数字表示,如上所述,以及其他物理实体,例如社交机器人,无论其形状大小。本节重点讨论数字表示。然而,值得指出的是,社交机器人可以成为现实世界和元宇宙中人类用户和虚拟实体之间的潜在沟通渠道,例如,机器人可以感知用户的情绪,并在对话中与用户进行适当的互动,或者机器人可以作为物理世界中的远程工作(远程呈现工作场所)的服务提供者。
人类用户的数字表示旨在充当镜像自我,以表示他们在元宇宙中的行为和与其他用户的交互。化身的设计和外观可能会在元宇宙内部的各种社交活动中影响用户的感知,例如现实感和存在感、信任感、身体所有权和群体满意度,这些活动受一系列因素的影响,例如化身面部的细节和相关微表情,化身身体的完整性、化身风格、表示、颜色和位置、逼真度、形象手势中的细节级别、阴影、形象行为的设计、形象身体运动的同步、原地行走运动,识别用户在其化身上反映的自我运动的能力,多个化身之间的合作和潜在故障,仅举几个例子。因此,化身具有塑造虚拟社交互动在元宇宙内多用户场景中的表现的关键作用。然而,当前的计算机视觉技术还没有准备好捕捉和反映用户的情绪、行为和它们的实时交互,如第九节所述。因此,可以集成额外的输入模式以提高化身的粒度。例如,当前的身体感应技术能够丰富化身的细节并实时反映用户的反应。在[576]中,化身的瞳孔反应可以反映用户的心率。在VR聊天的虚拟环境中,野外用户显著依赖身体感应技术(即,连接在身体上的传感器)来表达他们的身体运动和手势交流,这有助于非言语用户交互(即语音、手势、凝视和面部表情),模仿现实生活中不可或缺的部分。
当化身在多样化的虚拟环境中变得越来越普遍时,对化身的研究应该超越上述唯一的设计方面。我们简要讨论了与用户通过化身与虚拟环境交互相关的六个未被探索的问题——1)在野外用户行为中,2)化身及其虚拟环境的上下文,3)化身引发的用户行为,4)用户隐私,5)公平性,以及6)与物理世界的连接。首先,如前几节所述,元宇宙可以成为社交聚会和其他活动的独立虚拟场所。代表用户化身的用户在野外(即实验室外)的行为需要进一步调查,最近出现的虚拟世界可以作为进一步研究的测试平台。例如,了解用户行为、群体动态、群体竞赛之间、虚拟环境内鼓励用户通过各种活动获得NFT是很有趣的。第二,我们预见到,拥有化身的用户将体验各种虚拟环境,代表不同的情境。化身的外观应该适合这样的环境。例如,化身应该表现得专业,以获得虚拟工作环境中其他利益相关者的信任。第三,有必要了解虚拟环境中化身引起的用户行为的变化和动态。一个著名的例子是Proteus Effect,它描述了虚拟世界中的用户行为受我们的化身特征的影响。同样,在自我感知理论的支持下,用户在虚拟环境中的行为会通过自我感知的转变而受到化身诱导的行为和态度变化的影响。
此外,当先进的技术能够真正反映化身的粒度时,化身设计师应该考虑隐私保护机制来保护用户的身份。接下来,化身的选择应该代表各种人群。当前的化身模型可能会导致对外貌的偏颇选择,例如,一个高大的白人男性。替身设计师应该提供广泛的选择,使人们能够平等地选择和编辑虚拟环境中的外观。最后,在现实世界环境中揭示元宇宙化身很少被探索。在现实世界中展示化身能够增强存在性(即虚拟人在现实世界的共同存在),尤其是在某些情况下更喜欢代表特定人的化身的物理存在,例如讲座。交互设计师应该探索在有形设备(如图6所示的三个示例)和社交机器人上显示化身的各种方式。
本节旨在描述支持XR内容创作的现有创作系统,然后讨论元宇宙中的审查制度和创作者文化的潜在图景。
在虚拟环境中,创作工具使用户能够以直观和创造性的方式创建新的数字对象。图24展示了文献中XR/AR/VR创作系统的几个示例。在VR中,沉浸式环境提供了虚拟键盘和控制器,帮助用户完成复杂任务,例如,构建功能反应式编程(FRP)图,如图24(a)所示。此外,重用现有模式可以加快虚拟环境中的创作过程,例如演示(图24(b))。此外,用户还可以利用智能穿戴设备创建艺术对象,例如图24(c)中的智能手套。结合上述工具,用户可以在虚拟环境中设计交互式AI角色及其叙述(图24(d))。在AR或MR中,用户可以在其物理环境中的物理对象和人上绘制草图和粘贴覆盖图。通过在空中绘制新草图,例如图24(f),检测具有预定义AR覆盖的上下文((图24(g)),记录真实世界对象的运动以在AR中模拟其物理特性,在AR中插入物理对象(图24),或者甚至使用低成本物体,例如纸和聚合物粘土。
尽管研究界对XR/AR/VR创作系统越来越感兴趣,但此类创作工具和平台主要帮助用户在没有高技术壁垒的情况下创建和插入内容。此外,值得注意的是,人工智能可以起到将实体从物理世界自动转换为虚拟环境的作用(第七节)。因此,UI/UX设计师和其他非编码人员感觉更容易在虚拟环境中创建内容,而不是人工智能辅助转换驱动的虚拟世界。然而,要大规模构建元宇宙,存在三个主要瓶颈:1)以交互和讲故事的方式组织新内容;2)允许多个化身(即人类用户)之间的协作;3)多个异构设备支持的用户交互。据我们所知,只有有限的工作试图解决上述瓶颈,并指出基于角色的协作内容创建的可能性。正如Speichers等人所描述的,对等用户可以扮演不同的角色,并在虚拟环境中协同工作,例如向导、观察者、促进者、AR和VR用户作为内容创造者等等。类似地,Nebeling等人考虑了三个关键角色:导演、演员以及电影摄影师,为虚拟环境中的讲故事场景创建复杂的沉浸式场景。
尽管我们无法推测创作技术和解决方案的所有应用场景,但人类用户可以以各种方式生成内容,即元宇宙中的用户生成内容。值得注意的是,这样的创作系统及其数字创作适用于两个明显的用例。首先,物理任务和虚拟任务上的远程协作使用户能够向其对等方提供丰富的指令,并相应地为远程完成任务创建内容。其次,内容创建可以促进视频会议或社交聚会的等效虚拟场所,这是元宇宙的基本功能。自2020年以来,全球疫情的意外破坏加速了数字化转型,因此虚拟环境被视为虚拟旅行、社交聚会和专业会议的替代品。在线讲座和远程学习是一些最显著但最有影响力的例子,因为学校和大学在全球范围内暂停体育课。学生主要依靠远程学习和从专有在线平台获取学习材料。在这种意想不到的情况下,教师选择视频会议作为与学生的关键接触点。然而,这样的在线会议需要增加,以提高其效率。XRStudio演示了在教师和学生之间的视频会议中添加虚拟覆盖(AR/VR)的好处。类似地,数字商务在很大程度上依赖在线影响者来刺激销售额。此类在线影响力者通过实时流媒体分享用户生成的内容,例如,在线品尝和评论食物,获得关注并与在线观众互动。根据上述工作,我们预计XR创作系统的未来将有助于在现场直播活动期间增加参与者(例如,演讲者)。XR中虚拟覆盖层支持的丰富内容可以促进这种远程交互。演讲者还可以邀请观众进行协作内容创作。元宇宙可以作为一种媒介,将演讲者(用户生成内容的主要参与者)和观众虚拟地编织成一个统一的景观。
审查是压制思想和信息的一种常见方式,当某些利益相关者,无论是个人还是团体,以及当局可能发现这些思想和信息令人反感、危险或有害时。在现实世界中,审查制度限制了对特定网站的访问,控制了信息的电子传播,限制了向公众披露的信息,促进了宗教信仰和信条,并审查了将要发布的内容,以确保用户生成的内容不会违反特定社会的规则和规范,具有牺牲言论自由或某些数字自由的潜在副作用(例如对某些主题的讨论)。几种审查技术(例如DNS操作和HTTP(S)层干扰)被数字地采用:1)使用IP过滤技术阻止整个子网;2) 某些敏感域被限制为阻止特定网站的访问;3) 某些关键词成为针对特定敏感流量的标记,4)特定内容和页面被指定为敏感或受限类别,可能需要手动分类。
互联网和社交网络中的其他审查工作反映了伊朗、埃及、斯里兰卡、挪威、巴基斯坦、叙利亚和阿拉伯世界其他国家所采用的审查制度。这些现有作品中的大部分利用了探测方法——被审查的信息由生成新内容的请求的事件以及随后对此类请求的实际阻止来识别。尽管探测方法使我们能够更加了解特定地区的审查制度,但它带来了两个关键限制:1)有限的观察规模(即有限的可扩展性)和2)难以识别被审查的内容(即主要通过推断或推断)。
一旦元宇宙成为内容创建的热门场所,将创建大量用户交互跟踪和新内容。例如,《我的世界》(Minecraft)被视为一个非凡的虚拟世界,在这个虚拟世界中,化身拥有高度的自由度来创建新的用户生成内容。Minecraft还支持高度多样化的用户,他们希望在这样的虚拟世界中会面和传播信息。2020年,《我的世界》(Minecraft)充当了一个平台,为第一个被审查信息的图书馆,名为“未经审查的图书馆”,其重点是“新闻自由的避风港,但你在这些虚拟房间中发现的内容是非法的”。与互联网上使用的审查类似,我们推测,元宇宙也会采用类似的审查方法,尤其是当元宇宙中的虚拟世界呈指数级增长时,例如,阻止了元宇宙中某些虚拟对象和虚拟环境的访问。据预测,审查可能会潜在地损害虚拟世界之间的互操作性,例如,用户的日志及其交互痕迹会在一个受审查的虚拟环境中被根除吗?因此,我们有什么办法来保存被毁坏的记录吗?或者,我们是否可以将任何工具暂时用作敏感和受限信息的避风港?此外,其他新场景将出现在虚拟3D空间中。例如,审查可用于限制某些化身行为,例如,删除化身演讲中的某些关键词,禁止化身的肢体姿势,以及其他非语言交流手段。
尽管我们对元宇宙中审查制度的实际实施以及缓解这种影响的有效解决方案没有明确的答案,但我们提倡一套全面的指标来反映元宇宙中众多虚拟世界中的审查程度,这可以作为元宇宙研究人员了解元宇宙审查制度的根本原因及其严重性和流行程度的重要视角。互联网的现有指标,即审查星球,是一个全球范围的审查观察站,有助于提高审查做法的透明度,并通过发现关键的审查事件支持互联网用户的人权。
关于内容创作的章节以对创作者文化的猜测结束,因为我们只能用现有的与创作者和数字文化相关的工作来构建我们的论点,从而在元宇宙中大规模勾勒出以用户为中心的文化。首先,由于元宇宙中的每一个参与者都会参与创建虚拟实体并共同贡献元宇宙中新的资产,我们希望上述创作系统能够消除这种共同创造和共同贡献的障碍。换言之,数字内容创作可能会让所有化身协同参与过程,而不是让少数专业设计师参与。探索创作的设计空间为业余创作者和新手创作者指定的积极参与共同创作过程的旅行和奖励计划可以促进共同创作过程。设计空间应该进一步扩展到人类人工智能协作领域,人类用户和人工智能可以在元宇宙中共同创建实例。还有一个明显的激励因素可以是基于令牌的奖励。例如,在虚拟环境中,外星人世界(Alien Worlds)是元宇宙的一个基于令牌的先驱,它允许玩家通过与同龄人完成任务,将其努力转化为NFT,从而在现实世界中获得有形回报。
据预测,元宇宙中的数字内容数量将激增,因为我们看到了久负盛名的数字音乐和艺术。例如,Jiang等人提供了一个虚拟绘画环境,鼓励用户在VR中创建3D绘画。尽管我们可以假设计算机架构和数据库应该拥有承载如此数量不断增长的数字内容的能力,但我们无法准确预测当海量数字内容的积累超过元宇宙的容量时可能出现的结果——过时的内容将被淘汰或保留。这个单词容量表示元宇宙的计算能力和虚拟空间的迭代。一个类比是,由于资源和空间的限制,现实世界的环境无法承受无限数量的新创造。例如,一幅旧的街道画将被另一幅新画取代。
类似地,包含许多化身(和内容创造者)的虚拟生活空间可以以迭代方式将新的和独特的内容添加到其虚拟环境中。在虚拟环境中,可以通过建立保存过时内容的潜在措施来进一步加强创作者文化,例如,建立一个虚拟博物馆来记录数字内容的足迹。下一个问题是,保存的或同时代的数字内容应该如何出现在现实环境中。理想情况下,物理环境中的每个人都可以平等地使用融合元宇宙技术,感知虚拟实体的物理启示,以及它们在公共城市空间中的内容。此外,新的虚拟文化可以影响现实世界中的现有文化,例如,数字文化可以影响工作空间中的工作关系。
如图25所示,本节首先向读者介绍虚拟世界所需的经济治理。然后,我们讨论了元宇宙行业的市场结构以及上一节讨论的用户活动和内容创建的经济支持细节。
在过去的二十年中,我们观察到一些玩家创造并维持游戏内经济系统的例子。空间主题游戏《EVE》以玩家生成的复杂的经济系统蛛网,在其中玩家还扮演着一些经济治理角色,这一点从他们的月度经济报告中可以看出。然而,这并不是说,元宇宙开发者可以简单地模仿EVE的成功,并将所有经济治理委托给他们的用户。首先,实现加密货币作为正式交易手段的主要潜在困难之一是其与潜在通货紧缩压力的关联。具体而言,虽然玩家在EVE中控制货币创造,但由于“采矿”过程的建立,加密货币的特点是稳定且相对缓慢的货币供应增长。与我们所处的当前世界不同,中央银行可以通过货币工具调整货币供应,其他金融机构可以通过创建广义货币来影响货币供应,而新兴形式的加密货币却缺乏这种机制。因此,货币数量理论意味着,如果货币流通速度在长期内相对稳定,人们有理由担心通货紧缩压力,因为货币供应无法适应繁荣的元宇宙中不断增长的交易量。尽管一些人可能认为发行新的加密货币是解决相对静态货币供应的可行补救办法,但只有当新货币获得足够的信任并被确认为正式货币时,这种方法才可行。为了达到这样的目的,元宇宙社区的用户必须对新货币表示某种程度的接受,要么是出于内在动机,要么是通过开发者的干预。然而,假设新推出的加密货币和现有加密货币之间的官方兑换率将由开发商强制执行。在这种情况下,他们可能会发现自己在重演双金属主义的失败,因为现实世界中的投机者被激励利用任何套利,导致“坏”加密货币根据格雷沙姆定律赶走“好”加密货币。因此,为了打破这一诅咒,需要某种银行体系来通过部分准备金银行来创造货币,而不是增加货币基础。这意味着元宇宙世界的借贷活动可以增加货币供应。已经有几个现有的平台,如BlockFi,允许用户存入加密货币并提供利息作为奖励。尽管如此,解决方案并非一帆风顺,因为在一些机构存放加密货币可能会违背分散化的基本理念。除了引入银行系统之外,其他人提出了不同的方法来稳定加密货币。一个例子可以是通过对国家货币或商品价格的自动重新定价过程实现稳定。钉住的加密货币在当今世界不是一个想象的概念。一种称为稳定币的与主权货币挂钩的加密货币已经存在,一项研究表明,领先的稳定币之一Tether的套利如何对挂钩产生稳定作用。更重要的是,不同于稳定币对市场情绪变化的潜在脆弱性,即抵押品是否足以维持钉住汇率,一种普遍认可的重定汇率货币可能会规避这种障碍,因为它不支持通过使用抵押品来钉住汇率。尽管如此,值得一提的是,对于加密货币的通货紧缩特征是否应被视为其缺点,以及通货紧缩压力的程度在未来是否会在加密货币中显现,目前尚未达成共识。此外,对加密货币成为标准交易方式的另一个主要怀疑来自其高度投机性。因此,开发者应该考虑将加密货币调整为可靠且稳健的货币所需的经济治理,以供数百万元宇宙用户使用。同样,我们也注意到了算法公平等领域的内部治理需求,我们将在第XV-C节中详细讨论。
此外,经济治理的另一个潜在领域出现在更高层次:现实世界中的政府。正如我们将在下一节中展示的,元宇宙公司之间的竞争程度会影响消费者福利。因此,应委托国家政府甚至国际机构履行其职责,像在其他商业部门一样,监督这些公司之间可能发生的勾结。在极端情况下,政府还应终止兼并和收购,甚至拆分元宇宙公司,以保障消费者的福利,因为其社会影响(即对平行世界的控制)太大,不容忽视。尽管如此,(国际)国家一级的经济治理并不仅仅是向元宇宙业务的增长倒退。相反,国家干预将在巩固加密货币作为平行世界中受信任的交换媒介的地位方面发挥关键作用。这是因为政府的决定可以显著影响市场情绪。这体现在土耳其对加密货币支付的限制和萨尔瓦多承认比特币为合法投标者这两个对立的例子中,这两个例子都对货币市场造成了冲击。因此,即使在缺乏集中控制的情况下,政府对加密货币的保证和参与,保证了对货币的政治稳定,也会随着信任的建立而带来市场的稳定。事实上,政府的参与是一项研究中受访者对货币价值的信任的积极因素。尽管这可能不会完全稳定市场,但它消除了政治因素带来的不确定性。此外,国家和国际机构的同意对于金融工程也至关重要,例如加密货币的部分储备银行。建立这样的外部治理不是一项从头开始的任务;人们可以从过去的加密货币法规和相关文献讨论中学习。尽管如此,加密货币银行系统的建立在稳健性方面存在另一个错误,因为当局在充当最后贷款人以防止这一新银行系统的系统崩溃方面可能面临巨大困难,这只会增加他们在处理与分散货币相关的非法活动方面的负担。
观察到大型科技公司在现实世界中的主导地位,像史诗游戏(Epic Games)创始人蒂姆·斯威尼(Tim Sweeney)这样的个人呼吁建立一个“开放元宇宙”并不奇怪。然而,由于开发元宇宙涉及大量成本,目前的范式是否会转变为一个不太集中的元宇宙市场是值得怀疑的。具体而言,经验发现表明沉没成本与行业的进入壁垒正相关。就元宇宙而言,沉没成本可能是指公司在开发元宇宙系统时投入的无法挽回的成本。事实上,像脸书和微软这样的大公司已经在游戏中脱颖而出.因此,除非开发和维护一个能够容纳数百万用户的元宇宙世界的成本在未来因体制因素或简单的技术进步而大幅降低,否则缺乏资金的后来居上的初创公司将面临进入市场的巨大困难。由于市场份额集中在少数领先的科技公司手中,元宇宙行业可能成为寡头垄断市场。尽管与我们的平行世界被巨大的垄断所支配相比,这在法律上并不那么极端,但现有的寡头垄断仍然可以拥有巨大的权力,特别是在元宇宙发展的第三阶段(即超现实)。随着像Alphabet这样的科技巨头从谷歌的广告中单独获得1470亿美元的收入(图26显示了谷歌广告收入的历史增长),在发展的最后阶段,元宇宙世界的潜在利润空间不容忽视。关于“从我们早上醒来的那一刻起,直到我们上床睡觉,我们都在那些手持平板电脑上”的担忧不仅暴露了隐私问题,也暴露了拥有和监管这样一个平行世界的商业潜力的重要性(如图27所示)。然而,寡头垄断市场并非完全恶意。撇开其实现帕累托有效结果的理论能力不谈,近年来,我们确实看到了更令人满意的结果,尤其是与科技巨头的消费者相抗衡的结果。这种趋势伴随着那些曾经是某个特定技术领域的局外人,但拥有相当财力的玩家的崛起,他们无疑会挑战成熟的科技公司。因此,尽管FANG集团(Facebook、Amazon、Netflix和Alphabet)等领先的科技公司表面上可能是向元宇宙业务平稳过渡的最突出的参与者,但这并不保证它们不会被科技行业以外的其他工业巨头所竞争。此外,寡头垄断市场的经济模型也为提出市场结构对消费者福利的不利影响提供了理论基础,前提是产品差异化程度高,企业不相互勾结。在元宇宙发展的当前阶段,这种先验已经很明显。在位的科技公司虽然认识到元宇宙的多样性,但已经以不同的方式接近了元宇宙。虽然Fortnite启发了Sweeney对元宇宙的愿景,但马克·扎克伯格最近的目标是测试适用于工作的VR耳机。考虑到元宇宙的不确定性和挑战,公司选择先掌握专业知识并最终朝着类似方向发展,这是可以理解的。有不同的起点可能仍然会导致每个公司的元宇宙表现方式的差异。此外,不同公司对AR眼镜和VR耳机等不同硬件的使用也有助于产品差异化。然而,后者将在很大程度上取决于经济治理,尽管一些公司持有善意。
作为一个新兴概念,元宇宙商业是指在虚拟世界中进行的交易,包括但不限于用户对用户和企业对用户的交易。由于电子商务是以数字方式进行的,交易系统可以在很大程度上借鉴我们现在享受的电子商务系统。例如,eBay的净资产为485.6亿美元,是元宇宙社区可移植的C2C电子商务的典型例子。尽管如此,元宇宙商务并不等同于现有的电子商务。不仅交易的物品有所不同,这将在下一节中详细阐述,而且元宇宙商业的主要重点也是互操作性:用户在不同虚拟世界中携带物品的可行性。元宇宙的系统不是要创建一个虚拟世界,而是要创建多个虚拟世界。也就是说,用户可以随心所欲地在众多虚拟世界中旅行,以获得不同的沉浸式体验。因此,由于个人可以在访问另一个国家度假时携带自己的物品,开发者也应该在数字孪生中重现这种体验。在目前阶段,大多数视频游戏,即使是由同一供应商提供的游戏,也不能为玩家提供从一个游戏到另一个游戏的完全互操作性。然而,现实生活确实为现有游戏提供了一些互操作性元素,尽管形式稍逊。举例来说,《怪物猎人》和《神奇宝贝》等游戏允许玩家将数据从任天堂3DS传输到任天堂Switch.然而,这种转移往往是单方面的(例如,从旧游戏到新游戏),缺乏沉浸式体验,因为它们通常发生在实际游戏之外。另一类可以说让人联想到互操作性的游戏可以是具有可下载内容(DLC)的游戏,其来源于从同一开发商购买其他游戏。一个很好的例子是Capcom的《怪物猎人故事2》的奖励内容,在之前的Capcom游戏《怪物猎人崛起》中,玩家可以获得源自《怪物猎人兴起》的游戏内装备。然而,拥有一些类似于另一个游戏中用户虚拟财产的虚拟物品奖励并不等同于完全的互操作性。另一个值得注意的例子是《我的世界》:玩家可以在登录不同服务器时保留他们的化身“皮肤”和“斗篷”,这可以被视为在不同虚拟世界之间旅行的元宇宙玩家的现实孪生。在检查了与互操作性概念或多或少相关的所有三种现有游戏功能之后,人们可能会意识到缺乏用户自由是一个反复出现的主题。值得注意的是,游戏间的用户交易实际上是缺失的,内容的类型以及游戏间内容的流向都是由开发者严格设定的。更重要的是,除了Minecraft案例,数据传输缺乏流畅性,因为它没有作为自然游戏体验的一部分进行集成。也就是说,传输或链接游戏数据的行为不像将商品从一个地方运送到另一个地方的真实生活行为那样自然。因此,元宇宙开发者应该考虑到现有游戏在解决互操作性方面的不足,并推广新的解决方案。虽然对于由单一开发人员组织的元宇宙来说可能更容易,但在“开放元宇宙”的场景中,对于较小的个体开发人员来说,这样的解决方案可能更具挑战性。由于可以在没有共同框架的情况下构建单独的世界,技术上的困难可能会阻碍用户在不同虚拟空间之间的连接,更不用说游戏内内容的交换了。尽管如此,Open Metaverse Interoperability Group等组织已试图将单个虚拟空间与一个通用协议连接起来。因此,也许就像TCP/IP协议(即通用协议)的出现一样,我们需要为单个元宇宙开发人员提供某种共同基础。
如前一节所简要暗示的,虚拟对象交易是关于在元宇宙中的不同利益相关者之间建立虚拟对象的交易系统。自从人类在几个世纪前开始易货贸易以来,贸易已经成为我们日常生活中不可或缺的一部分。因此,现实世界中的数字孪生也应该反映出这样杰出的物理同行。此外,随着我们从数字孪生阶段转向数字原生阶段,用户创建的虚拟内容开始蓬勃发展,对完善交易系统的需求只会加深。幸运的是,几个现实生活中的例子的存在为元宇宙交易系统的发展提供了线索。非伪造代币(NFT)交易平台,如OpenSea和Rarible,允许NFT持有者轻松交易,类似于交易其他具有金融价值的传统物品。如图28所示,目前正在交易各种虚拟对象。一些人更进一步,将NFT交易嵌入游戏中:Battle Pets和My DeFi Pet允许玩家培育、战斗并与其他人交换虚拟宠物。考虑到现实生活中NFT交易示例的丰富性,元宇宙开发者可以在虚拟世界中使用这些结构来创建用户交换虚拟内容的市场。此外,对于具有一定共同价值的商品,如Vickrey-Clarke Groves机制和同步多轮拍卖等知名的现实生活拍卖方法也可以引入虚拟财产的虚拟孪生模型中,例如在虚拟社区中运营基本服务的特许经营权,例如为虚拟家庭提供照明。然而,与元宇宙商业遇到的困难类似,现有的交易系统也需要进行微调,以更好地适应虚拟世界。一个潜在的问题可能是在不同的虚拟世界中进行交易。特别是,在世界A中创建的对象可能与世界B不兼容,特别是当两个世界由不同的引擎驱动时。再一次,随着不同世界的虚拟对象交易与互操作性交织在一起,对通用框架的需求变得更加突出。在现阶段,一些人强调了构建集成元宇宙系统的灵感可以通过回顾现有技术获得,例如微宇宙架构.在图29中,我们推测两个不同虚拟世界之间的交易可能是什么样子。
随着越来越多的虚拟对象在数字原生阶段进行交易,越来越多的个人接受数字游牧的生活方式,虚拟交易市场空间也应该有能力保护虚拟对象的所有权。尽管NFT不能被来自元宇宙社区的其他用户盗用,但伪造品总是会产生的。具体地说,在观察到虚拟交易平台上列出的用户生成的杰作后,有恶作剧行为的个人可能会试图伪造该杰作并声称其原创性。与NFT相关的欺诈并不奇怪,因为有报道显示,有几起案例中,买家被欺骗,以为自己在为著名艺术家的合法作品买单,而交易平台缺乏足够的验证.考虑到交易的商品类型,这对元宇宙社区来说尤其具有破坏性。与现实生活中交易的必需品不同:如主食、水和取暖,这些商品的价值很大一部分来源于它们的功利功能,以满足我们的基本需求,虚拟物品的价值可能更多地取决于它们相关的社会地位。换言之,在虚拟世界中拥有一些罕见的NFT的行为可能与个人消费Veblen商品类似,比如奢侈的服装和配饰。因此,物品的原创性和稀有性成为其定价的一个重要因素。因此,充斥着假冒商品的交易市场将阻止潜在买家。随着越来越多的买家对假冒商品的担忧,从而对提供高价变得越来越保守,真正的内容创作者受到了抑制。这与乔治·阿克洛夫的“柠檬市场”不谋而合,导致了不受欢迎的市场扭曲。
考虑到负面后果,需要问的问题是:哪个利益相关者应该负责解决这一难题?鉴于消费者往往不具备验证所列项目的最佳信息和能力,他们不应被迫终止元宇宙体验,以对内容创作者在现实生活中的可信度进行广泛搜索。同样,内容创作者也不能保护自己免受版权侵犯,因为他们可能无法通过价格歧视和价格控制来弥补损失。因此,元宇宙开发商应该解决所有权问题,以维持市场秩序。到目前为止,一些研究试图通过检查艺术品的特定特征,利用神经网络解决艺术品伪造问题。元宇宙开发人员可以结合传统方法,在虚拟对象获准上市之前实施更严格的审查流程,并利用神经网络标记与平台上先前列出的项目高度相似的项目,这可以通过在相关领域神经网络应用的当前成就的基础上实现。
本节讨论了影响元宇宙的社会可接受性的各种设计因素。这些因素包括隐私威胁、用户多样性、公平性、用户上瘾、网络欺凌、设备可接受性、跨代设计、用户数字副本(即化身)的可接受性和绿色计算(即可持续性设计)。
尽管元宇宙生态系统可以带来新的潜力,但它需要在生态系统仍在形成的早期阶段解决潜在的隐私泄露问题,而不是等待未来,因为这个问题在生态系统中根深蒂固,任何解决隐私问题的解决方案都需要从头开始重新设计。这个问题的一个例子是基于第三方cookies的广告生态系统,最初的重点是为提供实用程序而设计。整个收入模式基于cookies,它跟踪用户以提供个性化广告,现在考虑隐私方面已经太迟了。最终,它们受到了GDPR等隐私法规的强制执行,而谷歌决定在2022年之前从Chrome中删除第三方cookie,这实际上扼杀了基于第三方Cookie的广告生态系统。此外,我们有一些早期迹象表明,如果没有考虑到公众对谷歌眼镜的担忧(或看法),社会可能会对无处不在的技术做出何种反应,这些技术将使元宇宙成为可能。之后,针对尊重旁观者和非用户的隐私提出了许多解决方案。然而,他们都依赖于设备所有者的良好意愿,因为没有法律或技术机制来验证旁观者的隐私是否得到了真正的尊重。提出一个可验证的隐私机制将是为了获得社会接受而需要解决的首要问题之一。
在社会可接受性的背景下,隐私威胁的另一个方面来自隐私悖论,用户愿意分享自己的信息,如图30所示,但当实际使用数据和感知使用数据之间的差异变得明显且过于对比时,会表现出非常强烈的负面反应。例如,许多人愿意在Facebook上分享他们的数据。尽管如此,Facebook和Cambridge Analytica数据丑闻引发了公众的强烈抗议,以至于Facebook被美国政府传唤。国会和英国议会举行听证会,剑桥分析公司不久就破产了。一个解决方案是根本不收集任何用户的数据。然而,这将大大削弱生态系统可能带来的潜在创新。德国总理安格拉·默克尔等世界领导人也提出了另一个解决方案,即实现用户同意的隐私交易,用户可以出售个人数据以换取金钱或其他利益。研究人员已经提供了他们对隐私经济的见解,以及隐私交易有效市场的设计。这种方法将实现潜在创新所需的数据流,同时,它还将公平补偿用户的数据,从而为更广泛的社会接受度铺平道路。
正如人类与城市互动的前瞻性设计所述,在城市范围内的移动AR/MR用户互动设计应考虑各种利益相关者。同样,元宇宙应该包容社区中的每个人,不分种族、性别、年龄和宗教,如儿童、老年人、残疾人等。此外,重要的是要考虑在用户面前显示个性化的内容,并促进推荐系统的公平性,以尽量减少有偏见的内容,从而影响用户行为和决策(详见第XV-C节)。虚拟世界中的内容可以通过提供享受、情感参与和唤醒等因素,从而获得更高的接受度如何在考虑用户多样性的情况下设计内容以最大限度地提高接受水平,即用户多样性设计,将是一个具有挑战性的问题。
在元宇宙中将建立许多虚拟世界,也许每个虚拟世界都有各自的规则来管理用户行为和活动。因此,管理和维护这些虚拟世界的努力将是巨大的。我们预计,在人工智能(第七节)的支持下,自主代理将在虚拟世界中扮演治理角色,以减轻人工工作量的需求。重要的是要指出,虚拟世界中的自主代理依赖机器学习算法来对虚拟对象和化身的动态变化做出反应。众所周知,没有任何模型能够完美地描述真实世界的实例,同样,不公平或有偏见的模型可能会系统地损害元宇宙中的用户体验。有偏见的服务可能使某些用户群体处于不利地位。
在社交网络上,通过算法方法总结用户生成的文本可能会导致一些社交群体被低估。相比之下,保持公平的总结算法可以在社会群体中产生整体高质量的服务。这个现实生活中的例子为元宇宙的设计提供了线索。因此,元宇宙设计者将元宇宙视为一个虚拟社会,应将算法公平作为元宇宙设计的核心价值,并因此在我们使用算法和计算机代理担任管理和治理角色时维护程序公正,这要求对用户和结果控制机制具有高度的透明度。特别是,结果控制指用户对算法结果的调整,他们认为这是公平的。对个人用户或群体不利的结果可能是毁灭性的。这意味着用户感知对于此类机器学习算法的公平性的重要性,即感知的公平性。然而,倾向于感知到的公平可能会落入另一个结果偏向的陷阱。此外,元宇宙设计师应打开渠道,收集多元化社区群体的声音,并合作设计解决方案,从而在元宇宙环境中实现公平。
当元宇宙成为人们在虚拟世界中花费时间的最普遍场所时,过度使用数字环境(即用户上瘾)将是一个重要问题。在最坏的情况下,用户可能会利用元宇宙来帮助他们“逃离”现实世界,即逃避主义。之前的研究已经发现了一些对各种虚拟网络空间或数字平台上瘾的证据,如社交网络、移动应用、智能手机、VR、AR等,尽管对放映时间的限制已被广泛采用。知道新冠肺炎大流行促使范式从面对面会议或社交聚会转向各种虚拟方式,最近的研究表明,长期使用此类虚拟会议和聚会可能会产生另一个问题–滥用或沉迷于互联网。
因此,我们质疑“元宇宙是否会将其用户带入下一个用户成瘾水平”。我们通过回顾现有的AR/VR平台来讨论潜在的行为变化,而不是基于证据。首先,VR聊天被称为元宇宙虚拟世界的一个显著例子,可以被视为对元宇宙上瘾的一个试点例子。与此同时,VR研究人员研究了VR中这种行为上瘾、根源和相应治疗之间的关系。此外,AR游戏,例如《口袋妖怪围棋》,可能会导致大量玩家的行为改变,例如消费行为、城市地区的群体导向行为、现实世界中的危险或冒险行为,而这种行为改变可能会对社会产生明显影响。一种心理学观点试图支持用户成瘾的发生,它解释了用户的扩展自我,包括人的思想、身体、物质财产、家庭、朋友和附属团体,鼓励用户探索虚拟环境,并在虚拟世界中寻求奖励,也许是在无止境的奖励反馈循环中。我们必须指出,我们在这里提出了沉浸式环境(AR/VR)的成瘾问题,旨在引发辩论并引起研究关注。在元宇宙中,用户可以体验超现实主义,让用户体验与真实世界高度相似的各种活动。此外,高度逼真的虚拟环境使人们能够在现实生活中尝试一些不可能的事情(例如,复制现实生活中不道德的事件或体验种族主义经历),并大胆假设这种环境会进一步加剧上瘾,例如,更长的使用时间。对野外用户行为的进一步研究和观察有助于我们理解由超现实元宇宙引起的用户成瘾的新因素。
网络欺凌是指在网络空间中发送、发布或分享关于受害者的负面、有害、虚假或恶意内容等不当行为,这些行为经常发生在社交网络上。我们还将元宇宙视为巨大的网络空间。因此,对生态系统的另一个不可忽视的社会威胁可能是元宇宙中的网络欺凌。元宇宙将无法长期运行,根据通常的做法,当局将要求关闭元宇宙中的一些虚拟世界——关闭现有的网络欺凌网络空间。此外,考虑到虚拟世界数量巨大,元宇宙将利用网络欺凌检测方法。检测方法由算法驱动。这些算法的公平性将成为向元宇宙中的用户提供感知公平性的关键因素。在发现任何网络欺凌案例后,应在虚拟环境中有效部署缓解解决方案,如护理和支持、虚拟社会支持和自我披露。然而,在类似游戏的环境中识别网络欺凌远比社交网络复杂。例如,用户的不当行为可能含糊不清,难以识别。类似地,元宇宙中的3D虚拟世界可能会使场景进一步复杂化,从而难以大规模检测网络欺凌。
首先,社会对连接人们与元宇宙的设备的接受程度需要进一步调查,这是指公众或旁观者对此类设备的接受度,例如移动AR/VR耳机。此外,移动耳机的用户安全可能会对用户及其附近的旁观者产生负面影响,导致虚拟世界中的用户体验崩溃。据我们所知,我们只对虚拟世界的社会接受度进行了有限的研究,但没有发现数字孪生和元宇宙。
此外,跨代社交网络的差距也表明,Z一代成年人更喜欢Instagram、Snapchat和Tiktok,而不是Facebook。相反,Facebook保留了更多X世代和Y世代的用户。迄今为止,社交网络未能在一个平台上为来自多个人口统计数据的所有用户提供服务。从失败的案例来看,我们必须为跨代虚拟世界的用户设计做好准备,特别是当我们在统一的环境中考虑具有动态用户群的元宇宙时。
此外,我们应该考虑用户在不同时间点对化身(用户的数字副本)的接受度。例如,一旦用户去世,用户的家人、亲戚或朋友对化身的接受程度如何?这个问题与描述将一个人的个性和行为存储为数字拷贝的虚拟不道德行为密切相关。这个问题也可能影响元宇宙中数字人类的未来,因为我们将迭代虚拟环境,这些虚拟环境由虚拟对象和化身组成,作为与现实世界分离的实体,例如,我们是否应该允许新用户与代表可能逝去的用户的两个世纪长的化身交谈?
此外,元宇宙被视为一个巨大的数字世界,将得到无数计算设备的支持。因此,元宇宙可以产生巨大的能源消耗和污染。鉴于元宇宙不应剥夺后代,元宇宙设计师不应忽视从绿色计算的角度考虑的设计问题。生态友好和环境责任可能会影响用户对元宇宙的感情和态度,可能还会影响活跃用户甚至反对者的数量。因此,在可持续性指数的基础上,通过数据分析来获取和构建元宇宙将成为广泛采用元宇宙的必要条件。
最后,我们简要介绍了可能影响用户对元宇宙接受度的其他因素,如游戏中的伤害、意外的恐怖、用户隔离、责任和信任(详见第十七节)、身份盗窃/泄露、虚拟犯罪、操纵性内容诱导用户行为(例如,说服性广告)等等。
可穿戴设备等互联网连接设备允许监控和收集用户信息。这些信息可以用多种方式解释。在大多数情况下,例如在智能家居中,我们甚至不知道这种无处不在的连续录音,因此,我们的隐私可能以我们无法预见的方式受到威胁。这些设备可以收集多种类型的数据:个人信息(例如,物理、文化、经济)、用户行为(例如,习惯、选择)和通信(例如,与个人通信相关的元数据)。在许多情况下,与使用这些智能设备或服务可能带来的隐私和安全风险相比,用户接受这些好处。例如,GPS定位用于搜索附近的朋友。在VR(用于显示元宇宙的主要设备)的情况下,实现更沉浸式环境的新方法(例如,触觉设备、跟踪细粒度用户移动的可穿戴设备)可能会以新的方式威胁用户。
元宇宙可以被视为我们在现实中看到的东西的数字拷贝,例如,建筑物、街道、个人。然而,元宇宙也可以构建现实中不存在的东西,比如有数百万观众的大型音乐会(图31)。元宇宙可以被视为一个社会微观世界,玩家(使用元宇宙的个人)可以展示现实的社会行为。在这个生态系统中,个人的隐私和安全感知可以遵循真实的行为。在本节中,我们将详细阐述个人在使用元宇宙时可能面临的隐私和安全风险。我们首先深入分析用户在元宇宙中的行为以及他们可能经历的风险,例如侵犯隐私或持续监控,以及个人在元宇宙可能遭受的隐私攻击,例如深度伪造和替代表示。其次,我们评估设计师和开发人员如何在元宇宙中开发道德方法,保护数字孪生。最后,我们将重点放在使用元宇宙时,VR耳机和可穿戴设备等设备可以收集的个人生物信息上。
在元宇宙中,个人可以使用类似的个人信息创建化身,例如性别、年龄、姓名或完全虚构的人物,这些人物与真实人物的外表不相似或包含任何相关信息。例如,在名为“第二人生”的游戏中——一个开放的社会元宇宙——玩家可以创建自己的化身,完全控制自己想要向其他玩家显示的信息。
然而,由于游戏的性质,任何玩家都可以在用户处于元宇宙时监控他们的活动(例如,他们去了哪里,与谁交谈)。由于当前VR及其技术的局限性,用户无法完全了解他们在元宇宙中的环境以及谁在跟踪他们。[475]的研究表明,玩家在元宇宙(如第二人生)中的行为确实相似,因此,他们的隐私和安全行为与真实世界相似。如上所述,当玩家的化身与元宇宙中的其他化身互动时,玩家仍然会遭受敲诈、持续监控或窃听。
这种隐私和安全威胁的解决方案可以是在元宇宙中使用多个化身和隐私副本。第一种技术侧重于根据用户的偏好创建具有不同行为和自由度的不同化身。这些化身可以放置在元宇宙中以迷惑攻击者,因为他们不知道哪个化身是真正的用户。化身可以具有不同的可配置(由用户)行为。例如,当在元宇宙中购买物品时,用户可以生成另一个购买特定物品集的化身,这会给攻击者造成混乱和噪音,因为他们不知道实际的化身是什么。第二种方法创建一部分元宇宙(例如,公园)的临时和私人副本。在这个创建的私有部分中,攻击者无法窃听用户。从元宇宙的主结构创建的副本将创建或不创建新项(例如,存储项)。然后,在私有部分使用主结构中的资源的情况下,元宇宙API应该相应地处理从私有副本到元宇宙主结构的合并。例如,如果用户创建了百货公司的私人副本,则在合并完成后,应在主结构的商店中更新购买的物品。当同时使用元宇宙同一部分的多个私有副本时,这必然会带来一些挑战。应实施解决元宇宙中项目的并行使用的技术,以避免用户体验的不一致和退化(例如,由于项目在私人副本中使用而导致主结构中的项目消失)。最后,在创建隐私副本之后,用户还可以创建其化身的隐形副本,这样他们就可以在元宇宙中进行交互,而不受监控。但是,当主结构的资源有限或共享时,这种方法将面临与私有拷贝类似的挑战。
在这些虚拟场景中,深度伪造和替代表示的使用会对用户的行为产生直接影响,如图32所示。在元宇宙中,生成的虚拟世界会对隐私造成比现实世界更大的潜在威胁。例如,“深度伪造”可以对用户的隐私行为产生更大的影响。用户可能难以区分真实的虚拟主题/对象与deepfake或旨在“欺骗”用户的替代表示。攻击者可以使用这些技术来产生紧迫感、恐惧感或其他情绪,从而导致用户泄露个人信息。例如,攻击者可以创建一个看起来像受害者朋友的化身,从受害者身上提取一些个人信息。在其他情况下,受害者的安全可能会受到威胁,例如(在虚拟世界中)对受害者进行身体攻击。最后,其他更先进的技术可以使用诸如暗模式之类的技术,通过使用元宇宙中先前记录的观测结果,影响用户做出不想要的或不知情的决定。例如,攻击者可以知道用户喜欢在元宇宙中购买什么,他/她将设计一个类似的虚拟产品,用户将在不注意到它不是用户想要的原始产品的情况下购买。此外,机器学习技术可以为元宇宙中的聊天机器人和游戏机器人提供一种新的方式。这些机器人将使用先前推断的用户特征(例如,个性)在元宇宙中创建微推社交互动。
正如我们前面提到的,攻击者可以在元宇宙中提供的替代表示和深度伪造应该避免。首先,我们讨论了元宇宙如何被监管,甚至元宇宙中的治理可能性。
例如,Second Life在美国运营,因此在隐私和安全方面遵循美国法规。然而,元宇宙可以在全球范围内达到一定比例,这给保护如此广泛的用户带来了一些挑战。第二人生的当前例子显示了一个内在的(元宇宙内部)规则和法律。在这种环境下,使用代码和对玩家的持续监控(例如,聊天日志、对话)来执行法规。后者可以帮助元宇宙开发人员在被其他人报告后禁止用户。然而,正如我们所观察到的,这类似于某种治理。这种缺乏治理可能会干扰元宇宙的体验,但如果没有任何全球控制,元宇宙可能会变成无政府状态和混乱。该治理将负责决策,例如对被禁止的特定玩家的限制。
归根结底,我们仍然可以面对元宇宙中的法规和治理的全球性挑战,以便对虚拟世界拥有一定的管辖权。我们可以预见,以下元宇宙将在法规(根据元宇宙运行的国家)和由元宇宙开发人员统治的中央政府(使用代码和日志)方面遵循以前的方法。
一些作者提出了逐步实施工具的建议,允许团队像联邦模型一样控制其成员。元宇宙中的用户可以使用特定规则创建邻居。例如,用户可以创建特定区域,只有具有相同亲和力的其他用户才能进入该区域。区块链等技术也可以允许强制元宇宙的用户按照某些准则行事不当,并给予相应的惩罚(可能通过民主方式)。然而,有关隐私和安全的规定以及如何执行这些规定不在本节的范围之内。
1) 数字孪生保护:数字孪生是为反映物理对象而创建的虚拟对象。这些数字对象不仅与物理外观相似,而且还可以与真实世界资产的物理性能或行为相似。数字孪生将能够克隆现实世界的对象和系统。数字孪生可以成为元宇宙的基础,在元宇宙中,数字对象的行为与物理对象相似。元宇宙中的交互作用可用于改善物理系统在大规模创新路径中的融合,并增强用户体验。
为了保护数字孪生,元宇宙必须确保创建和实施的数字孪生是原创的。在这方面,元宇宙需要一个基于信任的信息系统来保护数字孪生。区块链是一个分布式的单链,信息存储在加密块内。在将新记录添加到链之前,由对等网络验证每个新块的有效性(例如,创建新的数字孪生)。一些著作建议使用区块链系统来保护元宇宙中的数字孪生。在[694]中,作者提出了一个基于区块链的系统,以电子方式存储健康数据(例如,生物特征数据),数字孪生可以使用健康记录。正如我们在最近的应用中看到的那样,它们可以在数字生态系统中实现新形式的市场,如非替代代币(NFT)。后者允许数字孪生创造者通过使用区块链将其数字孪生作为独特资产出售。
2) 生物特征数据:元宇宙使用来自物理世界的数据(例如,用户的手部运动)来实现沉浸式用户。例如,连接到用户的不同传感器(例如,跟踪用户头部运动的陀螺仪)可以更真实地控制他们的化身。除了VR头戴式显示器外,手套和特殊套装等可穿戴设备还可以实现新的交互方式,在元宇宙中提供更逼真和沉浸式的用户体验。这些设备可以允许用户使用手势(例如基于手套的手跟踪设备)控制他们的化身并呈现触觉反馈以显示更自然的交互。捕获此类生物特征信息的目标是整合这种混合模式(输入和输出),以在元宇宙中构建整体用户体验,包括化身与其他化身等数字资产的交互。
然而,所有这些生物特征数据可以提供更多身临其境的体验,同时为用户带来新的隐私威胁。此外,如前所述,数字孪生使用真实世界数据,例如用户的生物特征数据(例如,健康监测和体育活动)来模拟元宇宙中更真实的数字资产。因此,需要在数字孪生和其他设备(例如跟踪用户移动的可穿戴设备)仍可访问的情况下保护此类信息免受攻击。
随着互联网、Web技术和XR的进步,元宇宙的概念在技术上变得可行。最终的成功将取决于用户愿意接受它的可能性,这进一步取决于在发生意外后果时感知到的信任和责任。
苏格拉底不想让他的话成为无父之辈,被抄写到平板电脑上或书籍上,在没有作者的情况下流通,超越讨论、提问、修订和认证的范围。因此,他在雅典街头与其他人交谈和预言,但他什么也没写,什么也没发表。苏格拉底所指出的问题在循环“新闻”、公共关系、全球八卦和互联网连接的时代是尖锐的。如何区分谣言与报道、事实与虚构、可靠来源与虚假信息、信任说谎者与骗子?这些问题已经被证明是社交网络和智能技术普遍采用的限制因素,从世界许多地区的用户从不太可信的平台(即WhatsApp)迁移到更可信的平台上(即Signal)就可以明显看出这一点。出于同样的原因,为了使XR、社交网络和互联网的融合真正演变为元宇宙,最重要的挑战之一是建立一个可验证的信任机制。元宇宙也有可能解决许多社会问题,比如孤独。例如,由于新冠肺炎大流行或城市地区老年人的生活方式,老年人因身体状况或长途旅行而被迫取消活动。然而,老年人几乎最容易受网络诈骗/欺诈,这使得提出信任机制的解决方案非常必要。
就像在元宇宙宇宙中一样,用户可能会在沉浸式环境中花费更多的时间进行旅行,而且他们会将自己的行为暴露给其他(未知)方,从而使自己变得脆弱。这可能是另一个限制因素。一些人试图通过利用“存在”的概念来解决这一问题,即,给用户“位置错觉”,定义为存在的感觉,“似然存在”定义为沉浸式环境中发生的事件实际上正在发生的感觉。然而,这种方法在大规模上的有效性还有待观察。
建立信任的另一个方向可以是从情境感知的角度出发。对自动化信任的研究表明,通过情境感知显示深入了解自动化如何运作可以提高信任。XR可以使用相同的方法,在沉浸状态下以不显眼的方式向用户的视图证明这些信息。
可靠性也被认为是信任的一个重要方面。用户应该能够依靠XR技术以他们期望的方式处理数据。可信计算的最新进展为移动设备中基于硬件/密码的可信执行环境(TEE)铺平了道路。这些TEE提供安全和隔离的代码执行和数据处理(加密密封存储器/存储),以及远程认证(配置断言)。对用户数据的关键操作可以通过TEE完成。然而,该技术尚未完全开发出来,可以在XR设备中部署,同时确保实时体验。
另一方面,人们也越来越担心过度信任。用户倾向于过于轻易地信任大品牌的产品,这是正确的,因为人类用户经常依赖信誉作为主要指标来决定是否信任给定品牌的产品/服务。然而,在当前数据驱动的经济中,用户信息是一种商品,据报道,即使是大品牌也会采取旨在尽可能多地了解用户的做法,即谷歌将用户的电子邮件提供给第三方。这种担忧在XR中非常严重,因为XR体现了人类的交互,第三方对它们的滥用会给用户造成严重的生理创伤。IEEE自主和智能系统伦理全球倡议建议,在进入任何虚拟领域时,应向用户提供一个关于如何快速退出虚拟体验的“热键”教程,以及关于任何环境中算法跟踪和调解性质的信息。技术设计师、标准化机构和监管机构也需要考虑解决这些问题,以获得整体解决方案。
在元宇宙系统中,大量潜在的敏感信息可能会离开所有者的控制范围。在面对面交流的物理世界中,我们信任他人,因为我们可以检查他人提供的信息和承诺,同样,我们需要开发知情同意机制,允许化身(即用户的虚拟化身)信任他人。这种同意机制应允许根据可核查的信息给予或拒绝同意。然而,这些挑战来自这样一个事实,即化身可能无法实时捕捉用户面部表情的动态,这是信任面对面的交流的重要线索。
元宇宙需要解决的另一个挑战是如何处理未成年人的敏感信息,因为未成年人在越来越复杂和精通科技的XR用户中占了很大比例。传统上,他们对数据处理过程中涉及的风险知之甚少。从实际角度来看,通常很难确定用户是否是儿童,例如,是否得到了有效的父母同意。元宇宙中的服务提供者应相应地定期审查他们为保护儿童数据而采取的步骤,并考虑他们是否能够实施更有效的核查机制,而不是依赖简单的同意机制。开发元宇宙的同意机制可以使用法律机构发布的一般建议,例如英国信息专员办公室发布的《适龄设计规范》。
为老年人用户设计同意机制也需要额外考虑。弱势群体是指其成员不仅更容易受到侵犯隐私行为的影响,而且其安全和福祉受到此类侵犯行为的严重影响,而且可能因其生理/心理障碍、种族、性别或性别以及阶级而受到歧视。同意机制不应强迫这些用户提供敏感信息,一旦披露可能会进一步伤害用户。
尽管已经建立了知情同意机制,但它可能并不总是导致向用户提交知情选择表格。同意书包含技术和法律术语,通常会在许多页面上传播,用户很少阅读。通常,用户使用默认权限设置访问网站内容。另一种方法是依靠数据驱动的同意机制,该机制了解用户的隐私偏好,相应地更改数据收集的权限设置,并考虑到用户的隐私喜好可能会随时间变化。
问责制可能是实现元宇宙生态系统全部潜力的主要关键之一。尽管技术进步使无处不在/普适计算成为现实,但除非人们能够适应并接受这些技术,否则许多潜在的好处将无法实现,如图33所示。问责制对于信任至关重要,因为它涉及到与构建、部署、管理和使用XR系统和服务相关的责任、激励和追索手段。
传统社交媒体中经常使用详细说明平台和服务将如何对待用户生成的内容的内容审核政策,以要求用户对其生成的内容负责。如第十二节所述,在元宇宙宇宙中,用户很可能通过他们的化身相互交流,这在一定程度上已经模糊了用户的身份。此外,多模态机器学习的最新进展可用于机器生成的3D化身。元宇宙内容审核首先需要区分给定的化身在哪里体现了人类用户,或者仅仅是一个自动巨魔,因为人类用户有权享有言论自由,除非出现暴力/极端主义内容、仇恨言论或其他非法内容。近年来,一个受欢迎的问答网站Quora的内容适度性受到了主要来自美国的用户的强烈反对,因为美国用户已经习惯了绝对意义上的言论自由,并期望在网络世界也一样。一个可能的解决方案可以是利用宪法赋予特定位置的用户的权利来设计该位置的内容审核。然而,在网络世界中,用户经常跨越物理边界,因此,宪法权利作为设计内容适度性的标准也具有挑战性。
元宇宙中的另一个问责方面来自用户数据的处理方式,因为XR设备固有地比传统智能设备收集更敏感的信息,比如用户的位置和周围环境。像GDPR这样的隐私保护法规依赖于用户的同意和“被遗忘的权利”来解决这个问题。但是,通常情况下,用户并没有完全意识到潜在的风险,并在一些意外的后果已经发生之后调用他们的“被遗忘的权利”。为了解决这个问题,元宇宙宇宙应该提倡数据最小化原则,即只收集基本功能所需的最少用户数据,以及零知识原则,即系统只在需要时保留用户数据。另一个值得探索的方向是利用区块链技术来操作数据处理管道,该管道始终遵循已经同意的固定策略集。用户可以随时跟踪其数据,即跟踪决策来源。
在传统IT系统中,审计经常被用作确保数据控制者对其利益相关者负责的一种方式。审计师通常是经过认证的第三方,与数据控制人没有利益冲突。理论上,审计也可以用于元宇宙。然而,它面临着如何审计从用户数据中创建的二级数据的挑战,但很难确定给定二级数据与确切的一级数据之间的关系,因此,审计师很难核实后来撤回同意的用户的意愿是否得到了尊重。当前的数据保护法规(如GDPR)明确关注个人可识别数据,并没有明确规定次要数据。这个问题还与元宇宙中的数据所有权有关,这一问题仍在争论中。
除了数据收集,元宇宙的风险更高,因为意外后果不仅会造成心理伤害,还会造成身体伤害。例如,用户的XR移动耳机投射的数字覆盖物可能包含关键信息,例如人孔或前方视野,这可能会导致危及生命的事故。监管机构仍在讨论如何为因机器夺走用户全部注意力而引发的事故设立责任。2018年,亚利桑那州一辆无人驾驶的优步车撞死了一名行人。如果操作员全神贯注于驾驶,事故本可以避免。然而,要求人们时刻全神贯注也削弱了这些辅助技术的作用。监管机构将需要考虑元宇宙中更广泛的背景,以决定此类场景中的责任是否属于用户、设备制造商或任何其他第三方。
自从桌面计算机上的只读在线内容时代以来,我们已经取得了长足的进步。虚拟环境和物理环境之间的界限比以往任何时候都更加模糊。因此,我们目前正处于最重要的数字转型浪潮中,新兴技术的出现可以完美地将物理和数字孪生结合在一起,最终实现以沉浸式和虚拟环境为特征的互联网。
如第一节所述,向物理和虚拟一体化的过渡包括三个阶段:数字孪生、数字本地人和元宇宙。因此,我们与元宇宙的沉浸式未来需要技术开发和生态系统的建立。元宇宙应该拥有永久的、共享的、并发的和3D的虚拟空间,这些虚拟空间连接到感知的虚拟宇宙中。我们预计,无休止的永久虚拟物理合并网络空间将容纳无限数量的用户,不仅是地球上的用户,而且最终生活在其他星球(如月球和火星)上的移民,将发展行星间旅行和通信。因此,技术推动者及其技术要求的要求前所未有。元宇宙还强调了虚拟世界的集合以及人类用户将在其中大量花费时间的集体虚拟环境中的严格活动。因此,元空间将形成一套完整的经济和社会体系,形成新的货币市场、资本市场、商品市场、文化、规范、法规和其他社会因素。
图34展示了未来十年建设和升级网络空间以迈向元宇宙的愿景。值得一提的是,本调查中确定的14个重点领域相互关联,例如[455]在其应用程序设计中利用了物联网、CV、Edge、网络、XR和用户交互。研究人员和从业者应该从整体的角度看待所有领域。例如,元宇宙需要将虚拟世界与现实世界结合起来,甚至虚拟世界也比现实世界更真实。它必须依靠XR驱动的沉浸式技术与一种或多种技术集成,例如边缘和云(例如,超现实主义和零延迟的大规模虚拟环境)、化身和用户交互(例如,与XR无缝的运动捕捉和手势识别),用于MR和元宇宙之间场景理解的人工智能和计算机视觉,以及创建大规模数字孪生,Edge和AI(Edge AI)一起用于元宇宙中保护隐私的AI应用,仅举几个例子。
在本节的剩余部分中,我们将重点介绍八种重点技术的高级需求,以实现元宇宙。因此,我们指出了可能导致元宇宙长期成功的六个生态系统方面。
扩展现实。元宇宙从概念走向现实,VR/AR/MR是必要的中间阶段。在某种程度上,虚拟环境是元宇宙的技术基础。元宇宙是一个共享的虚拟空间,允许个人在数字环境中相互交流。用户作为具体的虚拟图像存在于这样一个空间中,就像生活在一个与现实世界平行的世界中一样。这种沉浸式技术将塑造沉浸式互联网的新形式。VR将允许用户在虚拟网络世界中获得更真实、更具体的体验,使虚拟世界的操作更接近现实世界。同时,AR/MR可以改变物理世界。因此,我们物质世界的未来与元宇宙更紧密地结合在一起。
当数字实体从单一虚拟(VR)环境转移到物理(MR)环境时,更多的设计和技术考虑应该解决这些场景。理想情况下,MR和元宇宙提倡虚拟实体与物理世界的完全整合。因此,与我们的物理环境相融合的超现实虚拟实体将随时随地通过大型显示器、移动耳机或全息图呈现。拥有数字实体的元宇宙用户可以与现实对象进行交互和交互操作。因此,XR作为一个窗口,让用户能够访问各种技术,如人工智能、计算机视觉、物联网传感器和其他五种重点技术,如下所述。
用户交互。用于用户交互的移动技术使用户能够通过XR镜头与数字覆盖物交互。以身体为中心、微型化和精细化的方式设计移动技术可以实现隐形计算界面,让用户与元宇宙中的虚拟环境进行无处不在的交互。此外,多模式反馈提示,尤其是移动技术上的触觉反馈,允许用户通过元宇宙以改善的存在感和真实感来感知虚拟实体,并与物联网设备和服务机器人协作。
另一方面,虚拟环境(VR/AR/MR)丰富而复杂,只能给人一种部分感官的超现实体验,但无法实现所有感官的共享和互动。因此,脑机接口(BCI)技术脱颖而出。脑-机接口技术是指在人脑和其他电子设备之间建立一个直接的信号通道,从而绕过语言和肢体与电子设备进行交互。由于所有人类感官最终都是通过向大脑传输信号而形成的,如果使用大脑-计算机接口技术,原则上,它将能够通过刺激大脑的相应区域来完全模拟所有感官体验。与现有的VR/AR耳机相比,直接连接到人类大脑皮层的脑-机接口(例如Neuralink)更有可能成为未来元宇宙时代玩家与虚拟世界互动的最佳设备。
物联网和机器人。物联网设备、自动车辆和机器人利用XR系统可视化其操作,并邀请人类用户共同参与数据管理以及决策。因此,以舒适且易于查看的方式呈现数据流是与物联网和机器人互动的必要条件。同时,XR接口的适当设计将从根本上作为一种媒介,使人能够在回路中做出决策。据我们所知,沉浸式和虚拟环境的以用户为中心的设计,如各种机器人的用户界面设计空间、物联网和机器人的暗模式、新机器人系统的精细控制等,都处于起步阶段。因此,更多的研究可以致力于促进元宇宙驱动的物联网和机器人交互。
人工智能人工智能的应用,特别是深度学习,在元宇宙中的操作员和设计者的自动化方面取得了巨大进展,并比传统方法获得了更高的性能。然而,缺乏应用人工智能来方便用户操作和改善沉浸式体验。现有的人工智能模型通常非常复杂,需要大量的计算能力,这对资源受限的移动设备是不友好的。因此,设计轻便但高效的人工智能模型是必要的。
区块链。区块链采用工作证明作为共识机制,要求参与者在拼图上花费精力,以确保数据安全。然而,加密数据的验证过程不如传统方法快。因此,加快数据访问速度和可扩展性的工作证明是一个需要解决的挑战。此外,在公共区块链中,他们的数据可供所有用户使用,这可能会导致隐私问题。因此,可以在公共区块链中研究隐私保护机制。
计算机视觉。计算机视觉允许计算设备理解用户活动及其周围环境的视觉信息。为了在元宇宙中构建更可靠、更准确的3D虚拟世界,计算机视觉算法需要解决以下挑战。首先,在元宇宙中,交互系统需要理解更复杂的环境,特别是虚拟对象和物理世界的集成。因此,我们期望在元宇宙中很快使用更精确、计算更有效的空间和场景理解算法。
此外,由于元宇宙与物理世界和人紧密相连,因此需要更可靠和高效的身体和姿势跟踪算法。最后,在元宇宙中,颜色校正、纹理恢复、模糊估计和超分辨率也在确保真实的3D环境和与人类化身的正确交互方面发挥着重要作用。然而,值得探索更具适应性、更有效的恢复方法,以处理真实内容和虚拟内容之间的差距以及与元宇宙中化身的相关性。
边缘和云。移动用户(无线连接)的最后一英里延迟仍然是Wi-Fi和蜂窝网络的主要延迟瓶颈,因此边缘服务的进一步延迟降低取决于最后一英里传输的改进,例如5G承诺的1毫秒,以实现与元宇宙的无缝用户体验。
此外,MEC涉及多方,如供应商、服务提供商和第三方。因此,多个对手可能能够访问MEC数据并窃取或篡改敏感信息。关于安全性,在不同层的分布式边缘环境中,即使是一小部分受损的边缘设备也可能会对整个边缘生态系统以及元宇宙服务造成有害后果,例如,联邦学习中的特征推断攻击会损害其中一个客户端。
网络与网络本身相关的主要挑战与移动网络的典型性能指标密切相关,即延迟和吞吐量以及抖动,这对于确保流畅的用户体验至关重要。用户移动性和体现感测将进一步使这项任务复杂化。与传统的分层网络方法相反,层之间的通信很少,要满足元宇宙中用户体验的严格要求,需要层之间的双向通信。5G及其后继者将使gNB能够将网络测量值传送到连接的用户设备,该网络测量值可以被转发到应用程序的整个协议栈以适应内容的传输。类似地,发生拥塞控制的传输层可以向应用层发出拥塞信号。在接收到此类信息后,应用程序可以减少要传输的数据量,以满足吞吐量、带宽和延迟要求。类似地,应用层的QoE测量可以转发到较低层,以适应内容的传输并改善用户体验。
替身化身是我们在元宇宙中的数字代表。用户将依靠化身在虚拟环境中表达自己。尽管现有技术可以捕捉我们的外表特征并自动生成化身,但使用移动传感器对化身进行无处不在的实时控制,仍然无法在元宇宙中移动我们的化身。需要额外的研究工作来增强化身的微表达和非语言表达。此外,目前在理解化身的设计空间、其对用户感知的影响(例如,超现实主义和交替的身体所有权)以及化身如何与多样化的智能设备(物联网、智能车辆、机器人)交互方面存在的差距,应进一步解决。化身设计也可以比人类化身走得更远。我们应该考虑以下情况(图35):要么人类用户在元宇宙中使用他们的宠物作为化身,要么人类用户和他们的宠物(或其他动物)在元宇宙共存,从而一起享受他们的元宇宙之旅。
同时,化身的伦理设计及其在网络空间中的相应行为/表现也将是一个复杂的问题。元宇宙可能会为传播攻击性信息(例如种族)创造一个灰色地带,并可能引发辩论,引发对我们身份的新视角。化身在元宇宙中创造了自己的新身份,潜在地引发了争论,并引发了对人类生活的新思考。也就是说,元宇宙中人类的数字克隆将永远存在。因此,即使现实中的肉体被消灭,你在数字世界中仍将继续生活在元宇宙中,保留你的个性、行为逻辑,甚至是现实世界中的记忆。如果是这样的话,元宇宙化身会带来数字自我的技术和设计问题以及伦理问题。长效化身是否能够履行人权和义务?它能继承我的财产吗?在现实世界中,它还是我孩子的父亲和妻子的丈夫吗?
内容创建。内容创作不应局限于专业设计师——这是元宇宙中每个人的权利。考虑各种共同设计过程,例如参与式设计,将鼓励元宇宙中的所有利益相关者共同创造数字世界。调查动机和激励因素将使参与式设计能够推动元宇宙中内容创作的进展。更重要的是,审查制度的自动和分散化治理的设计和实施是未知的。此外,我们还应考虑建立具有文化多样性、跨代内容和保留淘汰内容(即数字遗产)的创造者文化。
虚拟经济。当涉及到元宇宙的货币时,不确定性围绕着加密货币作为货币的可信程度,以及为虚拟世界量身定制加密货币所需的创新。此外,由于虚拟世界用户也将是现实世界的居民,这对孪生的虚拟经济和现实经济将不可避免地交织在一起,不应被视为两个相互排斥的实体。因此,在研究虚拟经济对元宇宙生态系统的真正意义时,应该采用整体的观点。
整体考虑的领域包括个体代理人在虚拟和现实世界中的消费行为,以及这两个世界中的总经济活动如何相互影响。此外,一个与现实世界高度相似的虚拟世界可能被用作一个虚拟评估沙盒,在我们在现实生活中实施新的经济政策之前对其进行测试。因此,为了利用这一优点,我们需要一种转换机制,以最佳方式建立以计算机为中介的沙盒,以正确模拟现实,准确地表示经济主体的激励。
社会可接受性。社会可接受性是元宇宙用户行为的反映,代表了对行动和政策的集体判断和意见。社会可接受性的因素,如隐私威胁、用户多样性、公平性和用户成瘾,将决定元宇宙的可持续性。此外,由于元宇宙将影响物理世界和虚拟世界,因此应在这两个世界中实施互补的规则和规范。
另一方面,我们假设社会可接受性的现有因素可以应用于元宇宙。然而,将这些因素与巨大的元宇宙网络空间进行人工匹配将是繁琐的,而且负担不起。而且逐案审查这些因素也很繁琐。自动采用规则和规范,随后进行具有社会可接受性的评估,以了解集体意见,将依赖于元宇宙中的许多自主主体。因此,在元宇宙中大规模设计这样的代理成为一个紧迫的问题。
更重要的是,随着元宇宙将融入我们生活的各个方面,每个人都将受到这个新兴网络空间的影响。设计打击网络犯罪和报告滥用的战略和技术对于提高巨大的网络空间的社会可接受性至关重要。
安全和隐私。至于安全性,高度数字化的物理世界将要求用户在访问元宇宙中的某些应用程序和服务以及XR介导的物联网和机械化的日常对象时经常验证其身份。此外,保护数字资产是大规模保护元宇宙文明的关键。在这种情况下,为频繁的元宇宙应用程序请求文本密码将是简化具有无数对象的身份验证的一个巨大障碍。安全研究人员将考虑新的机制,使应用程序能够通过其他方式进行认证,例如生物特征认证,该认证由肌肉运动、身体姿势、眼神等驱动。因此,我们的数字化旅程可以在各种物理环境下进行无缝认证,就像打开门一样方便。然而,这样的认证系统在许多方面仍然需要改进,特别是安全级别、检测精度和速度以及设备的可接受性。
另一方面,元宇宙中将保留无数用户活动和用户交互痕迹的记录。因此,累积的记录和痕迹将导致长期的隐私泄露。现有的2D UI访问每个网站的同意书会让用户不知所措。拥有虚拟3D世界的用户负担不起如此频繁和重复的同意书。相反,有必要设计保护隐私的机器学习,以自动识别元宇宙中动态但多样化的上下文的用户隐私偏好。
在保护用户免受数字拷贝侵害时,我们的数字资产(如化身和数字孪生)的创建和管理也会面临巨大挑战。可以创建这些副本来修改用户在元宇宙中的行为,例如与“深度伪造”共享更多的个人信息化身。
信任和责任。元宇宙,即XR和互联网的融合,扩展了个人数据的定义,包括XR数据管道中普遍存在的生物特征推断数据。单是隐私条例不能成为个人数据定义的基础,因为它们无法跟上创新的步伐。最大的挑战之一是设计一个有原则的框架,可以定义个人数据,同时跟上潜在的创新。
随着人类文明从过去走向未来,它已经照顾到了少数民族的权利,尽管做出了许多牺牲。这类似于万维网上的社会技术系统是如何演变的,其中一开始,规范规定了可接受或不可接受的行为,这些规范是由民主多数决定的。随着元宇宙生态系统的发展,它必须从一开始就考虑少数群体和弱势群体的权利,因为与传统的社会技术系统不同,潜在的虐待将产生更为灾难性的后果,即受害者可能会感觉到被虐待,就像他们在现实世界中一样。
最后,苹果(Apple)和谷歌(Google)等科技巨头都有实现元宇宙的雄心勃勃的计划。随着新兴技术的参与以及生态系统的逐步发展和完善,我们的虚拟世界(或数字孪生)在未来几年将出现根本性的变化。现在,由于强大的计算设备和智能可穿戴设备的存在,我们的数字化未来将变得更加互动、更加生动、更加体现和更加多媒体。然而,在元宇宙融入物理世界和我们的日常生活之前,仍有许多挑战需要克服。
我们呼吁采用整体方法来构建元宇宙,因为我们认为元宇宙将作为与我们的物理现实平行的另一个巨大实体出现。通过调查各种技术和生态系统的最新作品,我们希望在元宇宙社区内提供更广泛的讨论。通过反思我们讨论的关键主题,我们确定了未来几十年塑造元宇宙未来的基本挑战和研究议程。