本文是对《Artificial Intelligence for the Metaverse: A Survey》的原文翻译,只针对文字部分,图表请参看原文。
随着互联网从20世纪90年代到现在的大规模发展,各种创新技术被创造出来,通过网络空间中更多的虚拟交互为用户带来令人惊叹的体验。从社交网络到虚拟游戏世界,许多拥有数千种服务和应用程序的虚拟环境都是通过身临其境的体验和数字转换开发的,但大多数都是不连贯的,而不是集成到一个平台中。在这种背景下,元宇宙(metaverse)这个由元和宇宙组合而成的术语被引入,作为一个共享的虚拟世界,由许多新兴技术推动,如第五代网络及其后的技术、虚拟现实和人工智能(AI)。在这些技术中,人工智能显示了处理大数据以增强沉浸式体验和实现虚拟代理的仿人智能的重要性。在这项调查中,我们作出了有益的努力,以探索人工智能在元宇宙的建立和发展中的作用。我们首先提供人工智能的初步知识,包括机器学习算法和深度学习架构,以及它在元宇宙中的作用。然后,我们对基于人工智能的方法进行了全面调查,涉及六个具有元宇宙潜力的技术方面:自然语言处理、机器视觉、区块链、网络、数字孪生和神经接口,以及元宇宙潜力。随后,研究了几个人工智能辅助应用程序,如医疗保健、制造业、智慧城市和游戏,以部署在虚拟世界中。最后,我们总结了本次调查的主要贡献,并为元宇宙的人工智能开辟了一些未来的研究方向。
自2021年10月马克·扎克伯格(Mark Zuckerberg)宣布将脸书更名为Meta以来,关于这个新名字的奇妙概念已经成为社交媒体上的一个热门趋势,受到了包括学术界和工业界在内的各个社区的巨大关注和更多讨论。除了Meta之外,一些大型科技公司也有一些元宇宙投资和开发活动,例如微软以687亿美元收购了视频游戏控股公司Activision Blizzard,作为游戏扩展到元宇宙的交易。最近,Metaverse Group,一家元宇宙房地产投资公司,以惊人的价格以243万美元在一个名为Decentraland的分散式虚拟现实平台上购买了一块土地,创下了虚拟房地产有史以来的最高价格。一位著名的说唱歌手以45万美元的价格在沙盒元宇宙中购买了一块土地,他叫史努普·道格,在这里,这位说唱歌手可以举办音乐节和音乐会等虚拟活动,通过虚拟现实技术为参与虚拟世界的观众带来身临其境的体验。在不久的将来,元宇宙将成为下一个大技术,目前正在吸引在线游戏制造商、互联网金融企业、社交网络和其他技术领导者。首尔市政府最近刚刚宣布了一项名为Metaverse Seoul的计划,该计划为文化、旅游、经济、教育和公民服务等所有市政管理领域创建了一个虚拟通信生态系统。除了提供不同的商业支持服务和设施外,Metaverse首尔还将为残疾人提供一些专业服务,以利用扩展现实(XR)技术享受安全和便利的内容。根据彭博资讯的分析,全球元宇宙收入机会将从2020年的5000亿美元增加到2024年的8000亿美元,其中网络游戏行业将占全球收入的一半。值得一提的是,视频游戏公司和工作室计划将现有的传统游戏升级为三维(3D)虚拟世界,将社交网络融入其中,在游戏之外还可以举办一些吸引人的活动,如现场娱乐和媒体广告活动。在图1中,虚拟现实(VR)硬件和游戏内广告的收入随着元宇宙中虚拟活动的推进而显著增加。
元宇宙并不是一个新概念,因为它已经随着互联网和其他技术的发展传播了几十年。图2描述了涉及许多主要事件的元宇宙开发的时间轴,从互联网的诞生和文献中的首次提及,到Second Life的第一个虚拟世界项目,以及微软和Facebook等大型科技公司最近的元宇宙项目。元宇宙是一个由Meta和Universe组合而成的术语,它可能在1992年的反乌托邦网络朋克小说《雪崩》中首次被提及,用来描述一个称为矩阵的虚拟现实世界。目前,元宇宙被定义为一个共享的虚拟3D世界,甚至是多个跨平台的世界,它可以为用户提供交互式和协作活动的全面沉浸式体验。除了固定在虚拟世界中的虚拟地点和结构外,许多其他实体,例如物体、用户身份和数字商品,可以在不同的虚拟世界之间交换,甚至可以反映到现实世界中。近几年来,元宇宙出现了前所未有的爆炸,主要来源于3D游戏,这得益于硬件(如大数据存储基础设施、无线通信网络、内置传感器和图形处理单元GPU)的改进和软件(如通信的资源分配、语言处理和计算机视觉中)的优化,以更扎实和创造性地构建虚拟世界。与传统的元宇宙模式不同,传统元宇宙模式由于数据不足而限制了沉浸式体验,新的元宇宙不仅为企业(用户可以自由制作创造性内容)生成了大量新的用户和行为数据源,而且为将人工智能(AI)部署到各个领域提供了充足的基础,例如自然语言处理,计算机视觉和神经接口。此外,为现代元宇宙构建的标准平台应满足以下特征:虚拟世界、持久性、可扩展性、始终保持同步性、财政补贴、分散化、安全性和互操作性。在[4]中,元宇宙平台可以包括多个层(见图3),其表示如下:
通过机器学习(ML)算法和深度学习(DL)体系结构,以及它们在许多不同方面的重要性,不难发现AI内部层的存在。例如,许多具有监督和非监督学习的ML算法被应用于语音识别和其他语言处理任务的分类和回归模型中,使系统代理能够理解用户命令。通过多个设备(如移动设备、智能手表和其他可穿戴设备)收集的基于传感器的信号的输入数据,可以分析和学习复杂的人类行为模式,用于一些应用程序,如物理活动识别,允许系统感知虚拟世界中的用户活动和交互。最近,DL已成为一种强大的人工智能工具,用于处理从大量混乱的数据中理解复杂模式的实际问题。随着DL在计算机视觉领域取得的巨大成功,DL现在正被用于不同的领域,如无线通信、人机交互、游戏和金融。几年前,NVIDIA推出了DL超级采样(DLSS),这是一项突破性的技术,它利用DL和其他AI算法的强大功能来提高帧速率,同时保持游戏中美丽而清晰的图像,因此有潜力改善元宇宙中的视觉体验。AI还通过反复训练有监督的学习模型来提高多个在线多人游戏的游戏平衡,直到让设计师和游戏测试人员满意为止。为了进入3D设计模拟和协作的新时代,在元宇宙中创建一个令人印象深刻的虚拟现实世界,与现实世界一样丰富,NVIDIA引入了Omniverse,这是一个开放和可扩展的平台,具有许多宝贵的功能,包括物理精确模拟、多用户设计协作、真实感和实时渲染以及AI加速工作流。
元宇宙平台是通过融合多种先进技术而构建的,为用户带来了完全3D的身临其境的体验,用户可以在虚拟世界中与他人进行真正的交互和协作。在区块链、XR/VR和5G等技术中,人工智能在元宇宙的建立和发展中起着无声但重要的作用。然而,对人工智能如何在技术和应用方面影响和贡献元宇宙的理解是不确定的,尤其是在这样的背景下,它既没有像XR/VR那样以花哨的方式被提及,也没有像区块链那样在社交媒体上被热烈讨论。目前还没有任何工作对人工智能在元宇宙中的作用和使用进行全面回顾。
在本文中,我们从技术和应用的角度对现有的基于人工智能的作品进行了全面的综述,并进一步讨论了它们在元宇宙中的潜力。简而言之,本文的主要贡献概括如下。
本文的其余部分安排如下。第二节介绍了区块链、元宇宙的基本原理以及区块链在元宇宙中的作用。第三节研究了人工智能在技术方面的应用,如自然语言处理、机器视觉、区块链、网络、DT和神经接口,除了电子商务、人力资源、房地产和分散金融等其他小领域之外。第五节介绍了一些值得注意的元宇宙项目。最后,我们在第六节总结了本文,并指出了元宇宙发展的一些未来研究方向。
本节简要介绍了广泛的人工智能,从传统的ML算法到包含不同学习机制的高级DL网络,然后阐述了人工智能在元宇宙中的作用。
这一部分回顾了一些可能用于元宇宙的常见AI/ML算法。从根本上讲,现有的大多数AI/ML算法可以分为两个部分:传统技术和高级技术,它们针对三个主要问题进行研究:聚类、分类和回归。
1) 传统技术:传统AI/ML算法可以根据学习模型可用的数据类型进行分组:监督学习、无监督学习、半监督学习和强化学习。
监督学习:这种学习方法的ML算法通过使用标记数据的映射函数学习输入和输出之间的关系。训练数据集中的每个输入样本都标有答案(又名标签),这使得训练模型能够对未预见的输入样本进行分类或预测结果。监督学习算法通常用于处理分类问题(将测试集中的样本分配到离散类中)和回归问题(表示连续数据中因变量和自变量之间的关系)。一些常规的监督学习算法是决策树、随机森林、朴素贝叶斯、k近邻和支持向量机(SVM)。
无监督学习:无监督学习涉及使用AI/ML算法进行未标记数据分析和聚类。这些算法不能直接应用于分类和回归问题,但它们能够建模隐藏模式并找出数据组,而无需人工干预。无监督学习算法(例如,分层聚类、k-means聚类、主成分分析和关联规则)可用于数据挖掘的一些常见任务,如聚类、关联和降维。
半监督学习:引入半监督学习是为了部分克服监督学习(例如科学家和ML工程师标记数据的高昂成本)和非监督学习(如应用范围的限制)的缺点。在半监督学习中,人工智能模型是根据标记数据和未标记数据的组合进行训练的。此类学习的基本程序包括两个步骤:使用无监督学习算法对相似数据进行聚类,然后使用现有的标记数据对剩余的未标记数据进行标记。半监督学习的一些著名算法包括基于图的模型、生成模型、增强和自训练。
强化学习:强化学习(RL)是一组用于做出决策序列的ML算法,其中代理学习在不确定和复杂的环境中实现目标。人工智能机器应该经过反复试验,才能为类似游戏的场景找到近乎最佳的解决方案。RL模型的目标是如何执行任务,以最大化奖励和最小化惩罚,从完全随机试验开始,以复杂的战术和超人技能结束。通过多次试验利用搜索方案的威力,RL是暗示机器创造力的最有效方法之一。
2) 高级技术:DL是AI和ML的一个子集,它开发多层人工神经网络,以在许多分类和回归任务中达到最先进的精度,已被用于多个领域的各种应用。与传统的ML技术不同,DL可以自动学习非结构化数据的底层特征,而无需人工干预或人工领域知识。DL的高度灵活的体系结构允许学习系统直接处理原始数据,并在提供足够的数据时提高学习性能。在这里,我们发现了一些著名的深层结构,包括递归神经网络(RNN)、卷积神经网络(CNN)、自组织映射(SOM)和自编码器。
循环神经网络:RNN是一种基本的神经网络结构,从中可以发展出各种深层结构,如长短期记忆(LSTM)和门控循环单元(GRU)网络,并对其结构进行了一些改进。除了常规多层网络中的前馈连接外,RNN还有一些与前几层相关联的反馈连接。反馈连接导出的计算流允许RNN及时维护过去输入和过程模型的记忆。RNN可以及时展开并使用反向传播机制进行训练。
卷积神经网络作为最成功的深度网络架构之一,CNN利用线性代数原理(尤其是矩阵乘法)从高维非结构化数据中识别复杂模式。早期层在常规CNN中从粗略到精细地计算特征,而后期层将这些特征重新组合为更高级别的表示。CNN与其他深层网络体系结构的区别在于其在不同数据类型(包括图像、视频、音频信号和通信信号)方面的卓越性能。CNN有三个主要层:用于特征提取的卷积层、用于降维的池化层和用于分类的全连接层。引入了几种标准体系结构来解决计算机视觉领域中的各种挑战性任务:AlexNet、VGG、GoogleNet、ResNet、DenseNet、Inception和EfficientNet。
自组织映射:SOM是一种无监督的神经网络,通过降低其维数来查找输入数据点簇。在常见的SOM体系结构中,权重是节点的一个特征。在开始时,输入被规范化,然后随机选择为网络输入。接近零的随机权重与表示输入节点的输入记录的每个特征相关联。具有最小欧氏距离的节点(每个输出节点和输入节点之间)被认为是最准确的输入表示,并表示为最佳匹配单元(BMU)。通过将这些BMU建立为质心,其他单位将以类似方式计算并分配给最短距离簇。
自编码器:自编码器是一种特殊类型的神经网络,它通过压缩和解压缩功能进行训练,以将其输入映射到输出。在自编码器网络中,使用编码函数将输入层编码到隐藏层进行压缩,其中隐藏节点的数量远小于输入节点的数量。因此,这个隐藏层包含原始输入的压缩表示。输出层旨在重建解码功能以解压缩输入信息。训练阶段的输入和重构输出之间的差值使用误差函数计算。由于自编码器可以通过反向传播持续学习,因此通常用于自监督学习任务。
通过将人工智能与其他技术(如AR/VR、区块链和网络)相结合,元宇宙可以在一个可靠的平台上创建安全、可扩展和真实的虚拟世界。根据七层元宇宙平台,到目前为止,毫无疑问,AI在保证基础设施可靠性和提高其性能方面发挥着重要作用。在5G和未来的6G系统中,许多具有监督学习和强化学习的先进ML算法已被用于不同的挑战性任务,例如高效频谱监测、自动资源分配、信道估计、流量卸载、攻击预防和网络故障检测。利用基于传感器的可穿戴设备和其他人机交互设备,可以基于学习ML和DL模型分析和识别简单的人体运动和复杂的动作。因此,用户在现实世界中的移动被投射到虚拟世界中,从而允许用户完全控制其化身,以便与元宇宙中的其他对象轻松交互。此外,除了语音识别和情感分析之外,这些化身还可以参与现实世界中采用的许多模式,例如面部表情、情绪、身体运动和身体互动,这些模式在准确性和处理速度方面由人工智能提供支持。
尽管XR/VR在某种程度上代表了一个具有沉浸式设备(如头戴式显示器)的元宇宙的外观,但人工智能是一项关键技术,它在幕后工作,以构建一个创造性和美丽的世界,从而为用户带来无缝虚拟现实体验。人工智能可以促进内容创建过程,例如,NVIDIA推出的一些人工智能模块,如GANverse3D,使开发人员和创作者能够拍摄对象的照片,然后制作虚拟副本。已经提出了几种基于DL的方法来渲染3D对象(包括人体部位),它们可以达到令人印象深刻的精度,同时显示由软件(例如,Facebook AI的PyTorch3D库和NVIDIA的TensorRT)和硬件(例如,GPU)加速的实时处理。Meta最近推出了AI研究超级集群(RSC),被认为是世界级最快的人工智能超级计算机之一,它将加速人工智能研究并用于构建超宇宙。此外,RSC可以帮助AI研究人员和科学家从海量数据(包括文本、语音、图像、视频)中为各种服务/应用开发更好的DL模型。因此,RSC的任何成就和成果都将用作构建元宇宙平台的结构,其中AI驱动的产品将具有相当重要的意义。
本节研究了六个技术方面最先进的基于人工智能的方法:自然语言处理、机器视觉、区块链、网络、DT和神经接口;如图4所示,这显示了元宇宙的潜力。因此,用户在元宇宙中的体验显著增强,虚拟世界和现实世界之间几乎没有边界。
自然语言处理(NLP),也称为计算语言学,包括各种计算模型和学习过程,以解决自动分析和理解人类语言(包括语音和文本)的实际问题。此外,NLP领域考虑了许多主题,如语音对文本、文本对语音、对话设计、语音品牌化以及语音中的多语言和多文化。此外,NLP在智能虚拟助手(又称聊天机器人)的元宇宙中扮演着重要角色。特别是,NLP主要负责使聊天机器人能够在不同方言和低音背景下理解复杂的人类对话。借助人工智能,聊天机器人可以回答细微的问题,并从互动中学习,以提高响应质量。AI聊天机器人的开发是为了帮助某些虚拟环境中的用户,如元宇宙。
作为NLP中最重要的任务之一,语言建模通过捕获前面单词和单元的句法和语义关系来预测单词或简单语言单元,这对于机器翻译和文本推荐非常有用。在[20]中,许多具有键值注意机制的神经网络都是在维基百科语料库数据集上构建和评估的,从而得出结论,具有注意机制的RNN和LSTM网络在减少使用内存的同时,可以优于大型网络。在[21]中,与具有同等大小的常规LSTM相比,具有残差连接的记忆网络被设计用于提高语言建模在测试复杂度方面的性能。最近的一些CNN被用来解决长句和短段中的长期依赖性,特别是对特定和复杂的单词模式有效。一些深层网络设计了高级模块和连接结构,以提高语言建模效率,例如门连接和双向结构。除了单词感知语言模型外,还引入了许多字符感知模型和人工智能算法,以处理世界上各种各样的语言。CNN和LSTM架构均用于分析作为输入的字符的单词表示。一些模型在英语、德语、西班牙语、法语和阿拉伯语的多个数据集上进行了评估,其中显示了识别前缀的有效性和后缀,识别连字符单词,并检测拼写错误的单词。一般来说,字符感知和单词感知建模技术允许自然语言理解系统为元宇宙中的一些常见任务提取句法和语义信息,例如语音部分标记、命名实体识别和语义角色标记。
DL被进一步开发以克服传统ML算法的学习限制,并有效地处理NLP中的许多挑战性任务。[29]中使用了一些具有示例和高级架构的CNN来处理多个基于句子的任务,例如情绪预测和问题类型分类。此外,情绪分析和识别任务可能需要提取方面和情绪极性的特征,这有可能提高元宇宙中虚拟助理单元的可靠性和灵活性。自然语言生成是聊天机器人的一项高级功能,用于生成合理的特定于任务的面向对话的文本。提出了一些单RNN/LSTM和混合LSTM-CNN模型,用于在图像字幕中生成短文本,在虚拟问答中生成长文本。除了监督学习外,一些特定的NLP任务(如文本解析、语义标记、上下文检索、语言解释和对话生成)也采用了无监督强化学习和深度模型。在元宇宙中,NLP技术应该结合起来,在人类用户和虚拟助手之间充分提供基于文本和基于演讲的交互体验。
机器视觉,包括计算机视觉和XR合作,是获得元宇宙基础的核心技术之一。从视觉环境(通过光学显示器和视频播放器)感知到的原始数据被捕获并处理,以推断高级信息,然后通过头戴式设备和其他设备(如智能眼镜和智能手机)向用户显示这些信息。事实上,计算机视觉允许XR设备根据基于视觉的有意义信息分析和理解用户活动。作为虚拟世界中的化身,用户可以在3D地图中自由移动,并与元宇宙中的虚拟对象交互。
1) 扩展现实:XR被定义为一个总括术语,它囊括了VR、AR、混合现实(MR)以及图5所示的它们之间的所有差距。尽管VR和AR提供了一些革命性的经验,但相同的原始技术正在推动MR的创新和发展。AR提供了图形、视频流,物理世界中的全息图和VR提供了完全沉浸式数字世界中的观看体验,MR可以提供AR和VR之间的过渡体验。与这些现实技术一起,人类用户可以体验元宇宙,并在物理和数字世界中享受多样化的服务。虽然XR和AI是不同的部门,但它们可以结合起来,完全沉浸在元宇宙中。
虽然传统的二维(2D)视频受到小视场(FoV)的限制,但360度视频可提供全方位的无限视点,适合VR性能。许多商用VR耳机旨在满足高级使用要求,如性能和舒适性,其中包括AI自驱动的多项任务。使用VR耳机,人类用户可以体验元宇宙中的各种服务和应用程序,并在虚拟世界中进一步创建超现实媒体内容。一些人工智能算法已应用于VR设备,以改善基于视觉信息的人机交互体验。为了在一些基于凝视的应用程序(如内容设计和渲染)中预测用户的注视,构建了一个包含多个CNN的DL框架,以处理各种输入数据,例如VR图像、凝视数据和头部数据。该模型有效地利用了眼睛注视与其他因素(如VR内容和耳机运动)之间的相关性。在[34]中,通过分析用户和VR设备(例如控制器和头戴式显示器)之间的周期性行为,将神经网络用于人类识别和认证。这项工作在提供有用信息和治疗建议方面的有效性在协作和游戏场景中得到了验证,并在其他场景中显示了一些适用的潜力,例如工作和购物。为了提高虚拟世界中用户的体验质量(QoE),提出了一种创新的人机界面方法,该方法通过在VR设备中加入摩擦电感觉手套和显示组件来识别手势的多维运动。因此,利用ML/DL算法识别的虚拟对象可以在实时VR/AR空间中操作。为了访问元宇宙中的内容并与数字世界中的虚拟对象进行交互,在具体应用、服务和基础设施方面,不仅要考虑AR耳机,还要考虑其他设备(例如摩擦电动手套、手持式触摸屏设备和桌面)。
为了满足该服务对VR设备的高分辨率视频观看体验的需求,有必要开发一种有效的视频质量评估方法,其中DL被视为获取定量和定性基准目标的有力工具。在[37]中,通过构建3D CNN架构,开发了一种用于VR质量评估的高性能方法,其中视频预测结果通过一些常见的图像质量评估指标进行验证,而无需视频参考。与执行手工特征提取和ML算法的基线相比,基于3D CNN的方法在VR视频质量评估和基准方面显示出优势。在[39]中,质量评估扩展到了2D和3D中心凹压缩视频,这使得VR系统能够有效地处理有限的数据传输带宽。[40]分析并揭示了当前视频质量评估方法的优点和局限性,这有助于为各种AR系统和多种视频内容设计有效的视频传输机制。在成为消费者和企业的下一主流的道路上,MR被定义为物理世界和数字世界的混合体,它在3D人、计算机和周围环境之间建立了自然和直观的交互。计算机视觉、图形处理、显示、遥感和人工智能技术的最新革命激活了这一新现实。与VR和AR相比,由于MR通过两种主要类型的设备提供混合的物理虚拟体验,MR在元宇宙中具有更大的潜力:带透视显示器的全息设备允许用户在佩戴时操纵物理对象,沉浸式设备允许用户与虚拟世界中的虚拟对象交互。未来,用于增强元宇宙中用户视觉交互体验的新设备应尽量减少全息设备和沉浸式设备在规格和实用性方面的差异。
2) 计算机视觉:在过去的几十年里,人工智能,特别是DL为计算机视觉提供了多种网络架构,通过高性能图形处理单元,以高效的成本提高了视觉系统的整体精度。一些基本的计算机视觉技术有可能增强人类用户在元宇宙中的体验,从而使物理世界中的用户能够顺利地与数字世界中的虚拟环境交互。
语义分割和目标检测是计算机视觉领域的两项基本任务,其中语义分割将图像中的每个像素分类为预定义的语义类之一,目标检测的目的是通过在标记中绘制具有目标信息的相应边界框来定位输入图像中的所有可能目标。早期的分割工作大多采用局部特征提取和跟踪,并与分类算法相结合,这在处理大型杂乱数据集时受到不可接受的分割性能的限制。最近,与传统方法相比,许多基于DL的方法通过利用不同的深层架构,在性能方面显示出了显著的改进。CNN在多尺度图像分辨率下提取深层视觉特征的强大能力已被用于设计高级分割模型,见[46]-[50]。例如,DeepLab在保持少量参数或较低计算成本的同时,通过扩大滤波器的接收域,利用atrous卷积来提高特征学习效率。由于在像素级学习分类模型,图像分割通常需要大量计算和大内存。为了克服这一挑战,我们在网络设计和学习技术方面进行了一些努力,如迁移学习。元宇宙中的虚拟环境通常由多种视觉单元构成(例如,单对象和多对象模块);因此,基于人工智能的目标检测必须处理大量复杂的类,包括真实和虚拟对象。最近的许多目标检测工作都利用了CNN架构,在准确性和处理速度方面取得了令人印象深刻的性能。基于DL的半监督和无监督学习模型被推荐用于处理训练数据集中看不见的类。通过结合先进的图像处理和深度传感算法,3D环境中物体检测的一些自然问题,如遮挡、光照变化和视点变化,已经得到了考虑。在这种情况下,深度估计可以提高三维虚拟世界中物体定位的精度,但需要更多的几何传感器来估计深度信息。
在虚拟世界中,应解决一些图像质量降低问题,如噪音、模糊和低分辨率,以丰富用户的视觉感知。从图像处理和计算机视觉的角度出发,研究了这些问题的两个任务:图像恢复和图像增强。在[61]中,提出了一种基于分解引导的多尺度CNN方法来去除单幅图像的模糊,该方法将深度残差结构和U-Net学习框架相结合,以改进分解后的图像分量(称为特征图),同时避免颜色失真。其他一些高级图像恢复工作利用CNN架构来减少图像压缩伪影,从缩小的和模糊的图像中恢复干净的图像,并重建丢失的细节。值得注意的是,干净的虚拟内容和真实显示的图像/视频在图像质量和视频规格方面的差异可能出现在VR设备中。这些差距可以通过AI授权的图像恢复方法有效填补,例如模糊估计、模糊消除、颜色校正和纹理重建,但计算复杂性应满足实时视频处理速度(通常以每秒帧数-FPS度量衡量),以保证超空间中的高级用户体验。XR图像增强已被广泛考虑,并具有一些常见任务,如对比度增量和超分辨率构建。过去,通过应用图像处理技术研究了许多传统的图像增强方法,例如直方图分析和图像分解。最近,通过利用ML算法,特别是具有CNN架构的DL算法,许多令人印象深刻的图像增强工作取得了显著的性能改进。例如,[72]中引入了卷积下采样和上采样网络,以提高图像的整体对比度,其中通过基于特征的融合方案组合RGB(红、绿和蓝)通道的深层特征,以获得跨通道对比度平衡。在[76]中,提出了一种具有轻量级结构的用于图像超分辨率的完整CNN,它可以学习输入低分辨率图像和输出高分辨率图像之间的端到端关系。与一些传统的基于稀疏编码的方法相比,该方法在图像质量和处理速度方面显示了优势。超分辨率可以成为一种经济高效的解决方案,允许服务提供商从低分辨率图像/视频源构建高分辨率虚拟世界。
在元宇宙中,游戏用户可以控制他们的化身(或虚拟角色),并与其他用户或非玩家角色(NPC)交互,其中化身的姿势和动作应在运动传感交互设备(如控制器、手套和相机)的支持下自动估计和识别。虽然人体姿势估计旨在识别身体部位(或骨骼的关键身体关节),然后在实时环境中跟踪它们,但动作识别允许系统理解单个动作和复杂的交互活动(例如,人机交互和人-人交互)。为了解决在杂乱环境中估计人体姿势的问题,[81]中研究了两种基于标准结构支持向量回归(SVR)和潜在结构SVR的判别模型,这两种模型能够提取结构相关性,作为姿态表示的局部特征之间的相关。为了提高身体部位定位的准确性并处理不同的视图,深度相机获取的深度信息以及高级ML和DL模型的颜色信息已经被学习。在这些工作中,除了解决计算机视觉中的一些挑战性问题,如物体遮挡,还设计了一些具有高级结构连接的CNN结构,如密集层连接、跳跃连接和通道注意连接,以精确估计骨骼关节。总之,人体姿势估计与动作识别密切相关,捕获的身体信息有助于通过模式识别模型识别动作。目前的许多研究都没有检测到可能暴露出高度混淆的瞬间姿势,而是在时间域跟踪身体运动,以进行长期观察,从而提高动作识别的准确性。例如,[85]-[87]中开发了一些生成性统计模型,通过捕获不同身体部位之间的时空几何特征来分析人体姿势的转变。值得注意的是,过去十年见证了使用DL进行基于视觉的动作识别的革命,以显著提高识别精度,并有效地处理众多现实的单个动作和分组活动。一些方法提出了具有先进CNN架构和混合CNN-RNN架构的创新网络,以提高动作辨别模型的学习效率。此外,手势识别、步态识别和眼睛跟踪被认为可以改善XR环境中的交互体验。
通常,区块链被定义为一个数字账本,其中包含通过使用加密技术在商业网络中互连的记录交易和跟踪资产的列表。区块链可以提供即时、共享和透明的信息,这些信息存储在一个不可变、不可穿透的账本中,只有经过许可的网络成员才能访问这些信息。典型的区块链网络可以跟踪订单、付款、账户和其他交易。在元宇宙中,VR设备获取大量数据(如视频和其他数字内容),通过网络传输,并存储在数据中心,而没有任何安全和隐私保护机制,这些数据可能成为网络攻击的敏感目标。在这种情况下,具有几个独特功能的区块链为元宇宙中的安全和隐私问题提供了一个有前景的解决方案,特别是当它被AI技术授权时。此外,服务提供商向用户提供的许多创意活动和事件将产生大量元宇宙对象/项目(也称为数字资产),应通过区块链中智能合约的透明交易进行记录和跟踪。
在过去十年中,通过将区块链和人工智能技术结合在各个应用领域中,以获得高数据安全性和隐私性,提出了许多先进的数据采集、存储和共享方法,这些方法在元宇宙中显示出巨大的部署潜力。在[95]中,研究了各种传统ML算法(如聚类、SVM和打包)和创新DL架构(如CNN和LSTM),以进行数据分析,以检测和分类基于区块链的网络中的网络攻击。本工作还考虑了其他一些问题,例如鼓励用户贡献认证数据的激励机制、基于人工智能的智能合约评估以及链上环境中的成本效益模型学习。对于物联网(IoT)辅助的智慧城市,通过将区块链与增强的工作证明相结合,将ML与数据转换相结合,引入了一个有效的隐私保护和安全框架,从而有力地应对智慧城市网络中的各种网络攻击。在[97]中,深度极限学习机器在一个基于资源高效区块链的物联网框架中得到了开发,该框架基于数据解释和异常预测提高了系统的安全性和隐私性。该框架(见图7)显示了欺诈检测和威胁预测的高性能,可以扩展用于处理数据存储和共享中的安全和隐私问题,而不是数据收集。最近,DL在与区块链合作方面取代了传统的ML,解决了一些具有挑战性的大数据安全和隐私问题,其中提出了大数据的五个基本特征(即速度、容量、价值、多样性和准确性)。例如,开发了基于CNN的区块链框架DeepChain,以确保网络参与者提供的数据的隐私和完整性。Deep RL被用来在基于多接入边缘计算(MEC)的区块链网络中实现安全的移动卸载,并在基于区块链的车辆互联网(IoV)系统中获得安全的车辆拥挤感知。
联邦学习(FL)最近成为解决数据共享隐私问题的有效解决方案,其中多个用户使用自己的本地数据训练AI模型,并通过参数聚合机制在服务器上协作学习全局模型。在[101]中,FL被用于解决区块链网络中多个不受信任方之间数据共享的隐私问题。这项工作将FL整合到一个训练质量证明中,这是一种新的共识机制,用于减少计算和通信成本。为了保证异构物联网设备生成的海量数据的高度隐私,FL部署在基于区块链的资源交易系统中。提出了一种基于智能合约的激励算法,以鼓励边缘节点贡献和评估FL任务。对于智能交通系统中的车辆边缘计算,FL与区块链相结合,协同检测恶意攻击。虽然FL可以将经过训练的入侵检测模型卸载到分布式边缘设备,以减少中央服务器的计算资源,但区块链可以确保模型存储和共享过程中聚合模型的安全性。除了数据安全和隐私,互操作性是区块链中使用不同数据基础设施与不同各方协作的另一个重要问题。例如,研究了一个学习分析框架,以获得必须共享单个账本的多个区块链参与者之间的牢固互操作性。最近在计算资源分配和管理应用程序中发现将区块链集成到FL中,以解决集中式系统中的各种问题,例如外部网络攻击、服务器故障和不可信服务器。在元宇宙中,多方加入并贡献具有不同格式和结构的数字内容,数据安全、隐私和互操作性可以通过协作开发区块链和AI来完全处理。
元宇宙为大量用户提供无线网络普及网络访问服务。在过去十年中,引入了一些创新技术来提高无线通信和网络系统的整体性能,其中人工智能在网络架构的多个层次上得到了广泛应用。元宇宙中的实时多媒体服务和应用程序通常需要具有高吞吐量和低延迟的可靠连接,以至少保证基本的用户体验。作为第五代(5G)网络的要求,峰值数据速率应在10 Gbps(千兆比特/秒)左右,端到端延迟不能超过10毫秒(毫秒)。在这种情况下,超可靠和低功耗通信(uRLLC)是开发新兴任务关键型应用程序的基础。已经引入了几种优化算法,以在5G网络和更高的网络中实现uRLLC(例如,第六代6G),但大多数算法需要较高的计算资源。ML和DL在有效处理现有挑战性任务方面显示出巨大潜力,例如在5G/6G网络中智能无线电资源分配,同时满足非常低的延迟。RL被用来解决增强移动宽带(eMBB)和uRLLC的资源分割问题,其中复杂的模式制定了资源分配和调度,以协同学习网络状态和信道条件。在另一项工作中,RL在联合子载波功率管理和分配方面表现出了有效性,从而显著减少了延迟并提高了可控物联网的可靠性。特别是,本文提出了一种双Q学习网络,通过子载波分配和功率控制策略优化总频谱效率,加速学习收敛。作为实现uRLLC的关键作用,[112]中研究了高效的无线电资源管理,采用分布式风险感知ML方法来监控和管理非调度和调度uRLLC流量的传输。
最近,DL被用于uRLLC中的许多任务,包括频谱管理、信道预测、流量估计和移动性预测。在物理层设计了两种先进的CNN架构,即MCNet和SCGNet,以自动识别输入信号的调制类型,从而使接收器能够准确解调并相应地提高频谱利用率。为了克服传统信道状态信息(CSI)估计方法的高计算成本,提出了一种在线CSI预测方法,该方法结合CNN和LSTM,提出了监督学习框架,其中部署了两阶段训练机制,以提高实际5G无线系统中CSI估计的鲁棒性和稳定性。在[116]中,使用3D卷积设计了端到端的CNN架构,用于智能蜂窝交通预测,其中深度模型可以学习短期和长期空间模式中交通数据的潜在相关性。除了实现高精度的交通预测外,深度网络在不同的现实场景中也表现出了有效性,例如交通拥堵数据和人群流量数据。总之,通过ML算法和DL架构,AI是解决未来无线网络中uRLLC的许多挑战性问题的强大工具,它允许用户在保证高吞吐量低延迟的情况下体验元宇宙中的高级集成服务。
作为现实世界实体的数字表示,DT可以将运营资产、流程和系统与现实世界同步,同时还可以执行其他一些常规操作,如监控、可视化、分析和预测。DT位于物理世界和虚拟世界通过物联网连接进行交互的中心;因此,现实世界中的任何变化都将在数字表示中被拒绝。凭借这些独特的特性,DT被视为元宇宙的基本建筑部门之一,并通过创建真实的精确复制,包括结构和功能,充当用户进入虚拟世界并享受服务的门户。例如,技术人员可以在多层次复杂度(即描述性、信息性、预测性、综合性和自主性)下操纵复杂系统的3D表示,以实现广泛的目的,例如技术培训和商业定制。因此,DT允许应用程序开发人员和服务提供商重建机器和进程的虚拟复制,其中任何类型的物理分析都可以使用AI远程完成。
对于工业4.0,提出了一个可靠的DT框架,用于传感器故障检测、隔离和调节,其中部署了一种具有多层感知神经网络的多用途ML方法,以验证传感器数据、估计故障条件和识别故障传感器。作为操作人类机器人焊接动作的数字复制,[121]中的DT系统与VR和AI技术一起开发,用于监控和分析焊工行为。基于机器人和虚拟现实之间的双向流获取的数据,应用具有域变换、特征工程和分类的通用ML框架来识别正确的焊接行为。在[122]中,研究了基于数据驱动的DT框架(见图9),以提高智能医疗系统中的健康诊断性能并促进更好的健康操作。DT在不同阶段为创建专利健康档案的虚拟复制、开展健康专业人员的协作活动以及为相同病例的患者制定通用治疗计划做出了贡献。建立ML模型是为了从医疗物联网(IoMT)设备收集的原始数据中学习有意义的信息,以早期检测健康异常并准确识别健康问题。在另一项为智慧城市农业服务和应用提出网络物理框架的工作中,DT被设计用于复制农业生产的虚拟表示,其中实际传感器获取的感官数据通过决策支持系统中的ML算法进行处理。为了适应不同类型的产品放大,DT从小型功能模块构建为全过程孪生。
DL具有从高维非结构化数据中自动学习特征和有效处理时空学习模型的强大能力,最近已应用于不同服务和应用的DT架构中。在[124]中,为边缘计算辅助的车辆互联网(IoV)开发了DT架构,以提高车辆计算资源的利用效率。为了克服边缘设备的过载问题,深度Q网络优化了DL和RL的函数逼近。为了研究移动边缘计算系统中uRLLC服务和延迟容忍服务的性能,[125]通过复制真实网络环境的虚拟模式构建了DT框架。值得注意的是,采用了具有前馈神经网络结构的DL来处理真实世界中变化的网络参数。对于工业物联网,[126]中的工作构建了DT,以模拟和捕获工业设备的运行状态和实时行为,这些设备映射到数字世界。为了解决真实实体与其数字复制之间的偏差,使用深度RL模型对FL进行了基于信任的聚合,以在满足资源约束的同时总体提高性能。借助人工智能作为强大的分析工具,DT可以提高系统性能,减少流程相关事件,最小化维护成本,并优化业务和生产。此外,DT允许用户将元宇宙视为一种先进的现实复制,具有来自物理世界的完全实时同步。
技术无疑是通过增强人类体验和充分填补元宇宙中现实世界和虚拟世界之间的差距来丰富我们周围的世界。在这种情况下,与虚拟工作交互的最具沉浸感的流行界面是带控制器的VR耳机。许多科技公司目前关注的是神经接口,即所谓的脑机接口(BMI)或脑机接口(BCI),它超越了VR设备。BMI有助于几乎消除人类和可穿戴设备之间的界限。许多BMI使用附着在头骨和人体其他部位的外部电极或光学传感器检测神经信号。根据这些只在初级水平上阅读和控制大脑的非侵入性设备,BMI可以用经颅电磁脉冲操纵思维。图10描述了一个常见的BMI周期,其主要成分用于处理神经信号和响应神经刺激。除了预处理阶段的数据工程技术外,模式识别阶段的AI/ML算法能够准确分析复杂而敏感的神经信号。
将脑电图(EEG)信号作为BCI系统最流行的输入之一,[128]中的工作通过两种学习方法研究了脑信号分类:一种是离线无监督分类,另一种是模拟在线监督分类。除此之外,两种方法在运动想象、心理分析和事件相关电位等常见任务中实现了更低的计算成本和更好的性能,离线无监督机制在学习阶段不需要为新受试者标记信号。为了在脑机接口中建立准确的预测模型,将大脑活动解码为通信和控制命令,[129]中的工作学习了区分性时空特征,以从脑电图信号中获取不同神经活动之间最相关的相关性。基于重构的信号波形(包含主频特征)作为低维特征向量,采用逻辑回归(LR)、朴素贝叶斯(Naive Bayes)和支持向量机(SVM)等多种ML算法来研究ERP的性能。在[130]中,通过特征选择和SVM分类,研究了使用视觉半球提取航空图像中目标空间位置相关信息的可行性,并将其部署在快速串行视觉呈现(RSVP)程序中。具体来说,通过从提取的脑电信号的鉴别特征中学习ERP模式,可以识别航空图像中的相关目标及其位置。为了提高脑机接口中EEG信号的正确分类率,[131]中引入了一种先进的ML框架,将改进的公共空间模式算法与迁移学习机制相结合。经过训练的人工智能模型除了能够实现对左手和右手假想动作的高精度分类外,还可以通过知识迁移技术用于同一领域的其他分类和识别任务。
基于胶囊网络(CapsNet)在特征提取和特征解释方面相对于传统神经网络的优势,[132]中的工作应用CapsNets来提高BCI系统中ERP检测的准确性。CapsNet通过胶囊层从EEG信号中提取的高度区分的空间特征和关键时间相关性,不仅优于一些最先进的学习模型(如线性判别分析和CNN),而且在认知神经科学领域获得了不同常见拼写法的实用性。在[134]中,在精确的脑控机器人手臂系统中,提出了一种具有多向CNN和双向LSTM的混合DL框架。该学习方法有效地计算了底层空间信号的时间相关性,提高了基于手臂的三维多向物体抓取任务的解码性能。受GoogleNet的启发,[136]中的工作提出了EEG Inception,一种用于BCI系统中基于EEG的分类任务的新型CNN,它涉及多个初始模块以提高特征学习效率。此外,有效的训练策略将跨学科迁移学习和微调结合起来,以减少ERP的校准时间,并证明在实际辅助应用中的可行性。未来,脑机接口将通过消费者心理控制系统,真正促进元宇宙中现实与虚拟世界之间的终极沉浸式交互。表一总结了现有的人工智能支持的关于六个技术方面的工作,这些工作对元宇宙很有希望。
本节从四个关键应用的角度介绍了现有的人工智能辅助作品:医疗、制造、智慧城市和游戏(见图11);它们可能被认为在元宇宙中提供专业服务。此外,还简要讨论了其他一些潜在应用,包括电子商务、人力资源、房地产和分散金融。
医疗行业最近开始利用一些革命性的技术,如虚拟现实和大数据,在软件和硬件方面与人工智能相结合,以提高医疗设备的熟练程度,降低医疗服务成本,改善医疗运营,扩大医疗服务的覆盖范围。从2D环境到3D虚拟世界,元宇宙允许用户以身临其境的方式学习、理解和共享患者的健康状况和医疗报告。通过VR/XR系统,人工智能在许多医疗保健和医学领域发挥着重要作用,例如,在提供诊断、提供准确和快速的医疗决策、提供更好的实时医疗成像和放射学,以及支持更方便的模拟环境,以教育实习生和医学生。
在许多用于医疗保健和健康应用及服务的可穿戴设备中,人工智能已被应用于自动识别复杂的感官数据模式。为了支持医生和健康专家在日常生活援助和早期健康风险意识方面做出决策,[138]中引入了一种通过使用多个可穿戴设备的感官数据进行身体活动识别的方法。该方法通过中间融合机制将全局手工特征和局部深度特征(即深度CNN提取的特征)相结合,以提高活动识别率。在[139]中,引入了一种新的编码算法,即Iss2Image,将惯性传感信号(例如加速度计、陀螺仪和磁强计)转换为彩色图像,用于基于CNN的人类活动分类。此外,还设计了一个在级联连接中具有几层的轻量级CNN,用于从编码的活动图像中学习身体活动模式。在[140]中,为基于物联网的医疗服务提出了一个使用可穿戴设备的跌倒检测系统,其中开发了一个具有CNN架构的分层DL框架,用于在本地设备和云服务器上协同处理感官数据。由于能够与多种可穿戴设备(如智能手机、智能手表和智能鞋垫)配合使用,该系统产生了高正确检测率和高数据隐私。除了CNN,RNN和LSTM网络还被用于处理一些早期健康风险关注中的可穿戴感官数据,例如跌倒检测和心力衰竭。
随着DL,特别是CNN架构在图像处理和计算机视觉领域的巨大成功,近年来,DL大量涌现,以解决医学图像分析的各种挑战性任务,因为与自然图像分析相比,DL需要技术人员和医学专家更多的专业知识。对于乳腺超声(BUS)图像中的病变分割,工作[144]研究了一种高级网络,即显著性引导的形态学感知U-Net(SMU-Net),它涉及一个额外的中间特征学习流和一个辅助网络。来自辅助网络的从粗到细的代表性特征与其他特征(例如,背景辅助、形状感知、边缘感知和位置感知)融合,以有效区分BUS图像中的形态纹理。在[145]中,引入了一种经济高效的无监督DL方法,以加快自由呼吸三维冠状动脉磁共振血管造影图像中心脏非刚体运动估计的处理速度。基于深度编码器-解码器架构,该网络可以以分片方式学习图像相似性和运动平滑性,而无需基准真实信息,从而显著节省计算资源,而不是常规的体积方式。为了克服在3D图像中挖掘复杂模式时增加网络大小和计算3D CNN的障碍,研究了用于3D医学图像分割的2D神经进化网络,其中更新了最优进化3D CNN以降低计算成本,同时又不牺牲准确性。利用人工智能作为数据分析的核心技术,可以在虚拟现实环境中开发多种医疗保健和医疗诊断应用程序(例如,运动康复和磁共振成像神经反馈),以实现多用途,例如协作治疗规划和教育培训。事实上,元宇宙可以提供多种医疗保健服务。例如,医学生可以通过在虚拟世界中学习为医学教育而构建的交互式实践课程来提高外科技能,或者患者可以通过虚拟医疗中心和医院的虚拟助理找到一些医疗服务。
随着当前工业革命的浪潮,制造业的数字化变革正在发生,机器和系统之间的数字连接可以更好地分析和理解物理实体。与通过数字操作增强物理世界的数字转换不同,元宇宙创建了一个虚拟世界,并在现实交互和持久性的基础上将其转换为物理世界。通过合作采用尖端技术,如AI和DT,制造业的元宇宙可以在当前数字革命中显著实现数字运营的现代化。目前,具有ML算法和DL架构的人工智能通过众多工业应用对制造领域做出了巨大贡献。
在制造业中,缩短产品生命周期和增加产品变体的数量是频繁生产系统重新配置和升级费用高昂的主要原因,特别是对于基于ML的系统,这些系统在新数据收集、预处理和模型学习方面花费了更多的时间和计算资源。为了克服上述挑战,将Q-学习模型的学习能力与专家的领域知识相结合,利用共生人类ML框架和强化学习策略。该框架还考虑了人为探索以减少数据中的噪音并提高自动决策系统的质量。作为现代制造系统中的一个重要组成部分,质量检验近年来以智能数据驱动的状态监控方法受到了越来越多的关注;然而,他们不得不面对来自不同操作条件、不同任务和应用的一些困难。为了在制造过程中进行可靠的故障检测和诊断,许多方法都利用了具有RNN和CNN架构的DL来实现高精度,同时保持实时监控。例如,开发了一种RNN,其编码器结构与注意机制相结合,用于预测和诊断永磁同步系统中的匝间短路故障。在[151]中,引入了一种基于数据驱动LSTM的故障诊断方法,以早期检测风机系统中的多个开路故障。在[152]中,引入了一种基于DL的智能故障诊断方法,通过结合CNN体系结构和迁移学习机制,解决了两个具有挑战性的问题,即学习模型缺少标记数据以及训练集和测试集之间的数据分布差异。
设计和实施最佳的串行生产线对提高整个制造过程的生产率至关重要。最近的许多工作都应用人工智能来优化生产系统中的某些特定部分,并相应地提高生产线的性能,同时满足可扩展性和兼容性。例如,通过结合常规人工神经网络(ANN)和通用算法,开发了预测模型来估计生产线中的最佳缓冲区大小。预测模型与优化机制进一步集成,以评估和预测需要最大化生产力的最佳缓冲区大小。在[154]中,结合DL和IoT制定了一种高效的生产进度预测方法,以优化订单制造企业的动态生产和实时订单交付活动。在该方法中,利用历史数据和实时状态数据,采用深度信度网络执行两阶段迁移学习机制,以解决生产过程的非线性问题。如今,许多制造厂已经开发出工业协作机器人来执行不同的高级任务,这些任务需要更多的认知技能、智能和人类领域知识,以便以高精度和信心立即响应意外的行动或事件。因此,需要一个协作AI模型,从多模态数据中学习制造过程和生产线不同相关任务的复杂模式,其中AI模型应具备解释和推理能力。通过元宇宙中的虚拟实体,AI通常可以提高工业制造效率,以加快生产流程设计,激励协同产品开发,降低质量控制的操作风险,并为生产者和客户获得高透明度。
智慧城市通过物联网、摄像机、社交媒体和其他来源获取关于公民需求的有意义信息。根据用户自动收集的反馈,城市政府需要决定删除、提供和改进哪些服务。通过使用更多的数字工具和先锋技术,智慧城市将通过元宇宙平台为用户提供更智能的交互服务。环境数据(例如空气质量、天气、能耗、交通状况和可用停车位)在虚拟世界中完全复制,以提供用户友好的界面。现在,可以通过部署在元宇宙中的平台和系统在虚拟世界中执行多种智能服务,例如公用事业支付和智能家居控制:智能交通系统(ITS)、智能路灯管理系统、自动停车系统、智能社区门户和室内/室外视频监控系统。目前,这些技术对智慧城市的实际影响和效益有限;然而,元宇宙可以成为在公民日常生活中推广智能服务的促进剂。
在物理世界和元宇宙中实现智慧城市的不同技术中,人工智能对于实现智能服务的自动化和智能化具有重要意义。通过整合人工智能支持的基于脑电图的BCI、VR和物联网技术,[158]中的工作引入了基于稳态视觉诱发电位的BCI架构,以协同控制家用电器。通过头戴式显示器捕获视觉信息,记录大脑信号,以使用ML算法进行分析,并通过刺激响应控制命令,从而允许用户通过物联网控制家用电器。为了开发从物理世界到数字世界的虚拟复制的混合ITS,[159]中的综合工作引入了一种智能和无处不在的IoT使能架构,以控制和管理城市交通。在物理世界和虚拟世界中,同时研究了不同交通服务的许多实际数据处理和决策场景,从而为用户提供高质量的实时服务,降低运营和维护成本。由于工业化的匆忙和城市化的爆发,空气污染已成为一个生命预警问题,严重影响了人们的生活环境和身体健康。对于早期空气污染预警和管理,研究了一种使用混合DL架构的高效预测方法,该架构将一维CNN和双向LSTM网络相结合,以充分提取从多个传感器获取的多元时间序列数据的内在关联特征和相互依赖性。除了环境污染,可持续农业在智慧绿色城市中也吸引了更多关注。在这种情况下,人工智能是至关重要的信息和通信(ICT)技术之一,已广泛应用于精确农业系统,包括产量预测、质量评估和病虫害检测。
设计和实施智慧城市的元宇宙生态系统,提供所有行政服务,如环境、教育、交通、文化和其他公共服务,是大都会政府的一项艰巨任务。通过从多个经过认证的来源收集大数据,由于数据分析的人工智能技术,可以在元宇宙中提供和改进许多管理服务,其中将发布使用规则、道德规范和安全性,以确保安全的体验环境。
游戏一直是元宇宙的主要应用,在元宇宙中,ML和DL正在跨多个平台(从控制台到移动和PC平台)重新定义和变革游戏行业。本部分将探讨ML和DL如何革命性地推动游戏开发,以及如何在元宇宙中构建下一代游戏。
在过去的十年里,ML对视频游戏的开发方式产生了巨大的影响。为了构建具有吸引力的挑战和独特故事的更真实的世界,视频游戏开发商和工作室越来越多地将ML作为一个强大的工具集,帮助系统和NPC动态合理地响应玩家的动作。在[166]中,人工智能和计算智能在游戏中的作用已经讨论了许多研究课题:NPC行为策略和学习、战术规划、玩家响应建模、程序内容创建、玩家NPC交互设计、一般游戏AI、AI辅助游戏故事讲述以及商业游戏中的AI。本文从三个角度对这些主题进行了深入研究:每个主题中使用的人工智能算法、每个主题中人工智能对人类用户的有效性以及人机交互。对于游戏内决策和学习,[167]中的一项全面综述调查了人工智能算法在智能视频和计算机游戏中的使用。在决策方面,一些主要的人工智能算法(如决策树、模糊逻辑、马尔可夫模型、基于规则的系统和有限状态机)被部署用于不同的游戏开发任务:建模游戏流、评估游戏动机、评估沉浸式体验、调整游戏玩法、调整游戏策略、定制游戏玩法以及建模和控制NPC行为。此外,使用朴素贝叶斯、ANN、SVM和基于案例的推理系统完成了许多基于学习的任务,以对用户游戏进行分类,对NPC行为进行分类,识别用户行为,并根据个人经验调整游戏流程。
在实时战略(RTS)游戏中,如星际争霸(StarCraft),贝叶斯模型被用于建模多尺度不确定性和多层次抽象层次:微观管理、战术和战略。这些概率学习模型能够应对反应部队的控制,从战术数据中识别目标,并根据战略信息预测对手的游戏性。为了实现一种类似人类的智能响应机制,一些游戏软件公司在设计和开发阶段的各种测试任务中应用了人工智能。在[163]中,提出了一种变形测试机制,以克服在人工象棋游戏中控制大量可能的移动策略的不切实际性。该测试机制部署了一个决策树模型来揭示变形关系,进而有效地确定所有可能的最佳移动。通过RL和深度网络的结合,[164]中的AI代理被开发用于解决实时战斗游戏中的一些固有困难,并在一场对战中击败职业玩家。除了通过自娱课程创造不同的战斗风格外,这种深度RL框架还可以用于所有具有等级升级和平衡策略的双人竞技游戏。RL和监督学习也被用于改进RTS游戏中的AI代理。CNN和深度Q-学习网络比木偶搜索算法更优越,可以推断出昂贵的高级搜索结果,并优化了执行战术搜索的可用时间。简而言之,具有传统ML和创新DL算法的AI在许多方面对游戏体验进行了前所未有的革命:提高NPC的智能性,建模复杂系统,使游戏更加美丽和合理,进行更真实的人类NPC交互,降低游戏内世界创建的成本,并为开发手机游戏提供更多机会。在表II中,我们总结了利用人工智能技术的现有面向应用的工作,这些工作显示了在元宇宙中集成和部署的潜力。
除了医疗保健、制造业、智慧城市和游戏,我们还发现了元宇宙的一些辅助商业应用程序。
电子商务:为了将电子商务融入元宇宙,众多消费品牌纷纷潜入数字世界,以创造更加愉悦和无缝的购物体验,而不顾主流消费者对VR设备的不欢迎。许多品牌通过整合数字商店,逐步建立全新的产品,能够带来最好的线下和在线购物,用户体验没有任何差异。事实上,虚拟购物可以传递静态产品的远程实时体验,其中以化身为代表的消费者可以在3D渲染的空间中逛商店,并与虚拟现实和人工智能技术支持的虚拟收银员/卖家交谈。个性化的客户体验目前正吸引着零售商的更多关注,这不仅是为了商业生存,也是为了收入增长,这可以通过基于人工智能的购物行为理解在元中轻松实现。
人力资源:如今,许多大科技公司都在创造性地寻找并与正在寻找工作的年轻人才交流。招聘方式包括派遣年轻员工/领导,通过视频电话在线面试申请人,以及在元宇宙中举办招聘会。潜在申请者可以使用区块链辅助的认证账户登录元宇宙,然后控制其化身,与代表公司人力资源经理和项目负责人的其他化身自由讨论。对于招聘指导,申请人可以请求或接受基于人工智能的NLP虚拟助理的帮助。在这类招聘活动中,目标是为招聘人员和申请人创造一个友好的环境,进行自由式交流,在这种环境中,申请人可以主动发现更多有关职位的信息,而不是被动地被招聘人员提问。在过去十年中,新兴技术(如5G、IoT和DL)为工人/员工带来了许多方便的传统工作替代方案(完全远程和混合离线在线);然而,元宇宙将彻底改变工作和工作场所的未来。最近,Facebook推出了Horizon Workrooms,这是一个精心设计的会议平台,允许用户(化身)在虚拟空间中通过VR设备进行培训和辅导活动之外的工作、协作和交流。
房地产:我们看到个人投资者和机构对元宇宙中的虚拟土地进行了巨额投资。一些元宇宙已经发布,包括虚拟游戏平台(如Sandbox和Axie Infinity)和虚拟世界(如Decentraland和Upland),用户可以在其中买卖和交易物品,包括房地产(地块和虚拟房屋)。这些数字不动产通常由非同质化代币(NFT)联系在一起,但由于稀缺性,随着时间的推移,其价值受到供应的限制。元宇宙中的庄园可以用作建筑(房屋和办公室)或举办数字活动(如艺术展览和时装秀)的虚拟场所。此外,元宇宙是房地产公司在做出决策之前最终向客户展示房产的另一个成本高效的渠道。借助VR辅助的沉浸式体验,客户可以通过VR巡游和交互式演练,从详细的家具和整体结构中发现酒店,包括内部和外部。
分散化金融:基于开放的金融系统,分散化融资(DeFi)是一种基于加密货币的金融服务,通过智能合约定期编程,以建立交易所,此外还提供许多主要服务,如贷款、产量耕种和保险,而无需中央集权。与由中央实体或个人控制或管理的中央金融不同,DeFi借助区块链技术,促进了对等金融服务,并允许用户在确保安全和隐私的同时完全控制其资产。DeFi服务通常通过完全构建在开源分布式平台上的分散应用程序(Dapps)交付。通过将DeFi(包括基本和专业服务)集成到元宇宙中,用户可以在数字世界中购买NFT识别的虚拟产品,但在现实生活中会收到真实的产品。此外,用户可以在基于DeFi生态系统的元宇宙中通过出借、借贷、采矿和押记加密货币或其他代币获利。用户可以通过基于AI的分散交易所机制为流动性池提供流动性,以获得激励。交换代币(可以属于同一链或不同链)是优先在任何Dapp上开发的基本服务。
本节简要介绍一些有吸引力的元宇宙项目,包括Decentraland、Sandbox、Relay、Star Atlas、Bit.Country和DeHealth,应用人工智能在虚拟世界中提供多种服务和应用,从房地产到电子商务。图12显示了项目虚拟世界中的景观,对于DeHealth来说,虚拟医生是元宇宙中的化身。
Decentraland:这是一个建立在以太坊区块链上的分散虚拟现实平台,用户可以在其中体验、创建资产、内容和应用程序并将其货币化。在Decentraland,虚拟土地被确定为以太坊智能合约记录的不可替代、可转让和稀缺数字资产。与传统的虚拟世界和社交网络不同,Decentraland不受任何中央组织的控制;也就是说,任何一个代理都无权修改软件、内容、加密货币的经济规则,或阻止其他人访问世界、交易数字产品和经验丰富的服务。Decentraland的可穿越3D世界允许嵌入沉浸式组件,并与创意内容相邻,这使得该项目具有吸引力和独特性。Decentraland的脚本编程语言使开发人员能够轻松地为用户编写基于AI的面向服务的应用程序,从而鼓励用户创建新内容。除了其他次要用例,如教育、虚拟旅游、医疗保健和虚拟购物,一些主要用例还包括内容管理、广告、数字收藏品和社交。关于体系结构,Decentraland协议有三层:一层用于跟踪土地所有权及其内容的共识层,一层用于通过分散存储系统分发渲染材料的土地内容层,以及一层用于建立点对点连接以供世界观看的实时层。Decentraland全球采购商品和服务的本地代币是MANA,这是一种基于ERC-20(以太坊征求意见20)协议的可替代代币。
Sandbox:Sandbox元宇宙是一个基于用户生成的分散以太坊区块链的虚拟世界,它允许用户和玩家构建、拥有游戏体验并将其货币化。受Minecraft的启发,Sandbox元宇宙最初是作为2D移动像素游戏构建的,然后通过一个体素游戏平台扩展到一个成熟的3D世界,用户可以在无需中央控制的情况下玩、共享、收集和交易虚拟商品和服务。值得注意的是,创作者可以通过在具有安全版权所有权的市场上销售他们的作品来获得SAND,即Sandbox的本地代币,版权所有权通过NFT关联和保证,即元宇宙中的每一项都将通过一个独特且不可变的区块链机制进行认证。作为Sandbox元宇宙中SAND的主要用例,代币持有者可以访问和体验虚拟世界,通过DAO机制投票治理决策,持有代币以赚取收入,并捐赠代币以激励开发人员实现元宇宙增长。除了使用ERC-20生成SAND代币和ERC-1155进行数字资产交易的区块链技术外,AI还被用于Sandbox元宇宙。例如,作为一个强大的工具包,游戏编码人员可以部署ML模型来提高虚拟代理/助手的智能,而DL模型可以提高渲染质量,开发人员可以利用不同的AI框架来最小化游戏崩溃和错误。使用直观的高级API,ML/DL模型的构建和训练是无故障的。
Realy:通过创建一个独特的元宇宙生态世界,从真实世界到完全虚拟世界,Realy元宇宙被定义为一个超现实、未来主义、技术意识强的世界,其中电子商务、社交、游戏和交易真正集成在一起,为用户带来无缝的虚拟现实体验。在Realy元宇宙的虚拟世界中,用户可以通过他们的个性化化身,通过市场上提供的3D虚拟服装,并与独特的NFT链接,享受丰富多彩的旅程。与其他元宇宙项目相比,Realy有一个有趣的特点,那就是关于化身控制和管理程序。当用户在线时,他们的化身会带来身临其境的体验。当用户离线时,化身由一套基于AI的自律系统驱动。整个虚拟世界由分散的DAO组织自动操作、控制和管理。关于Realy元宇宙中的技术,除了VR和区块链之外,AI在许多方面都被采用来普遍改善用户的沉浸感体验,例如增强3D视觉渲染效果,提高虚拟化身的真实行为智能,以及整合VR和全息投影。
Star Atlas:作为最新的创新元宇宙项目之一,Star Atlas引入了一个虚拟游戏世界,它建立在多玩家视频游戏平台、3D渲染可视化的实时沉浸体验、基于区块链的分散式金融服务和AI赋能游戏引擎的集成之上。Star Atlas通过填补元宇宙和区块链技术之间的差距,帮助完成Solana区块链上的生态系统。在Star Atlas的游戏元宇宙中,用户可以使用游戏中称为POLIS的加密货币代币交易数字资产,如土地、设备、船员、船只和组件,该代币可用于多个跨元宇宙游戏。为了使游戏更具逻辑性和现实性,ML算法被应用于提高NPC和AI代理在玩家NPC战斗中的战术行动规划和战斗策略的智能。
Bit.Country:作为一个面向用户的元宇宙项目,Bit.Country为每个人建立了一个3D虚拟世界,每个人都可以在元宇宙中建立自己的社区,通过规则和操作来吸引追随者和贡献者。通过引入一个新的虚拟社会互动水平,Bit.Country有两个平台:一个是用于内容创建和服务提供的传统网络视图,另一个是为VR辅助沉浸式体验添加3D游戏视图。在由持有平台令牌的用户配置的每个单独社区中,所有规则都由AI模型管理和链接在一起,以确保逻辑操作没有任何冲突。不仅仅是一个虚拟世界,Bit.Country能够将一些虚拟方面与现实世界联系起来,从而获得可持续的未来,而不是快乐的沉浸式体验。
DeHealth:由英国一家非营利组织推出,DeHealth是世界上第一个分散式医疗保健元宇宙,它允许医生和患者在全3D虚拟世界中工作和互动。在DeHealth元宇宙中,提供了一些高质量的医疗保健服务,例如移动健康分析、高级AI机器人的建议,以及与全球医生和健康专家的实时对话。为了鼓励信息数据共享活动,元宇宙为用户和患者提供了一些交易加密货币池,以通过出售匿名医疗数据赚取资产。从分散网络收集的数据将用于构建基于AI的诊断模型,用于医疗和医疗领域的各种任务。在元宇宙中,医生和患者能够通过虚拟空间复制现实世界环境进行交流。可以构建一些虚拟医院和医疗中心,以提供具有真实数据和诊断结果的虚拟服务。DeHealth元宇宙正在考虑通过基于VR技术的其他面向教育的服务来扩展。
在这项综述中,我们全面调查了人工智能在元宇宙基础中的作用及其增强虚拟世界中用户沉浸体验的潜力。在这项工作开始时,已经提供了元宇宙和人工智能技术的基本概念,以及人工智能在元宇宙中的作用。随后,分析了NLP、机器视觉、区块链、网络、DT和神经接口等几个主要技术方面,以及医疗、制造、智慧城市、游戏、电子商务和DeFi等许多应用方面。经过回顾的基于人工智能的解决方案表明,人工智能在强化系统基础设施、提升3D沉浸式体验以及显著繁荣虚拟世界中的内置服务方面具有巨大潜力。最后,我们研究了著名的元宇宙项目,在这些项目中,人工智能技术被用于提高服务质量并涵盖元宇宙的生态系统。
我们现在描述了元宇宙中的一些人工智能研究方向。与为简单的对话管理的一般用途而开发的普通虚拟个人助理相比更为先进,由对话人工智能支持的虚拟客户/员工助理可以服务于多层次哲学对话的许多特定目的,以增强用户交互体验。图13中具有处理流程的对话人工智能是一组技术(例如,自动语音识别、语言处理、高级对话管理和ML),可以在元宇宙中基于识别语音和文本、理解意图、破译各种语言以及通过语音模态响应拟人对话的基础上提供类似人类的交互。
当前大多数元宇宙项目都限制用户在虚拟世界中探索、拥有和定制事物。未来,用户将可以在AI的帮助下轻松、快速地创建超现实对象和内容。各种各样的超现实物体(例如,脸、身体、植物、动物、车辆、建筑物和其他无生命物体)可以被用户无休止地重新混合,以创造独特的体验和刺激创作。因此,虚拟现实和基于人工智能的内容生成相结合,可以完全沉浸在另类现实中。在这种情况下,人工智能工具应该对每个人都便宜,并且具有用户友好的界面。此外,与用户生成的元宇宙相关的道德问题需要通过用户和第三方组织之间的约束和政策进行认真检查,以减轻用户合成超现实媒体内容时对个人和社会的风险和有害威胁。
在元宇宙中的许多人工智能辅助服务和应用程序中,决策是由人工智能代理做出的,这些代理是由ML模型作为黑箱驱动的,没有可解释性和可解释性的能力。元宇宙开发人员、虚拟世界设计师和用户无法完全理解人工智能决策过程(例如,人工智能模型如何以及为什么会提供预测),可能会盲目信任他们。为了克服这些问题,可解释人工智能(XAI)是一套工具和方法,用于描述人工智能模型,分析其预期影响,表征模型透明度,并检查结果,使人类用户能够通过端到端的过程监控和问责,完全理解和信任人工智能模型。通过XAI,在元宇宙中应用AI(从系统基础设施到虚拟世界中的服务和应用程序)的系统工程师和数据科学家可以理解和解释AI模型中到底发生了什么,AI算法如何生成特定结果,预测模型何时可能崩溃。除了提高最终用户的信心、模型可审核性和操作效率外,XAI还减轻了元宇宙中生产AI的法律风险和安全威胁,同时保证了用户的可靠体验。