资料来自:《世界前沿技术发展报告2023》和网络
人工智能是引领未来的新兴战略技术,是驱动新一轮科技革命和产业变革的重要力量。全球各大国不断升级人工智能战略,纷纷抢抓人工智能的发展机遇。2022年,人工智能生成内容(AIGenerated Content, AIGC)技术取得了突破性进展,人工智能从学习走向创造,展现出在推理、科学、数学和编程等方面的创造力。由此,AIGC成功入选《科学》(Science)期刊2022年度科学十大突破。
近年来,人工智能在算法、算力和数据的共同驱动下,取得了飞速发展。但目前世界人工智能发展水平仍处于“弱人工智能”阶段,世界主要经济体在人工智能领域的竞争主要集中于人工智能底层基础算法的研究和推广应用。
2022年4月,美国人工智能研究公司OpenAI发布DALL-E 2程序,可基于文本描述生成图像。相较于前序版本DALL-E,DALL-E 2具有更高分辨率和更低延迟,精确度提高了71.7%,写实度提高了88.8%,分辨率更是达到了前序版本的4倍,还可结合概念、属性及风格打造更生动的图像。DALL-E的第一版于2021年1月首次亮相,基于具有1750亿个参数的GPT-3模型开发而来,但它仅使用了120亿个参数。为防止伦理问题,OpenAI为DALL-E作出了3条限制:一是阻止生成有害内容;二是防止滥用;三是分阶段向不同权限用户开放。2022年12月,OpenAI公司发布超级对话人工智能模型ChatGPT,可执行对话、生成代码和写作等复杂文字内容生成任务。
2022年12月,OpenAI公司发布超级对话人工智能模型ChatGPT,可执行对话、生成代码和写作等复杂文字内容生成任务。ChatGPT为OpenAI的GPT 3.5代模型,属于GPT-3模型的衍生产品,性能表现优异。ChatGPT的发布也将人工智能在人机对话领域的应用推向新高度。
2022年5月,美国谷歌公司发布文字转图像模型Imagen,并称其效果超过OpenAI公司发布的DALL-E 2模型。Imagen首先会基于文本描述生成一个64像素×64像素的小图像,然后对其进行两次超分辨率处理,进而使其达到1024像素×1024像素,在此过程中,程序不断丰富图像的细节。谷歌公司称,其将现有的文本模型用于计算机绘图过程中的文本编码部分,改善这部分工作的质量所带来的收益高于单纯提高视觉保真度。同时,谷歌公司还使用包含偏见的数据库对Imagen进行测试,以测试该模型在真实环境中的表现。鉴于存在潜在的道德风险,谷歌公司决定暂时不向公众开放Imagen。
2022年6月,美国宾夕法尼亚大学研究人员开发出超高速光子深度神经网络,每秒可对近20亿张图像进行分类。研究人员指出,传统计算机中主要存在4个消耗运算时间的因素:光信号到电信号的转换、数据向二进制编码的转换、大内存模块及基于时序的计算。为此,研究人员使用9.3平方毫米芯片上的光学深度神经网络直接处理光学信号,通过多个神经元组成的深层网络来模拟人脑运行,这跳过了光电信号转换的步骤,且消除了缓存单元,因此提高了处理速度。此外,研究人员还可以通过添加更多神经层来“放大”深度网络,从而使芯片能够以更高分辨率读取更复杂图像中的数据。在未来的工作中,研究人员将检查这一神经网络的可拓展性及对三维物体的分类能力。
2022年7月,英国DeepMind公司开发出深度学习系统PLATO。该系统能以类似婴儿的方式学习物理世界的基本常识性规则“直观物理”。“直观物理”是体现智力的基础,使人们能够与物理世界进行真实的接触,这也是人类所谓常识的关键组成部分。长久以来,让机器学习算法来学习“直观物理”非常困难,尽管这些系统已经在许多其他任务上表现出超越人类的能力,如学习识别不同的物体。研究团队通过给PLATO观看许多描绘简单场景的视频对其进行训练,PLATO只经过28小时的训练就获得了部分“直观物理”知识。该研究发表于《自然·人类行为》(Nature Human Behaviour)期刊。
2022年9月,加拿大阿尔伯塔大学(University of Alberta)研究人员研发出新型因果推理人工智能算法,可有效降低性别偏见并保留语义信息。通常,在人工合成的语料库上训练人工智能具有很强的性别偏见,导致在下游任务部署中产生偏见结果。此次,阿尔伯塔大学研究人员提出了一种利用因果推理框架有效消除性别偏见的新算法,能够构建和分析促进性别信息流动的复杂因果机制,同时在词嵌入工作中保留语义信息。未来,该研究有望促进劳动力市场应用人工智能技术,以减少性别和种族歧视。
2022年10月,美国麻省理工学院(MIT)研究人员开发出光深度学习(Deep Learning with Light)技术,可降低设备数据传输延迟的影响。这种技术将运行机器学习模型的内存密集型步骤转移到中央服务器。在中央服务器上,机器学习模型的组件被一个采用硅光子学的智能收发器编码到光波上,并通过光纤连接到边缘设备,使大量数据能够通过该网络高速发送。然后,边缘设备接收端使用一个简单的光学设备——马赫-曾德尔调制器,用这些光波携带的模型部分快速执行计算。与其他方法相比,该技术无须将用户的数据传输到中心位置进行计算,可将能源效率提高100倍以上,并能提高安全性。该技术有望提高网络末端设备的性能,促进人工智能的部署。研究人员将继续迭代优化智能收发器芯片并实现边缘装置接收端的微小型化。
2022年10月,英国DeepMind公司研究人员研发出新型人工智能算法,可高效解决矩阵乘法问题。研究人员受游戏系统的启发构建了用于矩阵乘法的强化学习系统,并将选择有效矩阵乘法的算法作为奖励信号。实验表明,该系统能够学习影响矩阵乘法的要素,并创建自己的算法以提高计算矩阵乘法的效率。相关成果有望在高性能计算方面取得应用。
模式识别以计算机为工具、以数据为信息来源,通过各种形式的信息计算和处理,对各种现象、事物、状态等进行准确的分析、判断识别和归类。随着人工智能的发展,人工智能在模式识别领域的应用已成为主要趋势。
2022年4月,欧盟批准首个X光片分析AI工具ChestLink。该工具由Oxipit公司开发,可以在没有放射科医生监督的情况下读取胸部X光片,并可自动发送检测结果为健康、无异常的报告。这是完全自主的医疗成像人工智能工具首次在欧盟获得批准。
2022年5月,日本东京大学(The University of Tokyo)开发出一种有效提升深度伪造检测的准确率的新方法。研究人员通过使用以独特方式创建的新型合成图像,即利用自混合图像来训练算法,将检测准确率提升5%~12%。研究人员表示,目前这种检测方法在静态图像的检测上效果更好,在视频画面的检测上仍有较大提升空间。
2022年6月,英国格拉斯哥大学(University of Glasgow)研究人员开发出一种增强技术,使用人工智能分析人眼接受漫反射光线后产生的脑电信号,可识别视线外的物体。此前,研究人员将激光束射到表面上、拐角处并返回到相机传感器,然后使用算法对散射的返回光进行解码以识别物体。在最新的实验中,研究人员使用人眼代替相机传感器,并采集被试者的脑电信号,来识别墙壁拐角后的物体。经过约1分钟的分析测试,系统能够准确地重建每个物体。这是第一次通过在实时调整成像过程的神经反馈回路中使用人类视觉系统来执行计算成像的实验,有助于研究人员探索人类机能增强的方法。
2022年9月,中国网易公司在全球范围内首次将人脸表情拓展至135种类别,这一拓展将大幅提升人工智能在情感计算中对人脸表情识别的精度。情感计算是一种能感知、识别和理解人类情感的技术,有助于计算机系统针对人类的情感作出智能、灵敏和友好的反应,人脸情感识别是其中的一个细分方向。网易公司的研究有助于人工智能更准确地识别人类情绪,有望应用于人机交互、艺术表演、医疗诊断和刑侦测谎等领域。该成果发表于电气与电子工程师协会(IEEE)旗下情感计算领域顶级期刊IEEE Transactions on Affective Computing。
复杂系统控制与智能信息处理是一个复杂而又相互关联的技术网络,是自动化领域的重要组成部分。目前,人工智能技术正在推动复杂系统控制与智能信息处理向智能化方向加速演进,可快速提升系统的自主决策、信息处理和执行操作能力,从而赋能现实场景。
2022年4月,美国DARPA启动In the Moment项目,以在军事决策过程中引入人工智能技术。该项目的提出背景是美国军方希望依靠技术减少人为失误。DARPA认为,去除决策过程中人的偏见,将可以“拯救生命”。DARPA称,训练新的人工智能系统需要两年时间,再经过18个月准备后,新系统将会投入使用。
2022年6月,美国亚马逊公司高级副总裁罗赫特·普拉萨德(Rohit Prasad)称,亚马逊正在研发一个系统,可使其人工智能语音数字助理Alexa在听到任何时长不超过1分钟的音频后,就可模仿其中的人声。该技术在互联网上的演示引发了隐私和安全相关的热烈讨论——人们对于可能出现伪造声音的情况表示担忧,如使用伪造录音实施绑架诈骗等。
2022年7月,美国微软公司亚洲研究院开发出一款名为“女娲·无限版”(NUWA-Infinity)的人工智能图像生成软件。该软件在一种基于自回归的生成模型上开发而来,能够实现5种高清视觉任务,分别为:让图像动起来(Image Animation)、根据文本生成视频(Text-to-Video)、根据文本生成图像(Text-to-Image)、图像补全(Image Outpainting)和图像生成(ImageGeneration)。研究人员只需导入图片,或是输入一段文字,该软件就能进行更细致的拓展,最终生成一幅完整的高清图像,甚至是一段视频。
2022年8月,美国加利福尼亚大学洛杉矶分校(UCLA)等机构组成的研究团队开发出一种新型可解释人工智能(ExplainableArtificial Intelligence, XAI)范式,其系统可向人类用户解释其决策过程,并能主动接受用户的反馈对决策进行调整。过去,可解释人工智能主要关注“被动机器-主动用户”范式,在这个范式中,用户对人工智能过程的理解和对其预期的信任不会影响人工智能未来的决策过程。UCLA研究团队在可解释人工智能中引入“主动机器-主动用户”范式,意味着人类和机器人可以实现某种“价值一致性”,这也是第三代人工智能的“情景适应”特征。未来,该新型人工智能范式有望用于增强人机协作,包括机器人、智能助理和游戏辅助等。
022年10月,美国人工智能分析和网络工程解决方案提供商BigBear.ai表示,该公司正为美国陆军开发全球部队信息管理(Global Force Information Management, GFIM)系统的智能自动化平台,以取代其14个老旧系统。该项目建立在BigBear.ai之前成功交付的GFIM系统第一阶段的原型机之上,合同期为9个月,价值1480万美元。GFIM系统旨在为美国陆军提供军队数据的“整体视图”,通过自动化流程提高风险感知和战场决策能力。