AI人工智能发展的经典算法

AI人工智能发展的经典算法

文章目录

  • AI人工智能发展的经典算法
  • 前言
  • 一、智力挑战
  • 二、计算方面的挑战
  • 三、人工神经网络
  • 四、因果推理
  • 五、迁移学习
  • 六、元学习
  • 七、自主学习
  • 小结


前言

近年来,计算和信息技术(IT)飞速发展,人工智能(AI)因深度学习的空前普及和成功而确立为人类探索机器智能的前沿领域。基于此,产生了一系列突破性的研究成果,包括 Yann LeCun 提出的卷积神经网络 (CNN) 和 Yoshua Bengio 在深度学习因果推理领域的贡献 。人工智能的先驱之一杰弗里·辛顿 (Geoffrey Hinton) 于 2006 年提出深度信念网络模型和反向传播优化算法. 另一位人工智能研究者 Jürgen Schmidhuber 提出了应用最广泛的循环神经网络(RNN)、长短期记忆(LSTM)。它已成功应用于许多领域,以处理整个数据序列,例如语音、视频和时间序列数据。2016年3月,DeepMind推出的AI围棋程序AlphaGo与世界顶尖人类围棋高手李世石对战,在世界范围内引起了前所未有的关注。这场划时代的人机大战以人工智能的压倒性胜利而告终,成为将人工智能浪潮推向一个全新高度的催化剂。

人工智能的另一个重要推动者是大型预训练模型的出现,这些模型已经开始广泛应用于自然语言和图像处理,以在迁移学习的帮助下处理各种各样的应用。例如,GPT-3 已经证明,具有高度结构复杂性和大量参数的大模型可以提高深度学习的性能。受 GPT- 3的启发,出现了许多大规模的深度学习模型。

计算能力是支撑智能计算的重要要素之一。面对信息社会海量的数据源、异构的硬件配置和不断变化的计算需求,智能计算主要通过垂直和水平架构来满足智能任务的计算能力需求。以同构计算基础设施为特征的垂直架构主要通过应用智能方法来提高计算能力以提高资源利用效率。相比之下,水平架构协调和调度异构和广域计算资源,以最大限度地提高协同计算的有效性。例如,2020年4月,Folding@home在 3 周内结合了 400,000 名计算志愿者,实现了 2.5 Exaflops 的计算速度,超过世界上任何超级计算机。达到如此庞大的计算能力,是横向计算协作的成功。

尽管在智能和计算方面取得了巨大成功,但我们在两个领域仍然面临着一些重大挑战,


一、智力挑战

使用深度学习的人工智能目前在可解释性、通用性、可进化性和自主性方面面临着重大挑战。与人类智能相比,当前大多数人工智能技术的作用都很弱,而且只能在特定领域或任务中发挥良好作用。实现强大而通用的人工智能还有很长的路要走。最后,从基于数据的智能升级到更多样化的智能,包括感知智能、认知智能、自主智能和人机融合智能等,也面临着重大的理论和技术挑战。

二、计算方面的挑战

数字化浪潮带来了前所未有的应用、连接、终端和用户的增长,以及产生的数据量,都需要巨大的计算能力。例如,人工智能所需的计算能力每 100 天翻一番,并预计在未来 5 年内增长超过 100 万倍。随着摩尔定律的放缓,跟上如此快速增长的计算能力需求变得极具挑战性。此外,智能社会中的巨型任务依赖于各种特定计算资源的高效组合。此外,传统的硬件模式不能很好地适应智能算法,制约了软件的发展。

迄今为止,智能计算还没有一个被普遍接受的定义。一些研究者将智能计算视为人工智能与计算技术的结合。根据AI的发展,它标志着智能计算系统的3个不同的里程碑。这种观点将智能计算的定义局限在人工智能领域,而忽略了人工智能固有的局限性以及人、机、物三元交互的重要作用。另一种思想流派将智能计算视为计算智能。该领域模仿人类或生物智能,以实现解决特定问题的最佳算法并将智能计算主要视为一种算法创新。然而,它没有考虑计算架构和物联网 (IoT) 在智能计算中发挥的重要作用。

考虑到人类社会空间、物理空间和信息空间三个基本空间日益紧密融合,我们从解决复杂科学和社会问题的角度提出了智能计算的新定义。

三、人工神经网络

20世纪80年代以来,利用工程技术模拟人脑神经系统的结构和功能,构建人工神经网络。人工神经网络通过如图7所示的许多非线性处理器模拟大脑神经元的连接。它模拟突触之间的信号传输行为与计算节点之间的输入和输出。心理学的 WS McCulloch 和数理逻辑的 W. Pitts 开发了称为 MP 模型的神经网络和数学模型在 1943 年。他们建议使用 MP 模型作为对神经元进行严格的数学描述和网络结构的基础。人工神经网络研究建立在他们发现单个神经元可以执行逻辑运算的基础上。BP 算法是由 Rumelhart 等人创建的。损失的反向传播和信号的正向传播构成了BP算法。由于多层前馈网络往往采用反向传播算法进行训练,因此多层前馈网络常被称为BP网络。

经过几十年的发展,已经提出了近 40 种人工神经网络模型,包括反向传播网络、感知器、自组织映射、霍普菲尔德网络和玻尔兹曼机等。近年来,许多经典模型,如 CNN、RNN、LSTM,已广泛应用于图像、语音、文本、图形等领域的各种分类和预测任务。人工神经网络模型的训练在很大程度上取决于数据量。随着数据量的爆炸和模型复杂度的加深,人们开始将模型的训练和应用分开。模型基于大型离线数据集进行预训练、保存,然后使用迁移学习技术应用于问题以快速解决问题。由谷歌人工智能研究所提出的 BERT 和由 OpenAI 开发的 GPT-3 是两个最著名的预训练模型。他们在自然语言处理方面取得了巨大成功 。

人工神经网络是深度学习系统的关键构建块,包括深度强化学习 (DRL) 系统。DRL 系统使用多层神经网络来解决马尔可夫决策问题 (MDP)。单代理和多代理 DRL 模型越来越多地用于智能地解决各种计算问题(例如,决策/控制和预测问题),否则这些问题无法以实时方式解决。

四、因果推理

目前的机器学习严重依赖关联模型,导致人工智能的可解释性很差。机器很难区分数据中真假因果关联。解决这个问题的关键是使用因果推理而不是通过关联进行推理,这样机器就可以使用适当的因果结构来对推理世界进行建模。Pearl 使用 3 个层次结构对因果推理进行分类. 第一层是关联,涉及数据定义的统计相关性。第二个层次是干预,它涉及到什么是可见的,以及额外的干预或行动会产生什么。第三层是反事实的,是对过去事件的反映和追溯。它回答了这个问题,“如果我们过去采取不同的行动,会有什么不同”?反事实层是最强大的层。如果模型可以回答反事实问题,那么它也可以回答有关干预和观察的问题。

Hume提供了文字说明,并最初建议使用反事实框架讨论因果关系。Lewis基于休谟的研究,通过将可能世界的语义与反事实相结合来表征因果依赖,给出了反事实框架的符号表达。维尔马等。 从实际数据中学习以预测反事实结果。Besserve 等人。提出了一个非统计框架。他们通过反事实推理揭示了网络的模块化结构,该结构由纠缠的内部变量组成。考希克等人。 设计了一个用于文档反事实操作的人在回路系统。他们建议在循环中使用反馈来消除误导性联想。

潜在结果框架是因果推理中最重要的理论模型之一。该模型由哈佛大学著名统计学家鲁宾提出,也称为鲁宾因果模型。潜在结果模型的核心是比较有或没有干预对同一受试者的影响。目标是否出现结果主要取决于分配机制。我们只能看到一个结果这一事实并不意味着另一个结果不存在。因此,描述有关潜在结果的事件更为合理。除了潜在结果模型外,结构因果模型是因果推理中使用最广泛的模型之一。结构因果模型可以描述多个变量的因果关系。Pearl 开发了一种基于外部干预的因果关系的形式化表达方法,并创造了一种从数据中探索因果关系和数据生成机制的方法 . 因果网络通过收集因果术语来确定因果关系,从而从大型文本语料库中挖掘因果模式。数据驱动的方法,例如概念网络,它手动收集信息以将因果事件编码为常识,从文本中得出因果关系。因果推理和自然语言处理可以结合起来,从大型文本语料库中提取术语或短语之间的因果关系,捕捉和理解事件和动作之间的因果关系。罗等。 使用了数据驱动的方法来解决短文本之间的常识因果推理问题。他们提出了一个框架,可以从广泛的网络语料库中自动收集因果关系,可以正确地建模项目之间因果关系的强度。达斯古普塔等。用无模型强化学习训练了一个递归网络来克服因果问题。因果表示学习的最新进展在没有手动分区先验知识的情况下检索真实世界模型。

五、迁移学习

迁移学习的基本思想是用已解决问题的策略来解决新问题,即将已有的经验迁移到过去。目前,大多数神经网络方法被用作机器学习的一个分支来训练模型。通常将训练模型的参数作为一组初始值,以降低模型训练的复杂度。迁移学习侧重于通过优化单个整体任务作为迁移源来训练样本空间中的基础模型。将合适的模型直接转移到目标域,然后使用少量标记样本对目标模型进行微调。迁移学习的初衷是为了节省人工标注的时间,使模型能够从已有的标注数据(源域数据)迁移到未标注数据(目标域数据)。它可以最大限度地利用获得的数据,减少机器学习的样本量要求。

在迁移学习中,数据分为源数据和目标数据。源数据是指与未解决任务没有直接关系的其他数据,通常是一个大数据集。目标数据与任务直接相关,数据量小。迁移学习旨在利用一些额外的数据或现有模型建立从源域到目标域的映射关系。它将常识应用到新任务中,充分利用源数据帮助模型在目标数据上进行改进。迁移学习还可以与其他模型相结合,例如联邦学习和强化学习。

根据学习风格,迁移学习可以分为 4 类。基于实例的迁移学习从源域中选择实例来帮助训练目标域。为实例分配不同的权重。实例越相似,权重越高。具有较高权重的实例具有较高的优先级。基于特征的迁移学习将目标域和源域映射到同一空间,最小化两个域分布之间的距离. 对称空间方法将源域和目标域特征空间转换为公共子空间。非对称空间方法直接将源域特征空间转换为目标域特征空间(或者相反)以实现两个域的对齐。这种方法可以解决源域和目标域之间数据分布不一致的问题,彻底解决数据缺失的问题。基于模型的迁移学习重用在源域上训练的模型,并通过微调或固定特征提取器调整模型参数。基于关系的迁移学习探索相似场景的关系,并使用源域和目标域之间关系中隐含的相关性。

六、元学习

元学习旨在帮助机器学习学习,使机器能够在真实环境中快速学习各种复杂的新任务。传统的机器学习方法是预先手动调整参数,直接在特定任务下训练深度模型,而元学习会让机器学习到所有需要人类预先设置和定义的参数变量,包括如何预先处理数据、选择网络结构、设置超参数、定义损失函数等. 从学习历史中获得的经验为机器提供了元知识。因此,它可以仅用少量数据样本快速处理新任务。元学习主要应用于少样本学习、零样本学习、无监督学习等可用数据很少的领域。元学习的提出是为了解决传统神经网络模型在少样本情况下泛化性能不足和对新任务适应性差的问题。元学习的思想通过降低各种类似任务的模型设计成本,使机器学习过程更加自主。

由于元学习的目标是通过训练数据中的元知识快速获得学习新任务的能力,因此元学习将整个任务集视为训练示例。元学习获得初始网络参数,对训练和验证数据集具有很强的泛化能力。它对测试数据执行一些梯度下降操作来学习新任务。然后,测试模型学习后的效果。元学习通过初步训练获得模型较好的初始值,然后在初始值的基础上用少量的训练数据更新具体任务的权重,从而达到较好的效果。元学习也可以看作是寻找一组高灵敏度的参数。基于这些参数,只需要几次迭代就可以在新任务上取得理想的结果。

迄今为止最有影响力的元学习模型是与模型无关的元学习 (MAML)。MAML 不是深度学习模型,更像是一种训练技术。它的目标是为一组任务训练一组微调参数,而不是为特定任务训练模型。因此,MAML 的输入是任务,而不是数据。MAML 使用一组自适应权重,经过几次梯度下降后可以很好地适应新任务。然后,找到这个权重就是训练目标。MAML 迭代训练一批任务。在每一次迭代中,它先训练batch中的每一个task,然后回到原来的状态,综合判断这些task的损失,然后选择一个适合batch中所有task的方向。

七、自主学习

元学习可以通过从相似的任务集中学习来处理特定类型任务的通用解决方案模型,并且可以在任务之间迁移学习。然而,这种学习能力只能在同类任务之间迁移,即使任务的支持集和查询集大小也严格对齐。自主学习旨在从被动的数据接受和训练转变为主动学习,提高学习效率,这是图灵奖获得者 Yann LeCun考虑的方向。除了更高层次的迁移学习能力,外部开放世界的模型被纳入自主智能架构的设计中。

人类和其他动物总是能够通过观察和少量互动,以无人监督的方式学习大量关于万物如何运作的背景知识。这种知识就是我们所说的常识,它是世界模型的基础。LeCun 设计了一个学习框架,允许机器以自我监督的方式(即没有标记数据)学习“世界模型”。他使用该模型进行预测、推理和行动。在这个模型中,他从各个学科中提取有价值的想法,并将这些想法结合起来,提出了一个由6个模块(配置模块、感知模块、世界模型模块、成本模块、动作模块和短期记忆模块)组成的自主智能框架。每个模块都可以轻松计算目标函数。

这种自主智能认知框架中的大多数模块都类似于动物的大脑。感知模块对应于处理视觉、听觉和其他感觉通路的皮层。世界模型对应于前额叶皮层的部分高级处理单元。内在成本模块对应于杏仁核。然而,可训练的批评成本模块对应于负责奖励预测的前额叶皮层部分。短期记忆模块可以对应海马体。同时,配置器对应于前额叶皮层中的中枢控制和注意力调节机制。演员模块对应于运动前皮层。通过这种高度类脑的设计,不仅跨任务的学习能力迁移看起来很有前途。

小结

温故而知新

你可能感兴趣的:(人工智能,人工智能,深度学习,算法)