DeepMind 如何控制机器人

人工智能已经深入我们的生活,尽管你可能很难指出它的明显例子。在无数其他幕后琐事中,神经网络为我们的虚拟助手提供动力,提出在线购物建议,在我们的快照中识别人物,审查我们的银行交易以寻找欺诈证据,转录我们的语音信息,并清除可恶的社交媒体帖子. 这些应用程序的共同点是它们都涉及在受限、可预测的环境中学习和操作。

但是,将 AI 更牢固地嵌入到我们的工作和企业中是一个巨大的挑战。为了更上一层楼,研究人员正试图融合人工智能和机器人技术,以创造一种智能,可以在混乱、不可预测和无情的现实世界中做出决策并控制身体。这是一个潜在的革命性目标,引起了地球上一些最强大的技术研究组织的注意。“我认为机器人技术作为一个领域可能比计算机视觉技术落后 10 年,”谷歌位于伦敦的人工智能合作伙伴DeepMind的机器人技术主管Raia Hadsell说 。(两家公司都是 Alphabet 的子公司。)

这篇文章是我们关于人工智能的特别报告“伟大的人工智能清算”的一部分。

即使对于 Google 来说,挑战也是艰巨的。有些很难但很简单:对于大多数机器人应用程序,很难收集推动 AI 其他领域取得进展的庞大数据集。但有些问题更为深刻,并且与 AI 中长期存在的难题有关。诸如,您如何在不忘记旧任务的情况下学习新任务?你如何创建一个人工智能,将它为新任务学到的技能应用到它之前掌握的任务中?

成功意味着向新的应用类别开放人工智能。我们最迫切希望人工智能做的许多事情——驾驶汽车和卡车、在疗养院工作、灾后清理、做基本的家务、建造房屋、播种、培育和收割庄稼——只能由机器人来完成比我们现在拥有的更加复杂和通用。

除了打开潜在的巨大市场之外,这项工作还直接涉及具有深远意义的问题,不仅对机器人技术而且对所有人工智能研究,甚至对我们对自身智能的理解。

让我们先从平凡的问题开始。甲神经网络只有不如用于训练它的数据的质量和数量。海量数据集的可用性是最近人工智能取得成功的关键:图像识别软件经过数百万张标记图像的训练。AlphaGo在古老的围棋棋盘游戏中击败了一位特级大师,它接受了数十万人类游戏数据集的训练,以及它在模拟中与自己对战的数百万游戏。

但是,为了训练机器人,无法获得如此庞大的数据集。“这是一个问题,”Hadsell 指出。您可以在几分钟内模拟数以千计的围棋游戏,并在数百个 CPU 上并行运行。但如果机器人拿起杯子需要 3 秒,那么每个机器人每分钟只能做 20 次。更重要的是,如果您的图像识别系统将前一百万张图像弄错了,这可能无关紧要。但是,如果您的双足机器人在尝试行走的前 1000 次跌倒,那么您将拥有一个严重凹陷的机器人,如果不是更糟的话。

现实世界数据的问题——至少目前——是无法克服的。但这并没有阻止 DeepMind 收集它所能收集的一切,机器人在它的实验室里不断地嗡嗡作响。在整个领域,机器人研究人员正试图通过一种称为 sim-to-real 的技术来解决这种缺乏数据的问题。

位于旧金山的OpenAI实验室 最近利用这种策略训练机械手来解决魔方问题。研究人员构建了一个包含立方体和机器人手虚拟模型的虚拟环境,并训练了在模拟中运行手的 AI。然后他们将人工智能安装在真正的机器人手上,并给了它一个真正的魔方。他们的模拟到真实程序使物理机器人能够解决物理难题。

Hadsell 说,尽管取得了这样的成功,但该技术仍有很大的局限性,并指出人工智能研究员和机器人专家 Rodney Brooks “喜欢说模拟‘注定要成功’。” ” 问题在于模拟过于完美,与现实世界的复杂性太脱节了。“想象一下模拟中的两只机器人手,试图将手机放在一起,”哈德塞尔说。如果你让他们尝试了数百万次,他们可能最终发现,通过抛出所有的碎片在空中与准确的力适量,用准确适当的旋转量,他们可以在几秒钟内制造出手机:这些碎片落到机器人想要的位置,制造手机。这可能适用于完全可预测的模拟环境,但它永远无法适用于复杂、混乱的现实。目前,研究人员必须满足于这些不完美的模拟。“你可以人为地添加噪音和随机性,”Hadsell 解释说,“但没有任何当代模拟足以真正重现哪怕是一小部分现实。”

灾难性遗忘:当人工智能学习一项新任务时,它有一种不幸的趋势,即忘记所有旧任务。

还有更深刻的问题。Hadsell 最感兴趣的是灾难性遗忘:当 AI 学习一项新任务时,它不幸地倾向于忘记所有旧任务。

问题不在于缺乏数据存储。这是大多数现代人工智能学习方式所固有的。深度学习是当今最常见的人工智能类别,它基于神经网络,该网络使用类似神经元的计算节点,分层排列,通过类似突触的连接连接在一起。

在执行任务之前,例如将图像分类为猫或狗,必须先训练神经网络。第一层节点接收猫或狗的​​输入图像。节点检测图像的各种特征,要么触发要么保持安静,将这些输入传递给第二层节点。如果来自前一层的输入足够高,则每一层中的每个节点都会触发。可以有很多这样的层,最后,最后一层将呈现一个判断:“猫”或“狗”。

每个连接都有不同的“权重”。例如,节点 A 和节点 B 可能都将它们的输出馈送到节点 C。根据它们的信号,C 可能会触发,也可能不触发。但是,AC 连接的权重可能为 3,而 BC 连接的权重为 5。在这种情况下,B 对 C 的影响更大。举一个令人难以置信的过于简单的例子,如果图像中的生物具有锐利牙齿,而如果生物有长鼻子,B 可能会开火。由于鼻子的长度比牙齿的锋利度更有助于区分狗和猫,因此 C 对 B 的关注比对 A 的关注多。

每个节点都有一个阈值,超过该阈值就会触发,向其自己的下游连接发送信号。假设 C 的阈值为 7。那么如果只有 A 触发,它会保持安静;如果只有 B 开火,它会保持安静;但如果 A 和 B 一起开火,它们对 C 的信号加起来为 8,而 C 会开火,影响下一层。

这一切与培训有什么关系?任何学习方案都必须能够区分正确和错误的响应并相应地改进自身。如果给神经网络看一张狗的图片,它输出“狗”,那么触发的连接就会加强;那些没有的将被削弱。如果它错误地输出“cat”,则会发生相反的情况:触发的连接将被削弱;那些没有的将得到加强。

训练神经网络以区分照片是猫还是狗,使用网络中的部分节点和连接 [以红色显示,左侧]。使用一种称为弹性权重合并的技术,该网络可以在不同的任务上进行训练,区分汽车和公共汽车的图像。来自原始任务的关键连接被“冻结”,并建立了新连接 [蓝色,右图]。一小部分冻结的连接,否则将用于第二个任务,不可用 [紫色,右图]。这会略微降低第二个任务的性能。

但是想象一下,你使用你的狗和猫分类神经网络,现在开始训练它区分公共汽车和汽车。它之前的所有训练都将毫无用处。其响应车辆图像的输出最初将是随机的。但随着它的训练,它会重新加权它的连接并逐渐变得有效。它最终将能够非常准确地对公共汽车和汽车进行分类。不过此时,如果你给它看一张狗的图片,所有的节点都会被重新加权,它会“忘记”之前学到的一切。

这是灾难性的遗忘,这也是编写具有人类灵活智能的神经网络如此困难的很大一部分原因。“我们的一个经典例子是训练一个代理玩 Pong,”Hadsell 说。她说,你可以让它玩,这样它就能以 20 比 0 的比分赢得与计算机的每一场比赛;但是,如果您稍微扰动权重,例如通过在BreakoutPac-Man上对其进行训练,“那么性能将——砰!——跌入悬崖。” 突然间,它每次都会损失 20 到 0。

这一弱点不仅是为成功完成多项不同任务而构建的机器的主要绊脚石,而且对于旨在适应周围世界不断变化的环境、在必要时学习新策略的任何人工智能系统也是如此。

有办法解决这个问题。一个显而易见的方法是简单地孤立每项技能。在一项任务上训练您的神经网络,将其网络的权重保存到其数据存储中,然后在一项新任务上对其进行训练,将这些权重保存在其他地方。然后系统只需要在一开始就识别挑战的类型并应用适当的权重集。

但这种策略是有限的。一方面,它不可扩展。如果你想建造一个能够在广泛的环境中完成许多任务的机器人,你必须在每一个环境中训练它。如果环境是非结构化的,您甚至不会提前知道其中一些任务是什么。另一个问题是,这种策略不会让机器人将解决任务 A 所获得的技能转移到任务 B。这种转移知识的能力是人类学习的一个重要标志。

Hadsell 的首选方法是所谓的“弹性权重整合”。要点是,在学习任务后,神经网络将评估神经元节点之间的哪些突触连接对该任务最重要,并且将部分冻结它们的权重。“会有一个相对较小的数字,”她说。“比如说,百分之五。” 然后你保护这些权重,使它们更难改变,而其他节点可以像往常一样学习。现在,当你的Pong- playing AI 学习玩Pac-Man 时,那些与Pong最相关的神经元将大部分留在原地,并且它会继续在Pong上表现得足够好。它可能不会以 20 比 0 的比分继续获胜,

Raia Hadsell [上] 在伦敦的 DeepMind 领导一个机器人专家团队。在 OpenAI,研究人员使用模拟来训练机械手 [上图] 来解决魔方。顶部:DEEPMIND;底部:OPENAI

然而,有一个明显的副作用。每次您的神经网络学习一项任务时,它的更多神经元将变得无弹性。如果 Pong修复了一些神经元,而Breakout修复了更多神经元,“最终,随着你的代理继续学习 Atari 游戏,它会越来越固定,越来越少,”Hadsell 解释说。

这与人类学习大致相似。当我们年轻时,我们很擅长学习新事物。随着年龄的增长,我们在学过的东西上会变得更好,但发现学习新技能变得更加困难。

“婴儿开始时有更密集的连接,但连接更弱,”Hadsell 说。“随着时间的推移,这些联系变得越来越稀疏但越来越强大。它让你有记忆,但也限制了你的学习。” 她推测这样的事情可能有助于解释为什么非常年幼的孩子没有记忆:“我们的大脑布局根本不支持它。” 在一个非常年幼的孩子中,“一切都被灾难性地遗忘了,因为一切都相互关联,没有任何东西受到保护。”

Hadsell 认为,弹性损失问题是可以解决的。自 2018 年以来,她一直在与 DeepMind 团队合作,研究一种称为“进步和压缩”的技术。它涉及结合机器学习中三个相对较新的想法:渐进式神经网络、知识蒸馏和弹性权重整合,如上所述。

渐进式神经网络是避免灾难性遗忘的直接方法。不是有一个单独的神经网络来训练一个任务然后另一个任务,你有一个神经网络来训练一个任务——比如,Breakout。然后,当它完成训练时,它会冻结其连接,将神经网络移动到存储中,并创建一个新的神经网络来训练新任务——比如吃豆人。它对每个早期任务的知识都冻结在原地,因此不能忘记。当每个新的神经网络被创建时,它会从之前训练过的游戏中获取连接,因此它可以将旧任务的技能转移到新任务中。但是,Hadsell 说,它有一个问题:它不能以另一种方式传递知识,从技能到老。“如果我回去再次玩Breakout,我实际上并没有从这个 [新] 游戏中学到任何东西,”她说。“没有向后转移。”

这就是由英裔加拿大计算机科学家Geoffrey Hinton开发的知识蒸馏的 用武之地。它涉及将许多不同的神经网络在一项任务上进行训练,并将它们压缩成一个单一的网络,对它们的预测进行平均。因此,不是有很多神经网络,每个神经网络都在单独的游戏上训练,你只有两个:一个学习每个新游戏,称为“活动列”,一个包含以前游戏的所有学习,平均,称为“知识库”。首先活动列在一个新任务上接受训练——“进步”阶段——然后它的连接被添加到知识库中,并被提炼——“压缩”阶段。将两个网络描述为两个列是有帮助的。哈德塞尔,

如果你想建造一个能够在广泛的环境中完成许多任务的机器人,你必须在每一个环境中训练它。

问题是,通过使用知识蒸馏将渐进神经网络系统的许多独立神经网络集中在一起,你又把灾难性遗忘的问题带回来了。你将改变所有连接的权重并渲染你的早训练没用。为了解决这个问题,Hadsell 添加了弹性权重合并:每次活动列将其关于特定任务的学习转移到知识库时,它会部分冻结对该特定任务最重要的节点。

通过拥有两个神经网络,Hadsell 的系统避免了弹性权重合并的主要问题,即其所有连接最终都会冻结。知识库可以大到你喜欢的大小,所以几个冻结的节点并不重要。但是活动列本身可以小得多,并且较小的神经网络可以比较大的神经网络学习得更快、更有效。因此,Hadsell 说,进步和压缩模型将允许人工智能系统将技能从旧任务转移到新任务,从新任务转移回旧任务,同时永远不会灾难性地忘记或无法学习任何新事物。

其他研究人员正在使用不同的策略来解决灾难性的遗忘问题;有六种左右的研究途径。 Ted Senator是国防高级研究计划局 ( DARPA ) 的项目经理,他领导的小组正在使用一种最有前途的技术,即一种称为内部重放的技术。“它以大脑如何运作的理论为模型,”参议员解释说,“尤其是睡眠在保持记忆方面的作用。”

该理论认为,人脑会在醒着和睡着时重放当天的记忆:它会以与具有相应经历时出现的神经元相似的模式重新激活其神经元。这种重新激活有助于稳定模式,这意味着它们不会那么容易被覆盖。内部回放做了类似的事情。在学习任务之间,神经网络重新创建连接和权重的模式,松散地模仿人类神经活动的清醒-睡眠周期。该技术已被证明在避免灾难性遗忘方面 非常有效。

在寻求将具身 AI 安全带入我们的日常生活的过程中,还有许多其他障碍需要克服。“我们在符号化、数据驱动的 AI 方面取得了巨大进步,”伦敦帝国理工学院机器人技术专家 Thrishantha Nanayakkara说。“但在接触方面,我们却惨败。我们没有可以信任的机器人来安全地抱住一只仓鼠。我们不能相信机器人会在老人或孩子身边。”

Nanayakkara 指出,使动物能够与世界打交道的大部分“处理”并不发生在大脑中,而是发生在身体的其他地方。例如,人耳道的形状用于分离声波,本质上是“实时傅立叶级数”。否则,这种处理将不得不在大脑中进行,代价是宝贵的微秒。“如果,当你听到一些东西时,它们不再存在,那么你就没有融入环境,”他说。但目前大多数机器人都依赖 CPU 来处理所有输入,他认为在取得实质性进展之前必须克服这一限制。

你知道猫永远不会学习语言,我对此没有意见。

他的同事 Petar Kormushev说,另一个问题是本体感觉,即机器人对自己身体的感觉。机器人自身大小和形状的模型由人类直接编程。问题是当它拿起一个重物时,它没有办法更新自己的形象。当我们拿起锤子时,我们调整了我们身体形状和重量的心理模型,这让我们可以将锤子作为我们身体的延伸。“这听起来很荒谬,但他们 [机器人] 无法更新他们的运动学模型,”他说。他指出,刚出生的婴儿会做出随机的动作,这不仅可以为他们提供有关世界的信息,还可以提供有关他们自己身体的信息。他相信一些类似的技术适用于机器人。

在牛津大学, 英格玛波斯纳正在研究“元认知”的机器人版本。人类的思维通常被建模为有两个主要的“系统”——系统 1,它的响应迅速而直观,例如当我们接球或回答诸如“这两个块中哪一个是蓝色的?”之类的问题时,以及系统 2,它的响应更慢,更努力。当我们学习一项新任务或回答一个更困难的数学问题时,它就会发挥作用。Posner 已经在 AI 中构建了功能等效的系统。在他看来,机器人总是要么过于自信,要么不自信,当他们不知道某事时需要知道的方法。“我们大脑中有一些东西可以检查我们对世界的反应。有一点说不要

对于这些研究人员中的大多数人来说,包括 Hadsell 和她在 DeepMind 的同事,长期目标是“通用”智能。然而,哈德塞尔关于通用人工智能的想法并不常见——人工智能可以执行人类可以完成的所有智力任务,甚至更多。她说,激励自己的工作“从来都不是建立超级智能的想法”。“更重要的是:我们如何提出通用方法来开发解决特定问题的智能?” 例如,猫的智能是普遍的,因为它永远不会遇到一些使其冻结或失败的新问题。“我发现这种动物智力水平,包括在世界上令人难以置信的敏捷性,融合不同的感官方式,真的很吸引人。

Hadsell 想要构建能够学习和处理特定领域的各种问题的算法和机器人。例如,一个打算在核事故后进行清理的机器人可能有一些非常高级的目标——“使这个区域安全”——并且能够将其划分为更小的子目标,例如找到放射性物质并安全地清除它们.

我忍不住要问意识。一些 AI 研究人员,包括 Hadsell 的 DeepMind 同事Murray Shanahan,怀疑如果机器没有某种意识,就不可能构建具有真正通用智能的具身 AI。尽管拥有宗教哲学背景,Hadsell 本人却有一种非常实用的方法。

“我对意识的看法相当简单,”她说。对她来说,意识意味着一种超越“现在”的狭隘时刻进行思考的能力——使用记忆来访问过去,并使用想象力来设想未来。我们人类做得很好。其他生物,则不然:猫似乎比我们的时间范围更短,对未来的计划更少。错误,更少。她并不热衷于研究意识和其他哲学思想的难题。事实上,大多数机器人专家似乎都想避免它。Kormushev 将其比作“潜艇可以游泳吗?......争论没有意义。只要他们做我想做的事,我们就不必用这个问题来折磨自己。”

将星形钉推入星形孔似乎很简单,但对于 DeepMind 的一个机器人来说,这是一个小小的胜利。深度思维

在 DeepMind 机器人实验室中,很容易看出为什么这类问题不是最重要的。机器人捡起积木的努力表明我们还不必担心与人工意识有关的哲学问题。

尽管如此,在实验室里走来走去的时候,我发现自己在为其中一个欢呼。一个红色的机械臂正试图像蹒跚学步的孩子一样,快速地捡起一块星形积木,然后将其插入星形孔中。在第二次尝试时,它会对齐砖块,并即将将其放入插槽中。我发现自己在大喊“加油,小伙子!”激起了哈德塞尔的挑眉。然后它成功地将砖放置到位。

至少完成了一项任务。现在,它只需要在学习打Pong 的同时坚持该策略 

本文作为“如何训练多功能机器人”出现在 2021 年 10 月的印刷版中。

特别报告:伟大的人工智能清算

阅读下一篇: 深度学习的工作原理

或者查看完整报告,了解更多关于 AI 未来的文章。

从您的网站文章
  • OpenAI 教机器人手解决魔方 - IEEE Spectrum ›
  • AlphaFold 证明人工智能可以破解基础科学...... ›
  • DeepMind 的新 AI 大师游戏甚至没有被教授...... ›
网络上的相关文章
  • “它将改变一切”:DeepMind 的人工智能在……方面实现了巨大飞跃
  • DeepMind (@DeepMind) | 推特 >
  • DeepMind:主页 ›

你可能感兴趣的:(人工智能,聊天机器人,神经网络,人工智能,ai)