NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”

NVIDIA AI 的研究科学家 Jim Fan 在TED做了一次关于Foundation Agent的分享,我看完感到非常震撼,反复看了好几遍。这里给大家分享下我整理的简要中文文字版,想看英文原视频的见文章最底部的链接。

人工通用智能的研究框架

Jim Fan 认为现在针对一般能力的人工智能代理的研究工作主要是围绕着三个轴,分别是:代理可以执行的技能数量(能力),代理可以控制的身体形式或体现(具身化),以及代理可以掌握现实的能力(感受现实和反应)。

NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”_第1张图片

人工通用智能的研究目标

他之前被AlphaGo战胜世界围棋冠军感到震撼,但是后来发现AlphaGo的技能太少了,只会下围棋。他认为人工智能代理的目标是右上方,也就是技能,具身化和现实三个轴同时都有不错的能力的人工智能agent。

NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”_第2张图片

能力学习方向 Voyager

能力轴上他分享了他领导研究的 Voyager,这是一个在《我的世界》游戏中可以大规模扩展多种技能的代理。只需要给Voyager设定一个高层目标“尽可能获得多的独特物品”,然后它就可以自己不断地玩游戏,探索地形,开采各种材料,对抗怪物,制作数百种食谱等等,并解锁不断扩大的技能树。

NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”_第3张图片

这个代理的核心是将编码作为行动。首先,研究人员将3D世界转换为文本表示,然后调用GPT4编写js代码,这些js代码将成为游戏中的技能。代码写错了,有bug怎么办?那就增加一个“自我反思机制”来改进和提高。它利用三种反馈源:代码编译或执行报错,agent自身的状态(生命值,饥饿值等等)还有世界状态(附近的地形和物体,比如森林,树木,动物,金属等等)。

Voyager 根据自身状态和世界状态采取一个行动(写一段代码),观察行动对自身状态和世界状态的影响(观察代码是否可以正确运行,以及运行后对自己和世界的影响),反思如何做得更好(根据代码错误、代码执行后的影响反馈调整代码,使得代码可以正确编译运行并带来正收益)。它不断地尝试新的行动和计划,并反复进行。一旦技能成熟(代码可以编译和运行,并且运行后可以获得正收益),Voyager 就把它保存到技能库中,后边可以持续使用。技能库其实就是一个代码库,可以执行并且执行后能得到正反馈的代码保存在里边。

在这个探索过程中,Voyager不仅能掌握技能,还可以发现新技能。而这一切并没有预编程,都是Voyager自己的主意。这里可以看到一个终身学习的人工智能的雏形。agent永远好奇,永远追求新的尝试。相比AlphaGo,Voyager大幅拓展了agent能做的许多事情。

NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”_第4张图片

具身化方向 MetaMorph

虽然Voyager学会了很多技能,但它只能在《我的世界》中控制一个角色。那能不能有一个算法,可以控制不同的身体或其他形式的体现?MetaMorph就是这样一个研究项目。

NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”_第5张图片

这是一个基础模型,它可以同时控制成千上万的具有不同的手臂和腿部配置的机器人。MetaMorph 能够同时处理不同机器人身体的极其不同的运动特性。

NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”_第6张图片

MetaMorph的核心思想如下图所示,首先创造不同的词汇表来描述身体部位,这样每个机器人身体基本就是一个用词汇表编写的句子。然后将这些句子输入到类似于ChatGPT的tranformer结构中,但是这个transformer不是像ChatGPT那样输出文字,而是输出电机控制指令。

NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”_第7张图片

MetaMorph能够控制数千个机器人上楼,穿越复杂地形以及避开障碍物。未来,如果我们能够大大拓展这个机器人的词汇量,MetaMorph 2.0 应该可以推广到机器人手,人形机器人手,狗,无人机甚至其他具身形态。

现实感知和反应方向 IsaacSim

NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”_第8张图片

IsaacSim 最大的优势是加速物理模拟,它可以比现实中快1000倍以上。

NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”_第9张图片

比如上图的机器人手练习,以及下图的机器人学习武术,它可以仅用三天的模拟时间就可以完成在现实中要十年才能完成的刻苦练习。这很像《黑客帝国》中的虚拟陪练道场。

NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”_第10张图片

更重要的是,IsaacSim可以按程序生成世界,具有无限的变化,因此没有两个看起来是相同的。一个有趣的想法,如果agent可以掌握1万次模拟,那么也许就可以推广到现实中,这就是第1万零1个现实。

Foundation Agent

当我们在下图沿着不同的轴往前走的,我们最终会达到右上角,这就是Foundation Agent。这是一个具备三个轴的能力的代理。

NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”_第11张图片

Jim Fan 认为训练Foundation Agent将与训练ChatGPT非常相似。ChatGPT是文本进去,文本出来。

NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”_第12张图片

Foundation Agent就是具身化提示和任务提示进去,行动出来。

NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”_第13张图片

Jin Fan最后表示:他坚信未来所有可以移动的东西都将实现自主控制。

TED视频链接:

https://www.ted.com/talks/jim_fan_the_next_grand_challenge_for_ai

你可能感兴趣的:(人工智能)