革新智能机器人训练工具

目录

莫拉维克悖论

Eureka  Habitat 3.0

大语言模型

零样本学习 Zero-Shot Learning

Human Feedback

META发布的HABITAT 3.0

 Habitat 3.0提供了三个方面的贡献


莫拉维克悖论

莫拉维克悖论是由人工智能和机器人学者所发现的一个和常识相佐的现象。和传统假设不同,人类所独有的高阶智慧能力只需要非常少的计算能力,例如推理,但是无意识的技能和直觉却需要极大的运算能力。这个理念是由汉斯·莫拉维克、罗德尼·布鲁克斯、马文·闵斯基等人于1980年代所阐释。语言学家史蒂芬·平克在1994年写道:“35年人工智能研究的主要教训是,困难的问题很容易,容易的问题反而很难。

革新智能机器人训练工具_第1张图片

Eureka  Habitat 3.0

时间1020日,英伟达、Meta各自发布了重磅机器人训练工具。英伟达开发的AI代理Eureka可以教会机器人复杂的运动控制技能,比如转笔、打开抽屉和柜子、抛球和接球、操作剪刀。英伟达称这一突破将重新定义机器学习。Meta则推出了Habitat 3.0模拟器,可教授机器人如何与物理世界进行交互,Meta将其称为“社交智能机器人研发路上的里程碑”

Eureka的全称是Evolution-driven Universal Reward Kit for Agent,本质是一种由大模型驱动的算法生成工具。借助GPT-4写代码的能力,Eureka拥有了出色的奖励函数设计能力,可以自主编写奖励算法来训练机器人。英伟达称,在29种不同的开源强化学习(RL)环境中,Eureka奖励设计的性能达到了人类水平,这些环境包括10种不同的机器人形态(四足机器人、四旋翼机器人、双足机器人、机械手以及几种灵巧手)。在没有任何特定任务提示或奖励模板的情况下,Eureka生成的奖励程序在超过80%的任务上优于专家编写的奖励程序。这使得机器人的平均性能提高了50%以上

项目地址:https://github.com/eureka-research/Eureka

大语言模型

  • 大型语言模型( LLM )是一种以其实现通用语言理解和生成能力而引人注目的语言模型。 LLM 通过在训练过程中利用海量数据学习数十亿个参数,并在训练和运行过程中消耗大量的计算资源来获得这些能力。 LLM 是人工神经网络(主要是 Transformer )并使用自监督学习和半监督学习进行(预)训练。
  • 作为自回归语言模型,它们的工作方式是接收输入文本并反复预测下一个标记或单词。直到2020年,微调是一个模型能够适应特定任务的唯一方式。然而,更大规模的模型,例如 GPT-3 ,可以通过引导设计来实现类似的结果。人们认为它们获得了关于句法、语义和人类语言语料库中固有的 " 本体论 " 的具体知识,但同时也包含语料库中的不准确性和偏见
  • 著名的例子包括OpenAI的 GPT 模型(例如 GPT-3.5 GPT-4 ,用于 ChatGPT )、 Google PaLM (用于 Bard )、 Meta LLaMa ,以及 BLOOM Ernie 3.0 Titan Anthropic Claude 2.

零样本学习 Zero-Shot Learning

  • DL :数据饥渴技术。高准确率仰赖大量有标注数据进行训练,主要关注已见标签类别的分类。然而实际场景下,面对未见实例分类,传统方法不适用。因为现实世界中,标注数据有限且获取成本高。
  • 当标注数据量比较少时、甚至样本为零时,还能不能继续?
  • 我们将这样的方法称为小样本学习 Few-Shot Learning ,相应的,如果只有一个标注样本,称 One-Shot Learning ,如果不对该类进行样本标注学习,就是零样本学习 Zero-Shot Learning.

Human Feedback

  • Eureka通过人类反馈(RLHFIn-Context Reinforcement Learning from Human Feedback)实现上下文中的强化学习。系统可以利用人类反馈来修改奖励函数,逐步引导代理的行为更安全和更符合人类需求。具体示例中,系统使用少量人类反馈教导了一个人型机器人如何直立奔跑,取代了之前基于自动化奖励反馈的方法。最终,通过Eureka系统学得的行为比起最初由Eureka系统学得的人形机器人奔跑方式更受人类用户广泛偏好。
  • RLHF要求人类与智能系统进行交互。智能系统执行一系列动作,并将当前状态的表示发送给人类。人类观察到当前状态,并提供反馈,例如评估当前输出的好坏或给出改进建议。智能系统收集人类的反馈,并将其与当前状态和智能系统采取的动作相关联。
  • 这些反馈可以是明确的,例如好坏评估分数,也可以是隐式的,例如人类指导性的建议。收集到的人类反馈需要与强化学习算法相结合,以指导智能系统的学习。常见方法是将人类反馈转化为奖励信号,与环境提供的奖励信号相结合。这可以通过将人类反馈作为奖励函数的一部分进行加权来实现

革新智能机器人训练工具_第2张图片

  • 在收集和整合人类反馈之后,强化学习算法使用这些反馈来更新智能系统的策略。更新可以使用传统的强化学习算法,例如Q-learning或策略梯度方法等。人类反馈的加入可以改变奖励信号的分布,从而影响智能系统的学习过程。RLHF训练是一个迭代过程。智能系统通过与人类的交互不断收集反馈,并在每次迭代中更新策略。随着时间的推移,智能系统可以逐渐减少对人类反馈的依赖,更加独立地进行学习和决策.

META发布的HABITAT 3.0

 Meta 也是为训练机器人而设计的。 据介绍,3.0是第一个支持在多样化、真实的室内环境中大规模训练人机交互任务的模拟器。

革新智能机器人训练工具_第3张图片

 Habitat 3.0提供了三个方面的贡献

  •  准确的人形仿真(humanoid simulation):解决了建模复杂可变形物体和外观运动多样性的挑战,同时确保高速仿真。
  • 人机交互基础设施(Human-in-the-loop infrastructure):通过鼠标/键盘或虚拟现实界面,使真实人类可以与仿真机器人进行交互,促进通过人类输入评估机器人策略。
  • 协作任务:研究两个协作任务,社交导航和社交重新排列。社交导航研究机器人在未知环境中定位和跟随人类化身的能力,而社交重新排列则解决了机器人与人类化身在重新排列场景时的协作问题。

你可能感兴趣的:(机器人,人工智能)