开源:NVIDIA Isaac GR00T N1 一个机器人多模态行为推理基础模型

  研究背景与目的:通用机器人需要兼具多样的身体和智能的大脑。尽管人形机器人硬件平台已取得进展,但要实现通用自主性,还需一个在大规模多样化数据上训练的机器人基础模型,使机器人能够推理新情况、稳健处理现实世界的变化并快速学习新任务。
  方法与创新点:介绍GR00T N1,一个面向通用人形机器人的开放基础模型。它是一个视觉-语言-行动(VLA)模型,采用双系统架构。视觉-语言模块(系统2)通过视觉和语言指令解释环境,随后的扩散Transformer模块(系统1)实时生成流畅的电机动作。两模块紧密耦合并端到端联合训练。
  训练数据:使用包括真实机器人轨迹、人类视频和合成数据集的异构混合数据训练GR00T N1。
  性能表现:在多个机器人实体的标准仿真基准测试中,GR00T N1优于最先进的模仿学习基线。在Fourier GR-1人形机器人上进行语言条件的双臂操作任务实验,也表现出色且数据效率高。

1. 引言

  技术进展:近年来,机器人硬件、人工智能和加速计算的进步为人形机器人通用目的自主性的发展铺平了道路。
  全栈解决方案需求:迈向人类水平的物理智能,需要整合硬件、模型和数据的全栈解决方案。硬件决定能力范围,世界多样性和变化性要求通用机器人模型,而现实世界人形数据获取成本高、耗时。
  基础模型的潜力与挑战:基础模型在理解和生成视觉和文本数据方面带来了突破,其在相关AI领域的成功为构建通用机器人智能“骨干”提供了路线图。然而,人形机器人数据不存在互联网规模的公开数据集,且不同人形硬件间差异大,导致数据孤岛问题。

2. GR00T N1基础模型

  模型架构:GR00T N1是一个视觉-语言-行动(VLA)模型,包含处理视觉和语言输入的视觉-语言骨干和输出高频动作的基于扩散Transformer的流匹配策略。采用NVIDIA Eagle-2 VLM作为视觉-语言骨干。
关键特性:
  设计了一个结合视觉-语言模型(系统2)推理模块和扩散Transformer(系统1)动作模块的组合模型,在统一学习框架中实现推理和行动的协调。
  开发了有效的预训练策略,使用人类视频、模拟和神经生成数据以及真实机器人演示的混合数据,以实现泛化和鲁棒性。
  训练了一个大规模多任务、语言条件的策略,支持多种机器人实体,并通过数据高效后训练实现新任务的快速适应。

3. 数据来源与处理

  数据金字塔:将训练语料组织成金字塔结构,底层是大量网络数据和人类视频,中间层是通过物理模拟生成或通过现成神经模型增强的合成数据,顶层是物理机器人硬件上收集的真实世界数据。
  协同训练策略:开发有效的协同训练策略,在预训练和后训练阶段学习整个数据金字塔。
  动作数据获取:对于没有动作数据的人类视频和神经轨迹,学习潜在动作码本并使用训练好的逆动力学模型(IDM)推断伪动作,将这些数据作为额外机器人实体用于模型训练。

4. 实验评估

  仿真基准测试:在三个不同的仿真基准测试中评估GR00T N1模型,包括RoboCasa厨房、DexMimicGen跨实体套件和GR-1桌面任务,涵盖多种机器人实体和操作任务。
  真实世界实验:在GR-1人形机器人上进行桌面操作任务套件的实验,评估模型从少量人类演示中获取新技能的能力。
  结果:在仿真和真实世界基准测试中,GR00T N1在多种机器人实体和操作任务上表现出色,优于其他基线模型,且具有高数据效率。

5. 相关工作

  机器人基础模型:最近对开发和使用机器人基础模型很感兴趣,一种方法是利用预训练基础模型作为高层次推理模块,另一种方法是对机器人数据进行微调以构建VLA模型,GR00T N1采用类似方法进行训练。
  机器人学习数据集:机器人学习面临大规模、多样化和具身数据的稀缺问题,常用方法包括机器人遥操作、仪器化人类演示和利用人类视频数据集。
  机器人合成数据生成:与现实世界机器人数据收集相比,模拟中数据收集更高效,但存在模拟到现实的差距。使用神经生成模型增强现有机器人演示数据是新途径。

6. 结论

  贡献:提出了GR00T N1,一个开放的人形机器人基础模型,具有双系统模型设计、异构训练数据和多机器人实体支持。在仿真基准和真实GR-1人形机器人上系统评估,证明其具有强大的泛化能力,可让机器人以高数据效率学习多样化操作技能。
  未来工作:计划将GR00T N1的能力扩展到长时域机动作,需要在人形硬件、模型架构和训练语料方面取得进展。同时,改进合成数据生成技术和探索新模型架构及预训练策略,以增强通用机器人模型的鲁棒性和泛化能力。

你可能感兴趣的:(前沿,机器人,人工智能,多模态)