RT1 RT2 RTX() 学习

RT-1:

初生代的 ‘视觉-语言-动作模型’ 作品

RT-2:

RT1使用130k条机器人遥操作数据训练,展示出了其处理多种任务的能力和很强的泛化能力。但其通用性仍受限于数据集的大小。

若想要得到一个表现出当前LLMs能力的机器人大模型,收集数以亿计的机器人数据在短期内看起来是不可能的。

因此本文提出使用VLMs(trained on Internet-scale vision and language data along with robotic control data:借助其强大的对图像的理解、推理等能力,结合机器人的数据(来自于RT1数据集)和原有的数据一起来对VLMs做co-fine-tuning,使其成为VLA(vision-language-action model),直接输出机器人的控制指令,实现实时的闭环控制。

RT-X:

参考:

机器人研究迎来ImageNet时刻:一个数据集,让DeepMind具身智能大模型突飞猛进

https://robotics-transformer-x.github.io/paper.pdf

Open X-Embodiment: Robotic Learning Datasets and RT-X Models

我们知道,机器人通常在做某一件事情上非常专业,但通用能力很差。一般情况下,你必须针对每项任务、每个机器人和环境训练一个模型。改变一个变量往往需要从头开始。但是,如果我们能将各种机器人学的知识结合起来,创造出一种训练通用机器人的方法呢?

这就是 DeepMind 在过去一段时间所做的事情。他们汇集了来自 22 种不同机器人类型的数据,以创建 Open X-Embodiment 数据集,然后在之前的模型(RT-1 和 RT-2)的基础上,训练出了能力更强的 RT-X(分别为 RT-1-X 和 RT-2-X)。

Paper读后感悟:multiple datasets can improve robot behaviors success, but this obey to the corresponding models. BIg datasets need big network. Small dataset may not work well on big network

你可能感兴趣的:(学习,人工智能)