具身智能VLA(视觉-语言-动作)入门+RTX4060+Ubuntu22.04

从2024年的11月20日开始到现在差不多有2个月,总结一下这段时间的VLA学习经历。我也自己学习的代码都整理到GitHub上了,链接:GitHub - hzm8341/vla_tutorial: how to learn vla

欢迎大家点赞和留言,有问题我会尽快回答。

第一个阶段:学习transformer和大模型:

我喜欢刷微信的短视频,看到了入门的课程:GitHub - rasbt/LLMs-from-scratch: Implement a ChatGPT-like LLM in PyTorch from scratch, step by step

非常棒的入门课程,真的非常棒,我看了很多transformer的教程,这个书籍是完整的,我看了2周,一口气把书看完了,真的很爽。你可以把PDF导入到论文阅读-ReadPaper - 轻松读论文 | 专业翻译 | 一键引文 | 图表同屏

这个网站去阅读,因为它可以提供翻译,单词和句子都有。

第二个阶段:看VLA论文:

如果第一个阶段你坚持下来了,英文应该有个提升,我感觉自己是这样的。然后我看了几个关键的论文,我推荐几个最新的论文:DINOv2、openVLA、Diffusion policy、diffusion VLA、tinyVLA。论文里面还有关联的经典论文,我就不在这里列举了,大家看论文的时候可以去查阅。看论文也可以readpaper这个网站去阅读。

第三个阶段:动手实践:

我的目标是把Diffusion VLA手搓出来,看了论文,我就规划一点点来。分为以下步骤:

1、会微调一个视觉语言大模型,我选择了Qwen2-vl-2B,因为我可以找到教程;

2、会修改image的input,改成ResNet,先往前走一步,继续用coco caption的数据集LoRA微调Qwen2-VL-2B模型;

3、将ResNet替换成DINOv2,再次微调Qwen2-VL-2B。

4、在本地动手做一下Diffusion policy;

5、将Diffusion policy中的ResNet改成DINOv2;

6、用机器人的视觉语言动作的数据集训练Qwen2-vl-2B;

7、用Diffusion+ResNet+Qwen2-vl训练VLA的数据集。

我确实也是按照上面的思路来进行的,不过目前卡在步骤7,主要是训练后模型测试效果不如Diffusion policy的模型。

上面的代码都放在GitHub上,大家可以动手试一试。所有的代码我都是在联想Y7000的笔记本电脑实现的,电脑的配置是RTX4060-8G,CPU是i7-28核,内存是16G,硬盘是三星SSD_2T。

先写到这里吧,我是一个做技术的老男人,不轻言自己已经老了,做自己喜欢的事情,哪怕这个技术一无是处。

你可能感兴趣的:(transformer,pytorch,深度学习,linux,python,VLA)