论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control
π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert,并结合了flowmatching方法训练的自回归模型,能够直接输出模型的actionchunk(50)。π0采用FlowMatching技术来建模连续动作的分布,这一创新使模型能够精确控制高频率的灵巧操作任务,同时具备处理多模态数据的能力。架构受到Transfusion的启发:通过单一Transformer处理多目标任务