扩散 Transformer 策略:用于通才视觉-语言-动作学习的规模化扩散 Transformer
25年2月来自上海AI实验室、浙大、香港中文大学、北大、商汤科技、清华和中科院香港科学创新研究院的论文“DiffusionTransformerPolicy:ScalingDiffusionTransformerforGeneralistVision-Language-ActionLearning”。最近,在多样化的机器人数据集上进行预训练的大型视觉-语言-动作模型,已展示出利用少量域内数据泛化到