论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process

论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process_第1张图片

以前的 method 是输入视频输出视频或者输入视频和 action 学习 action,该方法认为 action,video 和 other condition 具有一定联系,所以一次性对所有的进行 joint denoise。
网络结构采用 Masked Multi-head Attention 关联不同模态,使用 DiT 的 backbone。

你可能感兴趣的:(论文阅读笔记,论文阅读,笔记,人工智能)