OpenAI 文本创建视频模型 Sora 技术报告

原文地址:Video generation models as world simulators

作为世界模拟器的视频生成模型

我们探讨了在大规模视频数据上进行生成模型的训练。具体来说,我们对视频和不同时长、分辨率和宽高比的图像进行文本条件扩散模型的联合训练。我们利用了一种变压器架构,该架构对视频和图像潜在代码的空间时间块进行操作。我们最大的模型Sora能够生成高保真度的视频。我们的结果表明,扩大视频生成模型是一个很有前途的通用物理世界模拟器构建途径。

东京街上的时尚女性,Sora生成

 本技术报告侧重于(1)我们用于将所有类型的视觉数据转换为统一表示的方法,以便对生成模型进行大规模训练,以及(2)对Sora的能力和局限性的定性评估。本报告中不包含模型和实现细节。

许多先前的工作已经使用各种方法研究了视频数据的生成建模,包括递归网络,生成对抗网络,自回归变换器,以及扩散模型。这些工作通常专注于视觉数据的狭窄类别,或者较短的视频,或者固定大小的视频。Sora是一个视觉数据的多面手模型——它可以生成跨越不同时长、宽高比和分辨率的视频和图像,直至一分钟的高清视频。

将视觉数据转换为图像块

我们从大型语言模型中获得灵感,这些模型通过在互联网规模的数据上进行训练获得了多面手的能力。LLM范式成功的一部分原因是使用了令牌(tokens),这些令牌优雅地统一了文本的多样化模态—代码、数学和各种自然语言。在这项工作中,我们考虑了视觉数据的生成模型如何继承这些好处。尽管LLMs有文本令牌,但Sora有视觉图像块(patches)。之前的研究已经表明图像块对于视觉数据模型来说是一种有效的表示。我们发现图像块在训练不同类型视频和图像的生成模型时,是一种高度可扩展且有效的表示。

OpenAI 文本创建视频模型 Sora 技术报告_第1张图片

<

你可能感兴趣的:(LLM,人工智能,语言模型)