2024年2月16日凌晨,OpenAI发布了首个视频生成模型Sora,效果炸裂,虽然不是大家期待已久的GPT-5,但意义我觉得不亚于一年前发布的GPT-4。
对比 AI 视频里 Runway、Pika、Google 和 Meta 这些主流玩家, Sora 的特别之处在于:
能够生成具有多个角色、特定类型动作和主题背景的复杂视频,时长为一分钟的高保真视频。
可以在单个生成的视频中创建多个镜头,模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格。
以下是本篇文章正文内容为报告翻译版, Sora详细的技术报告刚OpenAI发布了,相关从业人员感兴趣都要了解一下,毕竟走在前沿的还是OpenAI啊。里面有训练思路以及Sora详细的技术特征,同时还产生了类似涌现的能力。
报告核心内容:
(1)我们将所有类型的视觉数据转化为统一表示的方法,从而能够大规模训练生成模型。
(2)对 Sora 的能力和局限性进行定性评估。本报告不包含模型和实施细节。
Sora 的训练受到了大语言模型(Large Language Model)的启发。这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。
从技术上看,Sora和DALLE-3一样都是采用扩散模型架构,即从一个随机噪音开始逐步去噪生成一个视频,这个一个比较成熟的技术方案。不过最近谷歌的几个视频生成工作如VideoPoet是采用基于Transformer的自回归方案。在文生图领域,扩散模型是主导,那么在视频生成领域自回归会不会更胜一筹,这个还有待未来的验证。
同时Sora的模型采用Transformer,像ViT一样将图像或者视频转成patches(类似文本tokens)送入Transformer模型。采用Transformer的一个优势是有很好的scaling性能。我估计这里为了减少计算量,还可能会采用latent diffusion,类似Meta之前的DiT。从最新的技术报告上看,确实是先用Visual Encoder将视频转到latent空间,然后再分解成patches:
对于给定的压缩输入视频,提取一系列时空区块,它们在变换器模型中充当标记(token)。这种方案同样适用于图像,因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中,可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。
随着 Sora 训练计算量的增加,样本质量有了显著提升。
Sora训练时没有对素材进行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。
针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。
Sora还使用 DALL·E 3 的recaption技巧,即为视觉训练数据生成高度描述性的caption,这让Sora能够更忠实地遵循生成视频中用户的文本指令,而且会支持长文本,这个应该是OpenAI独有的优势。还利用 GPT 将简短的用户提示转换为更长的详细字幕,然后发送到视频模型。这使 Sora 能够准确遵循用户提示生成高质量的视频。
许多先前的工作已经研究了使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络,自回归变压器和扩散模型,这些作品通常关注一小类视觉数据、较短的视频或固定大小的视频。Sora 是视觉数据的通用模型,它可以生成不同时长、长宽比和分辨率的视频和图像,最多可达一分钟的高清视频。
我们发现,视频模型在大规模训练时表现出许多有趣的涌现能力。这些功能使 Sora 能够模拟物理世界中人、动物和环境的某些方面。这些属性的出现对3D、物体等没有任何明确的归纳偏差——它们纯粹是尺度现象。
三维空间的连贯性:
Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。
长期连续性和物体持久性
视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。我们发现,Sora通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,我们的模型可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,在整个视频中保持它们的外观。
与世界互动
Sora 有时可以以简单的方式模拟影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。
模拟数字世界
Sora还能够模拟人工过程,例如视频游戏。Sora 可以同时通过基本策略控制 Minecraft 中的玩家,同时还可以高保真地渲染世界及其动态。这些功能可以通过提示 Sora 提及“Minecraft”来零触发。
这些功能表明,继续扩大视频模型的规模,是开发物理和数字世界以及其中的物体、动物和人的高功能模拟器的一条大有可为的途径。
我们相信,Sora今天所拥有的能力表明,视频模型的持续扩展是一条有前途的道路,可以开发物理和数字世界以及生活在其中的物体、动物和人的模拟器。
OpenAI 的研究论文《Video generation models as world simulators》探讨了在视频数据上进行大规模训练生成模型的方法。这项研究特别关注于文本条件扩散模型,这些模型同时在视频和图像上进行训练,处理不同时长、分辨率和宽高比的数据。研究中提到的最大模型 Sora 能够生成长达一分钟的高保真视频。以下是论文的一些关键点:
研究者们将所有类型的视觉数据转换为统一的表示,以便进行大规模的生成模型训练。Sora 使用视觉补丁(patches)作为其表示方式,类似于大型语言模型(LLM)中的文本标记。
研究者们训练了一个网络,将原始视频压缩到一个低维潜在空间,并将其表示分解为时空补丁。Sora 在这个压缩的潜在空间中进行训练,并生成视频。
Sora 是一个扩散模型,它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。
Sora 能够生成不同分辨率、时长和宽高比的视频,包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容,或者在生成全分辨率视频之前快速原型化内容。
为了训练文本到视频生成系统,需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术,首先训练一个高度描述性的标题生成器,然后为训练集中的所有视频生成文本标题。
Sora 不仅能够基于文本提示生成视频,还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务,如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。
当视频模型在大规模训练时,它们展现出了一些有趣的新兴能力,使得 Sora 能够模拟物理世界中的某些方面,如动态相机运动、长期一致性和对象持久性等。
讨论:尽管 Sora 展示了作为模拟器的潜力,但它仍然存在许多局限性,例如在模拟基本物理交互(如玻璃破碎)时的准确性不足。研究者们认为,继续扩展视频模型是开发物理和数字世界模拟器的有前途的道路。
https://openai.com/research/video-generation-models-as-world-simulators
关注博主了解更多前沿AI资讯,您的关注是我更新的动力!