openAI的sora的技术原理是什么

OpenAI的Sora模型是一个视频生成模型,与GPT模型类似,Sora使用了Transformer架构,有很强的扩展性。

Sora从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,视频也从最初的随机像素转化为清晰的图像场景。这种工作方式类似于OpenAI的图像生成工具DALL-E。用户输入想要的场景,Sora会返回一个高清视频剪辑。此外,Sora还可以生成受静态图像启发的视频剪辑,并扩展现有视频或填充缺失的帧。

在数据方面,OpenAI将视频和图像表示为patch,类似于GPT中的token。

Sora是一种扩散模型,从噪声开始,能够一次生成整个视频或扩展视频的长度,关键之处在于一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。

通过这种统一的数据表示方式,可以在比以前更广泛的视觉数据上训练模型,涵盖不同的持续时间、分辨率和纵横比。

Sora建立在过去对DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述提示词技术,为视觉训练数据生成高度描述性的标注,因此能够更忠实地遵循用户的文本指令。

除了能够仅根据文本指令生成视频之外,该模型还能够获取现有的静态图像并从中生成视频,准确地让图像内容动起来并关注小细节。
该模型还可以获取现有视频并对其进行扩展或填充缺失的帧。

你可能感兴趣的:(transformer)