Sora 来了!

2月16日凌晨,OpenAI 推出了视频生成模型 Sora。

Sora 可以基于用户提供的提示词,生成长达一分钟的高质量视频,大大突破了当前一些视频生成模型的能力,为视频生成领域带来了革命性进步。

目前 OpenAI 官网已经更新了48个视频demo。在这些演示视频中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。Sora 模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

尽管 Sora 还未公开使用,但已经引发了广泛热议。消息一经发布,世界就像是滚烫的油锅中浇入了一杯水,立刻“炸裂”起来。

英伟达的科学家认为,Sora是一个数据驱动的物理引擎。它模拟了许多真实或虚幻的世界。模拟器通过一些去噪和梯度数学,学习复杂的渲染、 “直观”的物理、长视野推理和语义基准。

这与OpenAI在技术报告中的表示是一致的。报告称,OpenAI并未将Sora单纯视作视频模型,而是将视频生成模型作为“世界模拟器”。

360创始人周鸿祎认为, Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破 。

腾讯科技认为, Sora 表现出六种强大能力,包括文本到视频生成能力、复杂场景和角色生成能力、语言理解能力、多镜头生成能力、从静态图像生成视频能力、物理世界模拟能力。

魔搭社区开发者针对Sora技术报告展开了热烈的讨论,并根据报告内容,推测了Sora的技术架构图,认为难点在于“大”模型,“高”算力,“海量”数据。

个人观点:

1、手里有卡。OpenAI 手上有不少A卡,使得他们能做更多更深度的训练。铲子多,挖东西的效率就高。

2、身上有土。在GPT系列模型长期训练中,OpenAI 积累了世界领先的大模型工程经验,在大模型这个坑里,他们身上的“土”最多。

3、家里有数。Sora 训练数据除了利用互联网上的各种视频之外,可能还利用了相关虚拟引擎,产生了大量视频。

你可能感兴趣的:(人工智能,深度学习,计算机视觉)