Sora，OpenAI新推出的一个文生视频的新模型

周宏伟视频号视频的整理
有观点认为AI将颠覆影视业、广告业、短视频，暂时还不需要如此悲观。虽然机器能产生一个60秒的好的片段，但是一部电影，一个完整的故事，是由无数个60秒组成的，这里面有很多主题的设计，剧本的编写，脚本分镜头的策划，台词的配合，都需要人的创意，所以Sora与其说会颠覆掉传统影视业，不如说会变成传统影视业有力的生产力工具。
Sora能激发更多人的创造力，带来科技平权的概念。，过去的普通人，没有合适的武器，有很多好的想法，也没有办法去组织一个班子，去拍摄一部看起来比较专业的影片，但Sora给普通人提供了可能性。它跟TikTok不是竞争，更有可能成为抖音创作者的一个有力的武器。
从画面上来看，它的技术思路不一样，因为之前做动画做图片，用的都是扩散模型，实际上都是在二维的图形上，进行各种操作，它并没有真正了解这个世界，也没有掌握这个世界的物理规律。
而Sora是用大模型结合底数的模型结合在一起。大模型最重要的不是能够人机对话，而是大模型理解了人类语言的基础之后，了解了我们这个世界的模型和知识，从而使得大模型和Diffusion结合在一起，它能够模拟物理世界的物理定律，例如在Sora产生的视频里，它能像人理解纸飞机碰到树会掉下来，一个汉堡被人咬了一口会剩下半个汉堡，Sora不仅是表象上作图的真实性，背后是它实现了对现实世界的理解和模拟两层的能力，这样产生的视频才是真实的，跳出了2D图像的范围。
这代表了未来的一个方向，有强大的大模型做底子，对整个人类知识和世界模型了解的基础之上，再叠加一些其他的技术，就可以创造出各个领域的超级工具，例如医学、物理、化学、科学等学术研究上，大模型这两年会有新的突破，用Sora来实现对物理世界的模拟，至少会对机器人具身智能和自动驾驶带来巨大的影响和突破。原来自动驾驶过度强调感知层面，而没有工作在认知层面，更对我们这个世界的物理规律没有掌握，但人在开车的时候，恰恰是需要这些知识。所以Sora不止是对画图、视频的运作能力。
OpenAI训练这个模型，应该会利用多模态的能力，阅读大量的视频，多模态和大语言模型能力相结合，对视频的理解将会远远超过只是将一些画面进行叠加。YouTube还有电影等很多视频都可能会成为训练样本，一幅图胜过千言万语，而视频传递的信息量又远远超过一幅图，所以Sora训练需要的算力和数据，所获得的知识，应该会远远超过GPT4，甚至是GPT5，那么离AGI通用人工智能的突破就不远了，大概也就2、3年的时间。

Sora，OpenAI新推出的一个文生视频的新模型

Sora，OpenAI新推出的一个文生视频的新模型

你可能感兴趣的:(Sora，OpenAI新推出的一个文生视频的新模型)