今天凌晨,OpenAI 发布了新的文生视频大模型,名为 “ Sora ”。
从OpenAI在官网展示的Sora生成视频的效果来看,在生成视频质量、分辨率、文本语义还原、视频动作一致性、可控性、细节、色彩等方面非常好!
特别是可以生成最长1分钟的视频!生成的画面可以很好的展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。超过Gen-2、SVD-XT、Pika等主流产品,一出手就是王炸。
Sora简单介绍
目前,文生视频领域因为帧间依赖处理、训练数据、算力资源、过拟合等原因,一直无法生成高质量的长视频。
而Sora最大技术突破是,可以在保持质量的前提下,生成1分钟的视频,在业内非常罕见。这也再次展示了OpenAI在大模型领域超强的技术研发能力。
Sora是一种扩散模型,主要通过静态噪音的视频开始生成视频,然后再通过多个步骤去除噪音,逐渐转换视频。
Sora与ChatGPT一样采用的是Transformer架构,并使用了DALL-E 3中的重述技术,是一种为视觉训练数据生成高精准描述性的字幕。所以,Sora在生成视频过程中精准还原用户的文本提示语义。
功能方面,除了文本生成视频之外,Sora还能根据图像生成视频,并能准确地对图像内容进行动画处理。也能提取视频中的元素,对其进行扩展或填充缺失的帧,功能非常全面。
我们再来看看OpenAI 的官方演示视频,由于生成内容的安全问题 Sora 还未开放测试,我们无法获取更多差异化信息。
有人提出想要“一段海上自行车比赛的视频,让各种动物作为运动员骑自行车,采用无人机拍摄视角”。奥特曼在回复中发布了一段由Sora生成的视频,视频中有企鹅、海豚和其他水生生物骑自行车。
另一段视频显示,一位身穿围裙、面带微笑的白发女士邀请观众进入她的厨房。有人向奥特曼要一段“由一名祖母辈的网红主持的自制团子烹饪课程,背景是一个质朴的托斯卡纳乡村厨房,并配有电影级的灯光”,之后Sora生成了这段AI视频。
OpenAI发布了多个Sora生成的视频,大家可以感受一下。或许已经很难再分清,AI和现实的界限了。
“雪后的东京熙熙攘攘。镜头穿过繁忙的街道,跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞”。
一位时髦女士漫步在东京街头,周围是温暖闪烁的霓虹灯和动感的城市标志。
“让Sora生成一张中国龙年舞龙的视频”。
“一个小的、圆的、毛茸茸的、有一双大而富有表现力的眼睛的生物探索了一个充满活力的魔法森林的3D动画”。
“穿过东京郊区的火车窗外的倒影”。
“赛博朋克背景下机器人的生活故事”。
“几只巨大的毛茸茸的猛犸象正踏着白雪皑皑的草地走来,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高挂在天空中。”距离产生了温暖的光芒,低摄像头视角令人惊叹地捕捉到了大型毛茸茸的哺乳动物,具有美丽的摄影和景深。
“一窝金毛幼犬在雪地里玩耍。他们的头从雪中探出来,被雪覆盖着”。
“动画场景特写了一个毛茸茸的矮个子怪物跪在融化的红烛旁。美术风格是3D和现实的,重点是照明和纹理。这幅画的气氛是一种惊奇和好奇,因为怪物睁大眼睛,张开嘴巴凝视着火焰。它的姿势和表情传达了一种天真和顽皮的感觉,好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围”。
“一个24岁的女人眨着眼睛的极端特写,站在马拉喀什的神奇时刻,电影胶片拍摄,70mm,景深,生动的色彩,电影感”。
“电影预告片讲述了30岁宇航员戴着红色羊毛针织摩托车头盔的冒险经历,蓝天、盐漠,电影风格,35毫米胶片拍摄,色彩鲜艳”。
“一个华丽的珊瑚礁纸艺世界,到处都是五颜六色的鱼和海洋生物”。
“镜头跟随一辆带有黑色车顶行李架的白色老式SUV,它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶,轮胎扬起灰尘,阳光照射在SUV上行驶土路,给整个场景投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方,看不到其他汽车或车辆。道路两旁都是红杉树,零星散落着一片片绿意。从后面看,这辆车轻松地沿着曲线行驶,看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉,上面是清澈的蓝天和缕缕云彩”。
示例视频的生成提示词为:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。
Sora引发全球的关注
Sora的横空出世引发了全球的关注,网民纷纷惊叹于人工智能的高速发展,一众大V也发表观点。
360创始人对Sora给予了极高的评价,他认为,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。
周鸿祎认为,科技竞争最终比拼的是让人才密度和深厚积累,“很多人说Sora的效果吊打Pika和Runway。这很正常,和创业者团队比,OpenAl这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。”
他还提到,尽管国内大模型发展水平表面看已经接近GPT-3.5,但实际上跟4.0比还有一年半的差距。OpenAl手里应该还有一些秘密武器,无论是GPT-5,还是机器自我学习自动产生内容,“奥特曼(OpenAI CEO)是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。”
胡锡进也表达了自己对Sora的看法。他表示,这的确是爆炸性进展。到今天中午,在贾玲现实主义电影《热辣滚烫》的引领下,中国今年春节档的票房突破70亿。但是Sora在点亮AI影像制作未来的同时,也给全球现实主义电影的前途抹上了阴影。“让老胡接着看春节档电影都有些心神不宁了。”
Sora发布后数小时,马斯克在社交媒体上回复了“gg humans”,gg为Good Games缩写,代指“打得好,我认输” 。之后马斯克还称,通过AI增强的人类将在未来几年创造出最好的作品。
Sora对未来影响几何?哪些人会因此失业?
Sora的诞生意味着,在文字、图片之后,AI的技术已经突破到了视频领域。虽然在此之前,Runway Gen 2、Pika等AI视频工具已经发布过类似的模型,但相较之下,别家的大模型还在致力于突破几秒内的连贯性,OpenAI已经可以实现60秒的超精细视频制作,这一技术可以说是史诗级别的突破。
当然,由于刚刚推出,Sora还存在着一定的技术不成熟之处。比如:生成视频的时长限制在60秒,可能难以满足一些复杂场景的需求;生成的视频内容可能存在一定的局限性,如缺乏深度、逻辑性不足等。为了进一步完善技术,OpenAI可以考虑增加模型的训练数据、提高模型的复杂度、引入更多领域知识等。
对于Sora当前存在的弱点,OpenAI也不避讳。OpenAI方面表示,它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。该模型还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。
AI视频大模型Sora的诞生也将对多个行业产生影响,Sora作为一种强大的视频生成工具,可以极大地降低视频制作的门槛和成本,使得更多人能够轻松创建高质量的视频内容。这将对影视、广告、游戏、新闻、教育、VR\AR等诸多行业产生深远的影响,具有广泛的应用前景。它可以帮助企业和个人更快速地创作和制作视频内容,提高效率。
不可否认,技术的变革是把双刃剑,在关注应用前景的同时也有不少人担忧会被AI抢了饭碗。目前最容易受到影响的或许是影视行业的从业者。例如视频剪辑师、后期制作这类岗位,视频模型Sora能够自动或半自动地生成视频,这可能会导致传统的视频制作和编辑职位的需求下降。后期制作包括剪辑、特效、音效等环节,这些工作也可以通过AI技术进行自动化或半自动化处理。
Sora 的出现让世界看到了人工智能的无限可能。2024年第一块坚实的里程碑落下了,带给人类的依旧是希望大于绝望。因此不一定会造成失业潮。相反,它可能促使视频行业朝着更高端、更创新的方向发展。