AI生成视频是什么,效果如何,影响哪些行业?

有个读者深夜问了我一个问题,让我思考了一个深夜。

AI生成视频是什么,效果如何,影响哪些行业?_第1张图片

一年前,我写过一篇文章叫《我可能要给鼓吹AI的那些人,浇盆凉水了》。当时ChatGPT很火,整个网络都把AI吹上了天。我则唱反调,因为我就处在这个行业的底层,可谓知冷知热。不过,我当时并没有否定AI,只是表达AI并没有传说的那般无敌,谈不上让各行各业纷纷失业。首先,AI的门槛很高,基本是头部企业的专属,距离普通大众还是很远。另外,通用模型想要落地,必须要结合垂直行业,还有一段很长的路要走。为此我还举了3个现实案例,从算法算力、场景、数据来说明情况。

一年后的今天,这个提问再次引发了我的思考。

我想说,AI的前景依然是美好的,但它的发展速度却远远超出了人们的预期,即:要很久以后才会发生的事情,往往转眼就出现了。

一切皆数字:视频生成是必然结果

继生成式文字、图片之后,生成式视频又火了。其实,这从IT人看来,是必然的,并没有什么大惊小怪的。因为不管是文字、图片,还是音视频,在计算机中都是以数字的形式存储的。

比如,你看到的是大写字母“A”,其实在电脑里存的是65。再比如,你看到的是一张图片。其实,它也是以数字形式存储的。音频视频都是这样。这一点,我也在文章《仅凭1和0,电脑如何展现出多彩的世界?》中讲过。

AI生成视频是什么,效果如何,影响哪些行业?_第2张图片

所以啊,一切媒体的本质都是数字。既然文字可以通过AI生成,而且效果还很好。那么,图片也可以。视频当然也可以,它不过就是图片加了一个时间维度而已。

虽然理论可行,然而现实中需要克服很多问题,包括设备上的、技术上的。比如,你生成的图片,得合情合理啊。

连续合理:视频生成难度更大

我记得,去年很多平台都说,自己的多模态大模型有一项功能,那就是可以指出一张不合理的图片存在什么问题。比如,一张人身狗头的图片,不合理之处在于人的身体不可能长着一张狗头。

其实,这并不是什么特意发布的功能。而是生成过程中,必须要做的一步校验。如果这一步验证都没有,可以说AI生成的内容没有用(特意要求除外)。

看下面的这个视频生成的案例。这是让AI生成一群在路边玩闹的小狗。乍一看像是路边实录。但是你仔细看,视频中一会儿三只狗,一会儿四只狗。有时候一个狗会突然出现,有时候又进入了另一个狗的身体里消失不见。

这很诡异,甚至可以归类为灵异事件,显然是不符合常理的。实际上,现实的训练数据,可能会发生一只狗被另一只狗完全挡住。但是不会出现两者融为一体的情况。

因此,AI要花时间和经历去进行合理性的检测和改正。

再列举一个类似的情况,比如你让AI生成一段,小孩吃饼干的视频。那么,根据常理,手里饼干肯定是越吃越小,小孩的肚子则会越吃越大。这时候,AI生成可能会出现饼干永远都吃不完的现象。这在人类导演设计时会被考虑,但AI自己生成时则需要自动完成。

这些限制,会导致AI需要依托复杂的算法和强大的算力做弥补。这也是检测一个AI是否足够健全的小技巧。同时,也是我说的,它的出现,需要一个过程。

案例展播:效果出人意料

然而现实情况是,这些问题已经攻克了。

你可能感兴趣的:(人工智能,AI作画)