湖波荡漾、烟雾蒸腾……这些动态场景竟都是AI「脑补」出的

点击上方,选择星标置顶,不定期资源大放送

阅读大概需要15分钟

Follow小博主,每天更新前沿干货

转自:机器之心

霍格沃兹的魔法世界,似乎离我们越来越近了。

湖波荡漾、烟雾蒸腾……这些动态场景竟都是AI「脑补」出的_第1张图片

或许是受到「霍格沃兹」魔法世界的启发,近年来,人们为了让静态的照片动起来花了不少功夫 。不过,之前的很多研究针对的都是人物,水流、烟雾等自然场景的研究相对较少。但如果翻看手机相册的话,景物照可不比人像少。

对于人类而言,一张图像通常不仅仅是像素的集合。根据我们以往对世界的观察,当拍摄图像时,我们不仅可以识别出物体、结构,还可以想象到场景的运动方式。通过这些先验,我们常常可以想象到图像的动态展示场景,例如烟囱冒烟、湖波荡漾等。

在华盛顿大学和 Facebook 的一项新研究中,研究者们提出了一个从真实场景视频中学习相同运动先验的系统,该系统可以利用一张全新的静态图像合成合理运动,并渲染出基于该图像的场景动画视频。

湖波荡漾、烟雾蒸腾……这些动态场景竟都是AI「脑补」出的_第2张图片

论文链接:https://arxiv.org/pdf/2011.15128.pdf

以下是本文所提方法的转换效果:

湖波荡漾、烟雾蒸腾……这些动态场景竟都是AI「脑补」出的_第3张图片

湖波荡漾、烟雾蒸腾……这些动态场景竟都是AI「脑补」出的_第4张图片

湖波荡漾、烟雾蒸腾……这些动态场景竟都是AI「脑补」出的_第5张图片

可见人工智能模型的脑补能力不仅限于单一场景了。AI 的创作,看起来有一点延时摄影的感觉。

方法详解

一般场景运动极其复杂,包含透视效果、遮蔽区域和瞬时状态。而在本研究中,研究者只考虑流体运动,例如可以很好地利用欧拉运动来近似的烟、水和云,特别是静态速度场中的粒子运动。

本文方法以单一静态图像为输入,生成循环播放的视频纹理。研究者首先使用一个图像到图像转换网络来合成欧拉运动场,并且该网络通过提取自在线自然场景视频素材的成对图像和运动场来训练。然后,通过欧拉积分,运动场定义输出视频序列中每个源像素的轨迹。

给定源像素在未来帧中的位置,研究者使用深度变形技术来渲染相应帧。具体而言,研究者使用一个编码器网络将输入图像转换成深度特征图,使用一种新的时序对称抛雪球算法来 warp 这些特征,并使用解码器网络来复原相应的 warped 彩色图像。最后,为了确保输出视频实现无缝循环,研究者使用了一种在深度特征空间运行的视频循环技术。

整个方法的 pipeline 如下图所示:

湖波荡漾、烟雾蒸腾……这些动态场景竟都是AI「脑补」出的_第6张图片

如图所示,给出一张输入图像 I_0,运动估计网络将预测出一个运动场 M。通过欧拉积分,M 被用来生成未来和过去的位移场 F_0→t 和 F_0→t−N,它们定义了其他所有帧 t 中的源像素位置。为了使用估计的运动让输入图像动起来,研究者首先使用了一个特征编码器网络,将图像编码为一个特征图 D_0。接下来,使用一种新的对称抛雪球技术,借助位移场对上述特征图进行变形,生成对应的变形特征图 D_t。最后,将变形的特征提供给解码器网络来创建输出视频帧 I_t。

实验效果

研究者通过比较预测运动与未来视频帧中的 ground-truth 像素位置来验证本文提出的运动表示的有效性。结果如下图 7 所示,由此可见该方法可以最忠实地重现场景的 ground-truth 运动。

湖波荡漾、烟雾蒸腾……这些动态场景竟都是AI「脑补」出的_第7张图片

然后,研究者对本文以及其他变形技术进行了评估,分别使用到了 PSNR、SSIM 和 LPIPS 三项指标。下表 1 给出了这些方法的定量比较结果,表明当提供相同运动时,本文变形技术在合成未来帧时优于其他方法。

湖波荡漾、烟雾蒸腾……这些动态场景竟都是AI「脑补」出的_第8张图片

最后,研究者们评估了循环技术的优劣。表 2 展示了用户研究的结果,新提出的方法相比其他已有方法具备优势。

湖波荡漾、烟雾蒸腾……这些动态场景竟都是AI「脑补」出的_第9张图片

除了论文和技术展示的视频,华盛顿大学的研究人员们还计划将该研究的代码公布在 GitHub 上。

随着技术的不断深入,我们正在看到人工智能展现出越来越多的创造力。未来,不知道这样的技术是否会为我们带来一些新奇的应用。

重磅!DLer-计算机视觉交流2群已成立!

大家好,这是DLer-计算机视觉微信交流2群欢迎各位Cver加入DLer-计算机视觉微信交流大家庭 。

本群旨在学习交流图像分类、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。希望能给大家提供一个更精准的研讨交流平台!!!

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

???? 长按识别添加,即可进群!

你可能感兴趣的:(人工智能,计算机视觉,机器学习,深度学习,编程语言)