揭秘电影中的子弹时间与Nerf新视角合成

©作者 | 江告

元宇宙与子弹时间

近期大火的元宇宙,是利用科技手段进行链接与创造的,与现实世界映射与交互的虚拟世界。

人们所假定的元宇宙是一个和真实世界有着相似的元素和属性,并且可以和真实世界进行交互的一个数字世界,在元宇宙中,每个人都拥有自己的虚拟数字化身。如何高效建模虚拟世界的3D物体,并真实感渲染至2D,是元宇宙的核心任务之一。

子弹时间是一种使用在电影、电视广告或电脑游戏中的摄影技术模拟变速特效,例如强化的慢镜头、时间静止等效果。

在一般的拍摄过程中,单台摄像机以较快的帧率可以拍摄到高速运动的物体,再变速展示即可获得慢动作的效果,但是却无法切换视角。往小了说,子弹时间是一种电影特效,往大了说,是将元世界的全方位展示给人类的核心技术之一。

影视节目中的子弹时间特效

20年前,黑客帝国风靡全球,其中惊艳的子弹时间特效至今为人津津乐道。在主人公躲子弹的镜头里(图),子弹慢速划过几近静止,同时画面360度连续切换展示主人公酷炫的动作。

如今子弹时间的特效已经在大量视频中使用。例如湖南卫视《舞蹈风暴》、河南卫视《祈》等等。冬奥会也使用了相关的技术。

拍摄视角移动的镜头不再需要相机高速移动,而通过稀疏布置的多台相机即可实现,这使得某些高速动作可以全方位展示给观众。那么,这样的特效镜头是如何制作的呢?

早年制作子弹时间的方法,成本昂贵且处理繁杂。对于动态场景更加不易。首先,需要一个相机阵列(图)。黑客帝国的“子弹时间”拍摄使用了120台高像素相机,并使其环绕一圈。

拍摄过程用事先调试好的程序准确控制相机依次曝光,再把各个角度拍摄的照片全部扫描进电脑,对相邻两张照片进行插值,从而获得镜头在360度一圈的环绕效果。

对不同视角、不同时间的图像做插值,需要排布密集的相机,且可能会引入伪影和扭曲,一旦处理不好生成的就是“5毛钱特效”。

为了使特效更逼真,另一种处理方法是利用图形学的方法,对拍摄的人或物重建三维模型,再对其多视角渲染至2D图像。

然而,对任意物体进行重建是另一个困难的问题,一般需要专业的建模师对其进行建模,且对动态物体通常难以建模真实感的运动过程。

基于人工智能的子弹时间特效制作——Nerf

近年来由于深度学习和人工智能技术的发展,革新了一大批经典人物。对于图形学里经典的渲染任务,也可以通过神经网络实现可微渲染。

ECCV2020的best paper《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》提出了使用可微渲染的方式,将几何表示为基于MLP的隐式表示。

通过输入有限的多视角图片,可以直接合成3d场景并进行多视角渲染,省去了繁杂的3D建模过程,实现“子弹时间”的时间静止且视角移动的特效。

Nerf将指定场景表示为一个5维的向量,其中3维表示坐标(x, y, z),2维表示光线方向(θ,φ),对每个空间点和指定的方向都可以输出一个颜色值(r, g, b),这通过使用MLP将几何与纹理的信息隐式的学习在网络里。

5D 神经辐射场将场景表示为空间中任何点的体积密度和定向发射辐射。Nerf使用经典体积渲染的原理渲染穿过场景的任何光线的颜色。体积密度 σ(x) 可以解释为射线在位置 x 处的无穷小粒子处终止的微分概率。

函数 T(t) 表示沿光线从tn 到 t 的累积透射率,即光线从 tn 传播到 t 而没有碰到任何其他粒子的概率。从我们的连续神经辐射场渲染视图需要为通过所需虚拟相机的每个像素追踪的相机光线估计这个积分 C(r)。

上述方法是将场景建模为神经辐射场并从该表示渲染新视图所需的核心组件。然而,这些组件不足以实现最先进的质量。

因此文章引入了两项改进以实现高分辨率复杂场景的表示。第一个是输入坐标的位置编码,帮助 MLP 表示高频函数,第二个是分层采样程序,它允许我们有效地对这种高频表示进行采样。

位置编码:

这种做法来自NLP的transformer,并且作者发现它可以极大的提高渲染的细节。

此外,基本方法沿着每条相机射线在 N 个查询点密集评估神经辐射场网络的渲染策略效率低下:对渲染图像没有贡献的自由空间和遮挡区域仍然被重复采样。

因此作者从体积渲染的早期工作中汲取灵感,并提出了一种分层表示,通过根据样本对最终渲染的预期效果按比例分配样本来提高渲染效率。

改进后的方法不是只使用单个网络来表示场景,而是同时优化两个网络:一个“粗”和一个“精细”。

首先使用分层抽样对一组 Nc 位置进行抽样,并分别评估这些位置的“粗”网络渲染结果。给定这个“粗”网络的输出,然后沿着每条射线产生更优的点采样。之后通过加权和得到最终的颜色。

通过以上方法可以为每个场景优化了一个单独的神经连续体积表示网络。这仅需要捕获的场景 RGB 图像的数据集,相应的相机姿势和内在参数以及场景边界。损失函数是粗略和精细渲染的渲染和真实像素颜色之间的总平方误差:

相比其他的新视角合成方法,Nerf达到了惊艳的效果。借助于Nerf技术,“子弹时间”特效得以使用更少的相机数量更简单的后处理方法得到高质量的特效。

而NeRF相关技术在新视角合成上的发展和应用,也使得该技术能够在舞蹈、体育教学场景使用。

未来,我们将能看到大量的舞蹈、健身教学视频不再是单视角,而是三百六十度全方位的展示。

你可能感兴趣的:(揭秘电影中的子弹时间与Nerf新视角合成)