最近挺忙的,所以很久没更博了。最近完成一个course hw需要写一写文章review,身边也有很多认识的朋友在做这个方向的工作,感觉还蛮有意义的(不论是NeRF还是paper review),记录一下这个过程。
Info
- NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
- Source: ECCV 2020
- Paper link: https://dl.acm.org/doi/pdf/10.1145/3503250
- pj link: https://www.matthewtancik.com/nerf
Brief Intro
- NeRF(Neural Radiance Fields),神经辐射场。
- 简单来说就是利用一个MLP将5D坐标(空间坐标 x , y , z x,y,z x,y,z以及视角方向 θ , ϕ \theta,\phi θ,ϕ)映射到
- 一个保存空间中任意连续点的体密度(volume density,acts like a differential opacity, σ \sigma σ)和颜色(view-dependent&directional emitted color, c = r , g , b c=r,g,b c=r,g,b)的辐射场中。
- 有了这个Optimize NeRF,就可以利用经典体渲染(volume rendering)技术将颜色和密度积累成任意视角的2D图像。
- 限制网络使得体密度 σ \sigma σ只是位置 x = x , y , z x=x,y,z x=x,y,z的函数,同时允许颜色 c = r , g , b c=r,g,b c=r,g,b作为位置和观察方向的函数,这样颜色表征就和多视图一致,同时体密度也能更精确的预测(?)。
- 首先用8个全连接层处理输入 x = x , y , z x=x,y,z x=x,y,z,输出体密度 σ \sigma σ和一个256维的特征向量。
- 然后,将特征向量和相机射线观察方向相连接,传递给另外一个全连接层,输出view-dependent color。
- 效果很强(但跟做这个方向的学弟讨论了一下,发现初代NeRF的问题大大的,于是后来有了各种优化版本的NeRF)
Review
一篇综述,学弟给推的,其实讲了很多NeRF的改进,也就对应着初代NeRF的许多问题lol(感谢大鼻子狗~)NeRF at ECCV 2022 (以及日常感叹外文blog的质量是真高。。)
1 contribution
-
该方法利用稀疏的多视图集合作为输入,优化连续的场景函数,建立“神经辐射场”,在神经渲染和视图合成领域达到SOTA的效果。
-
该方法利用一个MLP将5D坐标(空间坐标 x , y , z x,y,z x,y,z以及视角方向 θ , ϕ \theta,\phi θ,ϕ,训练时采点)映射到一个保存空间中任意连续点的体密度(volume density,acts like a differential opacity, σ \sigma σ)和颜色(view-dependent&directional emitted color, c = r , g , b c=r,g,b c=r,g,b)的辐射场中。有了这个Optimize NeRF,就可以利用可微分的基于经典体渲染(volume rendering)技术将颜色和密度积累成任意视角的2D图像。
-
该方法最大的贡献就是对于渲染提出了一种新的架构,新的范式:即首次将MLP与volume rendering结合,开辟了可微分渲染的流程架构。
-
具体来说,该方法的贡献为:
- 提出了一种5D neural radiance field 的方法来实现复杂场景的隐式表示。
- 基于经典的Volume rendering提出了一种可微渲染的流程,包括一个层级的采样策略。
- 提出了一种位置编码(positional encoding)将5D坐标映射到高维空间。
2 pros
- 本文讨论了计算机视觉和图形学界非常感兴趣的问题:神经渲染与视图合成。并将二者融会贯通的结合在了一起(MLP+Volume rendering)。
- 算法整体结构简洁,且效果很好。渲染效果比其他神经渲染和视图合成方法好,内存占用比传统体渲染方法成本低。这可能会引起领域内更广泛的关注。
- 文章论述清晰,实验充分且合理。
3 cons
- 速度慢
- NeRF方法生产生图像时,每个像素都需要近200次MLP深度模型的前向预测。
- 尽管单次计算规模不大,但逐像素计算完成整幅图像渲染的计算量还是很可观的。其次,NeRF针对每个场景需要进行训练的时间也很慢。
- 只针对静态场景
- NeRF方法只考虑了静态场景,无法拓展到动态场景。
- 泛化性差
- NeRF方法针对一个新的场景需要重新训练,无法直接扩展到没有见过的场景。
- 需要大量视角
- 尽管NeRF方法能够实现出色的视角合成效果,但是它需要大量的(数百张)视角来进行训练,这限制了它在现实中的应用。需要大量视角,比如依赖colmap的位姿数据。
- NeRF-wild
- 在真实环境中,我们没办法构建大量的高质量的多视角图片。数据量不是非常庞大,一般不会超过100张,但更重要的是依赖于高质量的图像。在真实环境下
- 1)不像室内物体(光照均匀稳定)场景,光照方向变化会引起光照的波动,如晨间和傍晚的光照波动
- 2)不确定性(uncertainty)。不能有随机的遮挡或者模糊的区域,比如室外的行人、车辆、鸟…。这种随机出现的目标极其不稳定,是不应该被生成到结果中的。
所以当前NeRF的实用性就是室内稳定条件下的静态物体,而且一般没背景。
初代基本方法的NeRF架构为后续提供了无限的进步空间和无限的可能性。比如较新的成果,hku的citynerf,利用progressive learning来进行多尺度的渲染。
4 Question
- 最想问的一个问题就是,NeRF的这种5D神经辐射场MLP+Volume rendering凭什么效果会这么好?(也就是可解释性的问题,不能粗暴的说神经网络就是效果好吧…),可能需要和一些传统的神经渲染方法或图形学方法进行更深入的讨论和对比?或者是一些前景知识的问题。希望能够得到回复,thx~