(NeRF)Representing Scenes as Neural Radiance Fields for View Synthesis

目的是从多张2D图中恢复出3D场景。
区别于别的直接通过图片生成对应3D结果的模型,nerf的模型都是针对单场景优化的,输入是相机位置和观看方向,输出就是对应的密度图和深度信息。
具体步骤:
1.先假设模型从相机处发射一堆平行的射线
2.让网络根据这些射线,计算出每个射线上遇到的颜色和物体密度(比如穿过了玻璃,穿过了小草之类的)
3.基于这些信息使用传统的volume rendering技术来渲染成对应的2D图像
4.由于这些步骤都是可导的,所以可以用生成的2D图像与原始图像计算重构损失,进而优化模型。
5.为了保证不同视角的信息一致性,密度信息仅基于位置,而颜色信息基于位置和方向(因为不同方向看同一个东西颜色可能不一样)。方案就是先让网络基于位置预测出密度,然后再将网络提取出的feature加上方向信息通过新的网络预测出颜色。

优化方案:
1.发现直接使用相机信息作为输入的话模型收敛的不好,所以使用了positional encoding
2.使用了分级的采样方案,先粗采样,再根据粗采样的信息进行细采样,提升了采样的效率

优点:
1.使用模型替代了复杂模型的存储,可以大大的节约存储空间。
2.效果也非常好

你可能感兴趣的:((NeRF)Representing Scenes as Neural Radiance Fields for View Synthesis)