[CVPR2021]NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections

标题:NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections

链接:https://arxiv.org/pdf/2008.02268

NeRF存在的一大问题是对拍摄的照片要求比较高,例如光照要一致,周围不能有运动的物体。然而现实中我们能大量获得的多视角图片通常都不能满足这两点。比如如果我们想要恢复天安门,但天安门前通常人来人往,想要拍摄没人的照片非常困难。因此本文就提出了一个方案,可以放宽对于光照变化和瞬时遮挡(即运动的遮挡物)的限制。

 

基本的建模和NeRF是一样的,就不赘述了,直接讲他如何解决光照变化和瞬时遮挡问题的。

[CVPR2021]NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections_第1张图片

光照变化:

首先,本文借用了Generative Latent Optimization(GLO)的方法,对每个视角的图片都学习了一套embedding向量(appearance embedding),然后将这个embedding添加到了颜色的先验当中,即视角先验

回顾一下NeRF,我们是假设从观察点发射一条光线,然后照射到辐射场中,进而获得光线轨迹上对应点的密度和颜色,因此最终能决定我们获得的颜色的条件就只有我们观察点,也即相机的参数了。但事实上,由于我们所拥有的多视角图片当中的光照是不同的,而不同的光照也会让我们获得的颜色有区别。因此,为了将光照条件纳入考虑,最简单的方式就是直接把对应的图片序号(也就是图片对应的embedding向量)作为条件输入NeRF,从而让我们发射的观测光线获得不同的颜色。

另外,值得一提的是,密度并不受光照影响,因此不需要图片embedding做先验。

瞬时遮挡:

首先,作者将NeRF中的辐射场分成了两个重叠的辐射场,一个是静态场(static),也就是我们真正想要还原的物体的场,另一个是瞬时场(transient),也即那些移动的遮挡物。

对待静态场和原始NeRF没有任何区别,而瞬时场中作者要求光线不仅给出颜色和密度,还需要给出一个不确定性(uncertainty),即当前观测点的可信度到底有多少。理想状态下,模型需要对行人,汽车一类的运动物体给出很低的可信度,而给静止的景观给予更高的可信度。

另外,由于那些移动的遮挡物在每个视角中都不同,因此作者还给瞬时场增加了一个视角先验(transiant embedding)(和光照变化中的那套先验本质上是同一套东西,只不过用处不同)。

最后的优化就和NeRF一样,用体渲染结果和原始图像做重构损失即可。

你可能感兴趣的:(#,NeRF,论文阅读,计算机视觉,深度学习,人工智能)