Mip-NeRF论文阅读笔记

Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields
文章链接:https://arxiv.org/abs/2103.13415
项目代码:https://github.com/google/mipnerf

文章目录

    • 问题提出
    • 补充知识:锯齿(Aliasing)
    • 文章思路
    • IPE的优势
    • 小结

问题提出

NeRF只在相机位置固定、改变观察方向的视角生成上表现较好。当拉近、拉远时图像会产生锯齿以及模糊。

补充知识:锯齿(Aliasing)

锯齿产生的本质是采样频率低于真实原始信号的频率,即信号处理中的“混叠”现象(如果不太熟悉这个概念可以看看这篇文章:https://zhuanlan.zhihu.com/p/23923059)。解决这一现象,可以从两方面入手:一是尽可能提高采样率,如图形学中抗锯齿用到的SSAA/MSAA;二是尽可能去除高频分量,如使用低通滤波器对边缘进行模糊处理。

文章思路

NeRF对每一个像素只发射一条光线,如果多发射几条光线、提高采样率,在一定程度上能够解决锯齿化的问题,但这样的方法大大增加了计算量,效率低下。于是文章中提出了用圆锥体取代光线的方案。
Mip-NeRF论文阅读笔记_第1张图片
我们知道,NeRF的基本步骤是:根据相机位置逐像素发射光线 → 在光线方向上进行采样获取采样点 ,对采样点进行positional encoding → 把encode后的采样点输入MLP,计算对应的(r,g,b)和不透明度 → 利用volume rendering计算最终像素点的颜色。
当使用圆锥体替换光线后,采样的不再是离散的点集,而是一个连续的圆锥截台(conical frustum),这能够解决NeRF中忽略了光线观察范围体积与大小的问题。对应的区域表示为:
Mip-NeRF论文阅读笔记_第2张图片
而此时positional encoding也要转化为积分形式:
在这里插入图片描述
这个计算是非常复杂的,于是作者提出使用3D Gaussian来近似conical frustum。并提出了用IPE(Integrated Positional Encoding)来取代positional encoding。IPE在文中的定义为:the expectation of a positionally-encoded coordinate distributed according to the aforementioned Gaussian. 即:IPE为高斯分布的positional encoding的期望值。为什么要用期望值而不直接使用原来的positional encoding呢?后面再讨论这个问题。
Gaussian分布的优点很多,其中之一便是线性变换。将positional encoding改写为矩阵形式后,与近似的高斯分布进行运算,等价于对高斯分布的均值与协方差进行变换。
Mip-NeRF论文阅读笔记_第3张图片
Mip-NeRF论文阅读笔记_第4张图片
(Px)对应的均值与协方差
Mip-NeRF论文阅读笔记_第5张图片
将Px代入上面这个公式中,可以得到IPE的计算公式:
Mip-NeRF论文阅读笔记_第6张图片
此外,Mip-NeRF的cone casting方式还能够支持multiscale的训练,不再需要使用两个MLP(coarse and fine),只用一个multiscale MLP就能完成。

IPE的优势

回到前面提出的为什么要用IPE替代PE这个问题,主要有以下几个原因:
1、PE的计算中所有频段都会被考虑到,也包括了可能超出采样频率的高频信息(这是前文中提到的锯齿(混叠)产生的主要原因)。而IPE通过计算期望,只需要考虑到γ(x)的边缘分布,集成了PE特征,当存在频率周期小于被集成的频率周期时,IPE的高频维度将向零收缩,从而具有更好的抗锯齿性能;
Mip-NeRF论文阅读笔记_第7张图片
2、由于1中提到的原因,PE的表现依赖于超参数L(PE中的sin/cos阶数),可以看到,当L增大时,高频信息增加,效果也急剧下降了。而IPE的高频维度收缩能够使其摆脱超参数L的限制。
Mip-NeRF论文阅读笔记_第8张图片

小结

Mip-NeRF采用了cone casting方式,并提出了IPE,有效解决了NeRF存在的锯齿、模糊问题;在结构上用一个multiscale MLP取代了NeRF中的coarse and fine MLP。

你可能感兴趣的:(计算机视觉,深度学习)