[NeRF论文阅读笔记] mip-nerf

19. Mip-NeRF

Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields

project page

知乎-mipNeRF

NeRF只在相机位置固定、分辨率与训练图像一致的新视角生成上表现较好。当拉近、拉远时(在多分辨率下观察场景),图像会产生锯齿以及模糊。

混叠是什么?

根据奈奎斯特采样定理,当采样频率小于信号频率的2倍时,会出现混叠。此时,高频信号会被重构为低频信号

NeRF的混叠,可以看成是,当在与训练图像不同的分辨率,尤其是更低分辨率下进行新视角图像生成时,相当于直接对场景表征做降采样,采样的频率低于场景中高频信息频率的两倍。

Mip-NeRF通过使用一个cone(圆锥)而不是ray采样,同时改进 positional encoding 为 integrated positional encoding (IPE)来克服混叠(aliasing)现象。当拉近、拉远相机时(在不同分辨率下观察图像),生成图像也有很好的效果。

Mip-NeRF introduces low-pass filtering over the Fourier features, where the filter size is controlled by the cone size

Motivation

NeRF直接在射线上采样多个点,再进行 positional encoding ,随后作为MLP的输入。每个频率的信息以相同方式被直接编码(encodes all frequencies equally),从而导致生成图像中的高频成分会出现锯齿

用2D图像来类比:

如果直接降采样,效果很不好。相当于NeRF中直接采样点然后PE的过程

经过高斯滤波平滑操作后再降采样,图像质量提高了(相当于是过滤了高频成分)。因此Mip-NeRF的想法可以看作是先对场景表征做高斯滤波再降采样。

Method

Mip-NeRF用圆锥(cone)取样射线来进行采样。可以看出,NeRF的采样方式仅仅能体现一个极小点的特征,即使是以不同方向来采样,对同一个点来说,其特征也不变,具有歧义性(ambiguity);而Mip-NeRF的做法考虑到了特征的形状和大小,是对锥台(conical frustram)内一块体积的特征进行建模 models the volume of each sampled conical frustum,从而去除了歧义性。

NeRF由于其采样和编码方式,只能学习到特定scale的特征,所以需要使用 coarse 和 fine 两个等级的MLP;而Mip-NeRF本身建模出的特征就包含尺度信息,所以仅用一个MLP,这使得模型大小减半。

Mip-NeRF 使用 IPE/integrated positional encoding 来表征 conical frustum 中 volume 的特征

具体而言,是用锥台中所有点的 positional encoding 的期望来作为锥台 volume 内的特征表征。如果直接进行计算,就是如下形式:

式中,分子不好计算。因此论文采用多元高斯分布来近似。由于圆锥台关于射线对称的形状,仅需要三个参数就可以表征这个高斯分布。即在射线上的距离均值 μ t \mu_t μt,射线方向上的方差 σ t \sigma_t σt,垂直于射线方向的方差 σ r \sigma_r σr

然后,进行相对坐标系到世界坐标系的坐标转换:

进行重新参数化(reparameterization),再利用高斯分布的线性变换:

由高斯分布经三角函数变换后的均值:

根据线性性质,得到IPE:

对于 Σ γ \boldsymbol\Sigma_\gamma Σγ,由于PE向量的各个维度相互独立,因此文中的做法是只算对角:

这样,类比于2D图像中的高斯滤波,NeRF场景表征中的高频信息相当于是被平滑掉了,所以达到了 anti-aliasing 的效果。

In short, IPE preserves frequencies that are constant over an interval and softly “removes” frequencies that vary over an interval, while PE preserves all frequencies up to some manuallytuned hyperparameter L

你可能感兴趣的:(论文阅读,图像处理,人工智能)