CVPR 2022 论文:BACON - 用于多尺度场景表示的Band受限坐标网络

CVPR 2022 论文:BACON - 用于多尺度场景表示的Band受限坐标网络_第1张图片

论文名称:BACON: Band-limited Coordinate Networks for Multiscale Scene Representation

具有分析傅里叶频谱和带限输出的新网络架构。

 关注公众号:AI基地,及时获取最新资讯,学习资料


基于坐标的网络已成为 3D 表示和场景重建的强大工具。这些网络经过训练,可以将连续输入坐标映射到每个点的信号值。尽管如此,当前的架构仍然是黑匣子:它们的光谱特征不容易分析,并且它们在无监督点的行为难以预测。此外,这些网络通常被训练来表示单一尺度的信号,因此幼稚的下采样或上采样会导致伪影。我们介绍了带限坐标网络(BACON),一种具有解析傅里叶谱的网络架构。BACON 在无监督点具有可预测的行为,可以根据表示信号的频谱特征进行设计,并且可以在没有明确监督的情况下在多个尺度上表示信号。

框架

BACON架构。我们的架构基于最近提出的乘法滤波器网络,它在正弦非线性和线性层之间使用 Hadamard 积。我们的工作对该架构进行了重大改进,从而实现了可解释和可调节的傅立叶谱、多尺度输出以及可防止深度网络中极小激活的初始化方案。

BACON频率带宽。网络的每个输出的带宽可以通过分析每个输出层的正弦非线性的频率分布来描述。我们从随机均匀分布中初始化这些频率,这允许我们设定网络表示的最大频率的上限。

半监督多尺度分解。由于网络输出受结构限制,因此可以在高分辨率输出尺度上对其进行监督,并且网络会自动学习多尺度分解。

外推行为。网络中使用的离散频率产生周期性信号表示。我们通过监督红色区域内的坐标使网络适应这种无缝纹理。然后,查询域外的网络会导致周期性外推。

CVPR 2022 论文:BACON - 用于多尺度场景表示的Band受限坐标网络_第2张图片

初始化方案。为了促进深度网络的训练,我们引入了一种新的初始化方案,该方案在整个网络中保持标准的正常激活(底部)。这缓解了先前提出的初始化方案(顶部)的问题,其激活在更深层变得非常小。

一维拟合示例

CVPR 2022 论文:BACON - 用于多尺度场景表示的Band受限坐标网络_第3张图片

一维拟合结果。其他表示(SIREN、傅里叶特征)不受频带限制,并且在在一组稀疏的监督点(粉红色)处拟合简单的 1D 信号(橙色)时具有杂散的高频分量。BACON 在监督点(中下)之间正确插值,我们还可以应用低通滤波器(下一行)来拟合低频分量。

图像拟合

图像拟合结果。我们将 BACON 与傅里叶特征、SIREN 和 Mip-NeRF 的集成位置编码进行比较,以拟合 256×256 分辨率的图像。傅立叶特征和 SIREN 在下采样时显示混叠。Mip-NeRF 在多个尺度上进行了显式训练并学习了抗锯齿。除 BACON 之外的所有方法在以 4 倍分辨率对网络进行上采样时都会显示伪影。BACON 在单一尺度上进行监督,并学习与低通滤波参考非常匹配的带限输出(见左列,傅里叶光谱插图)。

神经辐射场

CVPR 2022 论文:BACON - 用于多尺度场景表示的Band受限坐标网络_第4张图片

神经辐射场结果。NeRF、Mip-NeRF 和 BACON 之间的比较。BACON 在多尺度表示方面优于 NeRF,同时使用比 Mip-NeRF 更少的参数来表示低分辨率输出。

3D 形状表示

3D 形状表示结果。将网络拟合到来自斯坦福 3D 扫描存储库的泰国雕像和露西场景的符号距离函数的结果。显示了神经几何细节层次 (NGLOD)、傅里叶特征、SIREN 和 BACON 的输出。所有方法在最高细节输出上的表现相似,但 BACON 学习了形状的平滑多尺度分解。插图显示了提取的有符号距离函数的傅里叶光谱,揭示了 BACON 的带限输出。

你可能感兴趣的:(计算机视觉,深度学习,人工智能,深度学习,计算机视觉,人工智能,傅里叶谱,NeRF)