论文阅读:(ICLR 2021) MULTIPLICATIVE FILTER NETWORKS

论文阅读:ICLR 2021 MULTIPLICATIVE FILTER NETWORKS

Code:https://github.com/boschresearch/multiplicative-filter-networks
Paper: https://openreview.net/forum?id=OmtmcPkkhT
其他参考资料:知乎:论文解读 | Multiplicative Filter Networks

首先对文章做个简单机翻,在最后再对文章进行分析。

  • 将该该代码运行,并写一份代码讲解:代码讲解就不弄了,查看了一下代码还是比较简单的,只有四个py文件。主要内容是MFNbased,FourierNet和GaborNet,代码也没啥问题,环境装完就能跑。
  • 这两天再精读一遍理论部分:图像表示部分发现只要把预测图像的尺寸调大一些,网络的性能就会急剧下降并且难以学习,对学习率还是比较敏感的·····

Abstract

深度神经网络常用于高维输入上近似函数,但最近的工作探索了神经网络作为低维但复杂信号的函数逼近的作用,例如使用像素坐标表示图像,求解微分方程或者神经辐射场等。成功的原因在于最近的方法使用了Sin激活函数或者傅里叶特征超过了简单了ReLU网络。在本文中,提出并证实了一个更为简单的函数逼近方法同样可以解决此类问题:乘性滤波器网络(multiplicative filter networks)。在此类网络中,避免了合成深度问题,简单的将输入与正弦或者Gabor小波相乘。这种表示方法有个显著的优势,即整个函数可以简单看做是傅里叶级数或Gabor基函数的线性函数逼近。尽管方法简单,但是与最近使用的ReLU激活和Sin激活的傅里叶特征相比,本文的方法大大超过或者匹配这些方法的性能。

1.Introduction

近年来工作关注隐神经表示,用一个连续的图像可以用函数表示为 f : R 2 → R 3 f:\R^2 \rightarrow \R^3 f:R2R3 ,其中输入是图像的坐标输出是图像的RGB值。最近的研究表示需要使用Sin激活函数(SIREN),或者使用随机傅里叶特征输入ReLU网络才能使MLP适合这项任务。这两篇论文都证明了其方法远优于简单的ReLU网络,并且对于复杂函数有较高的保真度。但使用SIn激活或者使用傅里叶特征作为输入的优势很难表示,或者说尚不清晰。

然而,在这篇论文中,我们论证并实证地证明了一个可论证的更简单的函数类可以在这项任务上与这些先前提出的网络一样好,甚至更好。具体来说,我们提出了一种称为乘法滤波器网络(MFN)的架构。与传统的通过组合深度获得表示能力的多层网络不同,MFN只是简单地对网络的输入重复应用非线性滤波器(如正弦或Gabor小波函数),然后将这些特征的线性函数相乘。这种表示的显著优点是,由于傅里叶和Gabor滤波器的乘法特性,整个函数最终只是输入的这些傅里叶或Gabor特性的线性函数(一个指数)。事实上,我们可以表达这些MFNs的精确线性形式,这可以使它们的分析比深度网络的分析简单得多,深度网络的非线性激活的组合使整个函数难以描述。

在这项工作中,我们表明,尽管这种简单,提出的网络往往表现相同或更好,比先前提出的SIREN或傅里叶特征网络。具体地说,我们将我们的方法与在SIREN和傅里叶特征论文中提出的精确基准中可比较的参数数量的网络上的方法进行比较。我们表明,当增加网络的深度或宽度时,MFNs可以获得更好的性能增量。尽管如此,我们还是强调这一点,特别是,与MFN相比,SIREN网络似乎保留了一些显著的优势,例如在表示函数及其梯度中偏向于更平滑的区域。然而,特别是考虑到mfn最终只是对应于一个低维函数的线性傅里叶或小波表示,我们认为它们应该被视为未来研究此类问题的标准基准,以表明典型深度网络的组成深度在哪些地方可以提出实质性的好处。

2. Background and related work

我们的方法与以前在傅里叶和小波变换、随机傅里叶特征和隐式神经表征方面的许多工作有关。我们将探讨以下领域之间的联系。

2.1 傅里叶和小波变换

利用傅立叶变换和小波变换等变换将时间或空间域信号转换到频率域已经成为图像处理、信号处理和计算机视觉许多发展的核心。特别是傅里叶变换及其各种形式在无数的应用中发现了用途,如光谱学、量子力学、信号处理。小波变换在多尺度分析中特别有用,在数据压缩中被发现特别有用,JPEG2000就是一个例子。

2.2 随机傅里叶特征

Rahimi & Recht(2008)的一项开创性工作展示了傅里叶变换在机器学习中的应用。他们表明,简单地将原始数据集投影到随机的傅里叶基中,可以极大地提高模型的表达能力,因为它近似于内核计算。许多后续的工作应用傅里叶特征和变化,以提高机器学习算法在许多领域的性能,包括分类,回归,聚类,在线学习。

2.3 隐式神经表示

最近的一项工作是用神经网络参数化的连续函数来表示信号(而不是使用传统的离散表示),这一工作越来越受欢迎。这种策略被用于表示不同的对象,比如图像,形状,场景和纹理。在这些应用中,通常使用带有多层感知器和ReLU激活函数的标准神经网络架构。最近,受到傅立叶变换在机器学习中的成功的激励,一些论文提出了将周期性非线性集成到网络中的架构变化。Mildenhall等人(2020年);Zhong等(2020);Tancik等人(2020)提出使用输入特征的正弦映射(Rahimi & Recht, 2008),使用位置编码和高斯随机分布中的映射。其他(Klocek等人,2019;Sitzmann等人,2020年)提出在多层感知器架构中使用正弦激活函数。这两种策略都被证明可以极大地提高许多对象表示任务的结果。

3. 乘性滤波网络

一个K层的深度网络 f : R n → R m f:\R^n \rightarrow \R^m f:RnRm可以由递归式定义如下:
z ( 1 ) = x z^{(1)} =x z(1)=x
z ( i + 1 ) = σ ( W ( i ) z ( i ) + b ( i ) ) , i = 1 , . . . , k − 1 z{(i+1)} = \sigma (W^{(i)}z^{(i)}+b^{(i)}), i=1,...,k-1 z(i+1)=σ(W(i)z(i)+b(i)),i=1,...,k1
f ( x ) = W ( k ) z ( k ) + b ( k ) f(x)=W^{(k)}z^{(k)}+b^{(k)} f(x)=W(k)z(k)+b(k)
其中 σ \sigma σ表示以元素方式应用的非线性, W W W b b b表示各层的权重的偏差, z z z表示隐藏层单元。我们将这些网络称为组合深度网络,因为每个非线性都被组合地应用于前一个非线性的输出,以实现其表征复杂性。

SIREN或傅里叶特征网络分别可以被视为该结构的简单特殊化。在SIREN网络中,我们使用正弦波σ(x) = sin(x)作为非线性,加上适当的权值初始化和输入比例。在傅立叶特征网络中,输入层被替换为
论文阅读:(ICLR 2021) MULTIPLICATIVE FILTER NETWORKS_第1张图片
其中 Ω \Omega Ω ϕ \phi ϕ分别是随机变量矩阵和超参数,但是其非线性激活还是典型的ReLU,表示为 σ ( x ) = R e L U ( x ) \sigma(x)=ReLU(x) σ(x)=ReLU(x)

相比之下,我们提出的乘性滤波器网络使用了一种不同的递归,不会导致非线性函数的组合。具体来说,MFN是通过以下递归定义的
论文阅读:(ICLR 2021) MULTIPLICATIVE FILTER NETWORKS_第2张图片
这里 ∘ \circ 表示elemenwise乘法,其他的跟上面一样。但是这里表示函数为 g : R n → R d i g:\R^n \rightarrow \R^{d_i} g:RnRdi是由参数作用并且表示为一个直接应用于输入的非线性滤波器。这里最重要的一点是,在这样的网络中,我们从不将一个非线性应用到先前一个非线性的输出上。网络的所有非线性都发生在g函数内;层z(i)在通过一个线性函数后,只需乘以输入的新过滤器。这导致了目前大多数多层网络所使用的一种相当不同的功能类型,事实上,我们基本上只是根据惯例将这种功能称为“网络”。

我们现在提出两个实例的MFN,使用正弦或Gabor小波作为滤波器g;我们把这两个网络分别称为FOURIERNET和GABORNET。正如我们所示,傅立叶网或Gabor网表示的函数f的关键性质是,整个函数f也可以分别写成输入的正弦波和Gabor小波的线性组(虽然指数级的大量这样的特征,但当然也有一个高度减少的空间允许系数的指数项,因为只有一个多项式的参数数量来定义MFN)。因此,我们可以断言MFN实
际上更像底层信号的(丰富的)傅立叶或小波表示,只是它恰好具有与深度网络类似的参数化(并且可以通过典型的梯度下降方法进行调整)。

3.1 乘性傅里叶网络

作为MFN的第一个实例,我们考虑使用一个简单的正弦滤波器

论文阅读:(ICLR 2021) MULTIPLICATIVE FILTER NETWORKS_第3张图片
我们将这样的网络称为傅立叶网,因为正弦激活(具有任意相移,以相等地表示正弦或余弦函数)自然地对应于整个函数的傅立叶随机特征表示。与基于组合的网络相比,傅立叶网的一个直接和引人注目的特征是,它的输出可以直接看成是(指数级)的线性函数傅立叶基,由网络的参数决定一组低秩系数。这可以通过下面的定理来表达。

论文阅读:(ICLR 2021) MULTIPLICATIVE FILTER NETWORKS_第4张图片换句话说,傅立叶网将它的最终函数表示为传统傅里叶基的线性组合,就像“经典的”随机傅里叶特征一样。证明的关键在于两个傅里叶滤波器的参数 w , ϕ w,\phi w,ϕ τ , ψ \tau,\psi τ,ψ,他们的elementwise乘积可以转化为相同类型滤波器的和。
在这里插入图片描述
(请注意,余弦可以表示为带有单独相位偏移的正弦)此外,检验证明还可以让我们计算出线性展开的精确系数,作为网络参数的函数。这在下面的推论中显示出来。
论文阅读:(ICLR 2021) MULTIPLICATIVE FILTER NETWORKS_第5张图片
这个推论是通过检查附录中的证明得出的,注意到每一个附加的乘法层都创建正弦项中频率的正负组合,以及W中相应项的乘法。也就是傅立叶网的乘法“深度”允许它表示正弦函数的指数数量,但有一个约束,这些特征上的系数的实际数量是由一个主要由W矩阵中的系数组成的“低秩”张量给出的。这种扩展还建议使用一种方法来初始化特定于该网络的参数,这种方法可以根据网络大小适当伸缩。具体来说,W (i)是初始化的(通常是随机均匀或高斯函数,尽管这里有一个额外的比例因子,它取决于输入的相对比例),我们应该将这些项除以根号k,以确保最终频率!t的方差与层数无关。

3.2 乘性Gabor网络

纯傅里叶基的一个众所周知的缺陷是它们具有全局支持,因此可能难以表示更多的局部特征。这些基地的一个常见替代是使用Gabor滤波器捕捉频率和空间局部分量。具体来说,我们考虑
Gabor过滤器的形式:
论文阅读:(ICLR 2021) MULTIPLICATIVE FILTER NETWORKS_第6张图片
与傅立叶网一样,Gabor网络的一个引人注目的特征是,最终函数f可以表示为Gabor滤波器的线性组合。这是由以下定理得到的:
论文阅读:(ICLR 2021) MULTIPLICATIVE FILTER NETWORKS_第7张图片
证明在附录中给出,但基本过程与上面相同:使用的事实是,就像傅里叶滤波器一样,Gabor滤波器的乘积也是(另一组)Gabor滤波器的线性组合。同样地,我们也可以计算系数的显式形式对于这个线性基展开,显式形式在附录中给出。一个相关的问题是,我们如何选择γ和μ参数的初始化。
(后面这一段机翻都不想翻了,自己现在也不想看,后续补上)

4. Experimental Results

我们在广泛的表征任务上对mfn进行了测试,表明相对简单的MFNs改进了现有神经表示方法的性能。我们的实验集合来自于Sitzmann等人(2020年)和SIREN(图像表示、形状表示和微分方程实验)以及Tancik等人(2020年)中和傅里叶特征网络(高斯随机特征,我们称之为FF高斯特征)中提出的实验(图像泛化和3D逆绘制实验)。在每种情况下,我们将与原始实验中测试的一组模型进行比较(通常是SIREN或FF高斯,以及基本的ReLU MLP)。MFN的PyTorch实现Code上可用:
,关于超参数和培训规范的详细信息可以在附录中找到。

4.1 图像表示和生成


特别是,fouernet和GABORNET都显示出比其他架构更快的初始收敛速度。 训练后的PSNRs(表1)表明,SIREN最终优于FOURIERNET,而在整个训练过程中,GABORNET仍然是最好的模型。事实上,在仅仅1000次训练迭代之后,gabornet的重建性能比其他所有训练时间长10倍的模型都要好。
论文阅读:(ICLR 2021) MULTIPLICATIVE FILTER NETWORKS_第8张图片

我们可以扩大上面的任务,通过在输入中添加第三个维度来表示视频:输出对应于输入(x;y;T)为(x;Y)在坐标系t。我们的目标是用这种方式来表示一个分辨率为512 × 512的300帧彩色视频,测试之前实验中使用的所有架构。如图1所示,SIREN和GABORNET最能再现原始视频的细节,如胡须和和眼睛的颜色。这反映在这些重构的PSNR(表1);SIREN性能最佳,PSNR超过30 dB,而gabornet重建在1 dB以内的SIREN和展示了比任何其他模型更低的帧变化。

论文阅读:(ICLR 2021) MULTIPLICATIVE FILTER NETWORKS_第9张图片

除了表示图像之外,我们还演示了mfn能够将表示推广到看不见的像素。我们只使用25%的图像像素(宽度和高度维度上的每一个其他像素)训练网络,并使用完整的图像进行评估。我们将我们的方法的结果与Tancik等人(2020年)提出的两个数据集(自然图像和文本图像)上的傅里叶特征网络。采用峰值信噪比(peak信噪比,PSNR)指标来评估性能。从表2中我们可以看到,傅立叶网络和GABORNET都优于使用基本特征、位置编码和随机高斯特征的所有版本的傅立叶特征网络。

4.2 微分方程

在本节中,我们旨在解决由不同形式的梯度信息监督的函数的边值问题。我们首先关注泊松方程,其中我们演示了在两种情况下的图像重建,其中模型的监督分别由梯度和拉普拉斯算子带来。值得注意的是,该模型从来没有呈现真实的函数值。然后我们关注两个二阶微分方程,即
亥姆霍兹方程和波动方程,其中我们求解波场,网络由已知的源函数监督。我们演示了使用梯度重建图像,并比较了傅立叶网和GABORNET与SIREN和ReLU MLP对泊松方程的性能。我们使用与(5)中(Sitzmann et al., 2020)相同的损失函数。从图3a和3b可以看出,当网络分别在梯度和Laplacians监督下进行训练时,图像重建成功,而ReLU则非常失败。表3描述了每个方法在10000次迭代之后的损失,可以看到,在性能方面,GABORNET超过了其他基线。

亥姆霍兹方程和波动方程与扩散和波的物理模型有关,并与傅里叶变换密切相关。因此,我们把注意力集中在描述亥姆霍兹方程上。我们的目标是求解波场,并比较傅里叶网与SIREN和ReLU MLP的GABORNET。为了适应复值解,网络被配置为输出两个值,可以解释为实部和虚部。我们使用与(Sitzmann等人,2020)中相同的损失函数(参见Sitzmann等人,2020)详情)。图4显示了放置在均匀传播速度介质中心的单个高斯源重构波前的幅值和相位。表3描述了每种方法在50000次迭代后的损失,并显示了GABORNET节拍傅立叶网和塞壬在性能方面,而,如之前所示(Sitzmann等人,2020年),ReLU MLP惨败。有关网络和培训的细节在附录B.3中。

5. Conclusion

我们已经介绍了乘性滤波器网络(MFNs),这是一类神经表示架构,它放弃了通常的网络深度组合概念,而采用类似的表示乘性操作。他们也承认一种自然的信号处理解释,比如在两个mfn实例中,傅立叶网(FOURIERNET)和Gabor小波网(Gabor)分别完全等价于正弦小波基和Gabor小波基的线性组合。在实验中,我们表明,尽管相对于其他为隐式表示而设计的深度架构而言,mfn非常简单,但在一系列表示任务上,MFN能够媲美或超越之前的SOTA水平。

A piece of my mind

  • 在图像上的客观评价指标远超SIREN,但是主观质量上看不出太大的区别,并且不太理解为何图像指标高但是视频指标如此低
  • 根据知乎大佬的评论显示,讲MFN用于图像拟合上的效果也没有文章中说的那么好的效果,大部分情况下是与SIREN效果类似甚至更差的
  • 用于视频表示应该有更好的方式,动手实现一下,如果效果还行将本文继续补充

你可能感兴趣的:(论文阅读,计算机视觉,深度学习,人工智能)