目标是用Relu网络去逼近更加光滑的函数空间,在范数的意义下。
定理1.1简单而言是说:可以用宽度 深度 的Relu FNN去接近,而且接近误差是:
这是一个非渐近的结果,而且同时显示了深度和宽度在网络逼近能力的中的影响。
这个误差是渐近最优的。
1.光滑性确实提高了接近的效率。
2.如果足够光滑,s大于d,那么就不会有维数灾难。
3.如果把宽度和深度的要求写成比较简洁的形式就是如下的版本:
4.如果突出逼近误差,并且合并考虑网络参数数量,就是以下的定理:
本文作者的几篇文章关于各种函数空间的Relu FNN逼近情况的非渐近估计。
定理1.1的证明思路:
引入了trifling region
引入region区域的主要原因是Relu FNN是连续的,所以不能很好地一致逼近阶梯函数。
利用以下的两个定理:
定理2.1:显示了可以在trifling 区域之外用Relu FNN 逼近的话,通过增大Relu FNN的规模可以在trifling 里面也很好地逼近。
这个定理的证明思路是:显示middle 函数是可以用Relu写成的,然后利用小的偏移产生的三个函数的middle取说明可以在整体上逼近得很好。
定理2.2:显示了可以有Relu FNN 在trifling 区域以外一致逼近。
证明的思路按照以下的步骤:
首先既然函数区域在去掉trifling 区域的一个个小方块中,所以每个小方块里面的可以做泰勒展开:
后面的一部分本身就有bound,所以主要关心前面的部分。这是多项式函数的和。
所以对多项式的Relu逼近是至关重要的。
步骤一:证明多项式函数可以用Relu FNN 是可以逼近的。最后的结果是:规模为的网络是可以逼近多项式的,的速率。
步骤二:证明阶梯函数是可以用Relu FNN逼近的,阶梯函数指的是:每个x可以map到
步骤三:证明可以有Relu FNN,去逼近f在点的各阶导数:
还可以证明这里1.1获得得结果是渐近最优的:
也就是有下面的定理:
也就是说控制了这样大的网络规模之后,在误差上已经是最好的了。
证明的思路是用反证法, 先做一个反证假设:
如果有这样的反证假设,就可以利用VC维度得到矛盾:
正常来说,VC维度有以下的估计:
但是如果上面的claim成立,那么就会有VC维度的下界
下界的证明方法就是做一个shatter:方法是做这么多的方块分割,然后每个里面可以用鼓包函数弄出一个光滑函数来,结合正负性这些光滑函数可以把里面的所有小方块中心点给shatter了。然后取证明这些光滑函数是可以用Relu函数去近似的,并不会改变中心点处的正负性。就可以了。
去了解一下以下的:
万有逼近理论:
G. Cybenko. Approximation by superpositions of a sigmoidal function. MCSS, 2:303–314, 1989
K. Hornik. Approximation capabilities of multilayer feedforward networks. Neural Networks, 4(2):251 – 257, 1991
K. Hornik, M. Stinchcombe, and H. White. Multilayer feedforward networks are universal approximators. Neural Networks, 2(5):359 – 366, 1989.
浅层网络逼近:
A. R. Barron. Universal approximation bounds for superpositions of a sigmoidal function. IEEE Transactions on Information Theory, 39(3):930–945, May 1993
VC维度:
N. Harvey, C. Liaw, and A. Mehrabian. Nearly-tight VC-dimension bounds for piecewise linear neural networks. In S. Kale and O. Shamir, editors, Proceedings of the 2017 Conference on Learning Theory, volume 65 of Proceedings of Machine Learning Research, pages 1064–1068, Amsterdam, Netherlands, 07–10 Jul 2017. PMLR.