【经典论文精读】浅谈神经网络的万能近似定理

近年来随着人工智能(Artificial Intelligence, AI)和深度学习(Deep Learning, DL)的兴起,其方法被越来越多的行业所应用,而这之中最具代表性的模型就是神经网络模型,那究竟为什么神经网络会如此强大?作为经典论文精读系列的第一期,我们将回到1989年去了解神经网络强大的根本:万能近似定理,以及其定理的相关证明。本篇文章共分上下两章,其中在上篇中简要介绍了一下论文中的一些成果即其思路,而在下篇则给出了论文中定理的严格数学证明。

原文链接如下:https://doi.org/10.1016/0893-6080(89)90020-8

1、简述

论文中作者严格证明了单隐层使用任意压缩函数的前馈神经网络只要隐层数量足够多就能够以任意精度逼近任意可测函数。

这里单隐层前馈神经网络相信有点基础的都能理解,而后面的可测函数可以简单理解成就是任意函数,因为现实生活中我们遇到的大部分函数都是可测函数,所以不必特别纠结可测函数究竟是啥,如果确实想深究可测函数究竟是个啥函数可以阅读实变函数以及泛函分析的相关内容。

而另一个不容易理解的地方就是什么是压缩函数?论文给出了如下的定义:

称函数为压缩函数,如果单调不减,且满足 .

【经典论文精读】浅谈神经网络的万能近似定理_第1张图片

常见的Sigmoid函数就是一个典型的压缩函数,此外论文里还提到了一些函数例如阀函数、斜坡函数都属于压缩函数。

 

2、一些理解

初看前面定理的结论可能有些同学会觉得云里雾里,只是感觉好牛逼但是不知道为啥,其实要说为什么这个定理牛逼则要从函数逼近的角度去理解。

我们知道当我们去做拟合的时候,其实就是寻找一个函数,我们需要这个函数能和我们收集到的数据足够接近(即误差足够小)。那这里就要涉及到如何找到这样一个合适的函数。

函数逼近的角度认为我们可以不直接找这个合适的函数,而是通过一些简单的我们知道的函数类去慢慢逼近这个合适的函数。常见的函数类有如下这些:

 

(1)   多项式函数类

n次代数多项式,即由次数不大于n的幂基的线性组合的多项式函数:

其中为实系数。

更常用的是由n次Bernstein基函数来表达的多项式形式(称为Bernstein多项式或Bezier多项式):

其中Bernstein的基函数为

(2)   三角多项式类

n阶三角多项式,即由阶数不大于n的三角函数基的线性组合的三角函数:

其中为实系数。

上面提到的函数类相信大家都很熟悉这里就不做过多说明,而在逼近论中,还有许多其他形式的逼近函数类,比如由代数多项式的比构成的有理分式集(有理逼近);按照一定条件定义的样条函数集(样条逼近);径向基函数(RBF逼近);由正交函数系的线性组合构成的(维数固定的)函数集等。

问题在神经网络中作者又构造了一个怎样的函数类呢?在此之前我们先做如下定义:

【经典论文精读】浅谈神经网络的万能近似定理_第2张图片

而为了度量两个函数之间的距离我们可以用函数p做度量,例如用均方误差作为两个函数之间的距离,这里均方误差即为前面提到的函数p,现在我们为了度量一类函数到另一类函数之间的距离,我们引入稠密性的概念,具体来说定义如下

【经典论文精读】浅谈神经网络的万能近似定理_第3张图片

换言之,作者论文中中的主要思路可以理解为首先证明了上面函数类在可测函数空间内是稠密的(即通过上面的函数类能逼近任意一个可测函数),然后由于下面的函数类是上面函数的一个特例,即可证明单隐层的神经网络能够以任意精度逼近任意可测函数,而这里函数类里的基函数的个数则由隐层神经元个数决定,基函数的类型由其激活函数来决定。

 

欢迎关注我们的微信公众号ChallengeHub,第一时间掌握竞赛信息!!!!

想和各位大佬一起学习可以扫描下方二维码添加群管理员加入ChallengeHub粉丝群。

也欢迎各位加入我们qq群一起讨论学习。

你可能感兴趣的:(经典论文精读,神经网络)