下面通过一个分类例子一步一步的引出为什么神经网络能够无限逼近任意函数这个观点,并且给出直观感觉!我们首先有这个需求,需要将下面的数据点进行分类,将三角形与正方形正确的分开,如图所示:
其实上图就是一个解决一个异或问题。
下面我分别从线性模型,感知机以及神经网络逐步围绕这个例子来引出自己的观点。(以下的讲解都在二元函数下进行,便于可视化,高维空间类比)
1.线性模型
如上图所示,我们什么激活函数都不加,那么输出结点的公式表达为:y=w1x1+w2x2(注:这里的1,2均是下标,下文一样)。
我们希望得到通过训练数据学习出w1,w2,然后得到线性模型,能够解决异或问题。但是我们很容易看出,无论怎么学习,异或问题是一个非线性问题,并不能由一个线性方程能够正确的将三角形与正方形分隔开!就好像下图表达一样,无论你直线怎么动,都不能正确分离开:
2.感知机
感知机的定义非常简单,在上面线性模型中的激活函数变为下面的阶梯函数的时候,就是感知机模型。
那么感知机是否可以解决上面异或问题呢?很显然并没有改变它只是线性模型的本质,并不能解决非线性分类问题.因为感知机分类平面投影到二维空间的时候,与下图是一模一样的:
红线就代表投影方程,比如现在一个输入点坐标为(0,0)带入方程得到结果为0,那么就在红线上,输入数据带入模型中,大于0的话,投影下来是在红线的右侧. 小于0的话,投影下来是在红线的左侧.无论怎么学习(移动)模型,都无法改变感知机是一个线性模型解决不了非线性问题的本质.
3.神经网络
下面我们看多个感知机组合成的神经网络是否能够解决这个问题呢?答案是肯定能啊,标题是神经网络能够无限逼近任意连续函数,那么肯定能够解决非线性问题,那么如何解释呢。下面一步一步给出理解,首先给出一个俩层神经网络结构如下:
很容易看出神经网络就是多个感知机组合而来的,第二层的第一个感知机学到的模型可视化可以是下面这个:
第二层的第二个感知机学到的模型可视化可以是下面这个:
那么在最后一个输出结点,进行将第二层俩个神经元进行线性组合的时候,得到的可视化图是下面这个:
相信到这里大家已经有感觉了,这不是明摆着已经解决了我提出的问题了吗,还不信,看下面!
我们已经成功的将圆形与正方形分类出来,圆形对+1这个输出,三角形对应-1这个输出,俩个不同的平面上,正确的完成了非线性分类问题。
可能还有些抽象,这么直白来说,第一个神经元学到的方程可以为x1+x2=1/2对四个数据的输出分别是:
(0,0)输出为-1,输入神经元激活函数之前的值是小于0(为-1/2)的
(1,0)输出我+1 输入神经元激活函数之前的值是大于0(为1/2)的
(0,1)输出为+1 输入神经元激活函数之前的值是大于0(1/2)的
(1,1)输出为+1 输入神经元激活函数之前的值是大于0(3/2)的
这与我们的预期不一样,我们希望(0,0)与(1,1)输出的结果应该一样,属于同一类。
根据上图知道第二个神经元学到的模型x1+x2=7/4对四个数据的输出分别是:
(0,0)输出为-1,输入神经元激活函数之前的值是小于0(-7/4)的
(1,0)输出我-1 输入神经元激活函数之前的值是小于0(-3/4)的
(0,1)输出为-1 输入神经元激活函数之前的值是小于0(-3/4)的
(1,1)输出为+1 输入神经元激活函数之前的值是大于0(1/2)的
注:以上方程只是为了讲解,并不一定是对的!第三个神经元通过对前面俩个神经元的线性组合,只需要我们通过学习w1,w2来控制(0,0)与(1,1)的输出同为负数,(1,0)与(0,1)的输出同为正,那么就完成了我们的任务,也满足了我上图的结论,正确分类了.也就是说,我们希望得到下面的结论:
代入(-1,-1)的时候,模型输出为-1
代入(+1,-1)的时候,模型输出为+1
代入(+1,+1)的时候,模型输出为-1
也就是说满足:
-w1-w2+b<0
w1-w2+b>0
w1+w2+b<0
很容易通过学习w1,w2,b得到这样的模型, 比如5x1-2x2-4=0(x1为第一个神经元的输出,x2为第二个神经元的输出,注意通过阶梯函数,输出只能是+1,-1了),满足了我们的分类要求!!已经成功的解决了异或问题。可能有同学会问,你这仅仅只解决了异或问题呀?那加入其它限制条件呢?比如说下图:
如果是上图的非线性分类问题,不仅仅是简单的异或问题,神经网络能够解决吗?答案是肯定的,我们可以在隐藏层加一个神经元,在一开始俩个神经元的作用下,再加入一个神经元,它起到的线性效果是下图(这里为了简单方便,我就画一下投影图):
在没有加入第三个神经元的时候,投影图如下(俩个红线之内的是输出为+1的样本,之外的为输出为-1的样本):
但是这个图只能解决异或问题,并不能将最上面三角形正确分类,我们新加入的神经元起到的效果只要满足下面这个条件即可:
我们就很容易得到结论,我们又可以正确将要求的样本正确分类了(每个区域应该属于哪个输出-1还是+1,为了直观我在图上画出来了~)!那么无论你是什么样的数据样本,我都可以理论上加入无数个隐藏层神经元来逼近任意连续函数进行我们的任务(有一个结论是无数个直线能够逼近任意连续曲线,道理是一样的)。
下面给出四个隐藏神经元的输出层可视化效果,这次的激活函数也不会阶梯函数了,可能是sigmoid或者tanh等其它非线性激活函数,但这些都不影响表达的本质。
到这里,我已经讲完了我要说的内容了,只是根据自己的理解通过非常简单的例子想给大家一个直观上的认识和理解,希望能对大家理解有帮助,欢迎大家指错交流~
部分图片来自于:Hugo Larochelle课程的slides
个人喜欢记录自己的学习笔记,笔记会包括自己在本科,硕士甚至博士期间对cs,ml,nlp的笔记和感悟!以及计算机学科基础课程的笔记!更多文章可见本人微信公众号[自然语言处理与机器学习]以及知乎,欢迎大家关注交流,一起学习和进步!
知乎主页:https://www.zhihu.com/people/qinlibo_nlp/answers