感知器与梯度下降(二)

上一篇我们讲了感知器和梯度下降的关联,详细请查看 感知器与梯度下降(一)今天我们来讲一下,从算法上看,感知器和梯度下降的区别和联系。

从上一篇中,我们得到了误差函数的表达式:

感知器与梯度下降(二)_第1张图片

误差函数是关于权重W的函数,画一个三维的图如下,误差函数是关于权重W1和W2的函数,在某一点上误差E的梯度是对w1和w2的偏导数的矢量和的反方向(相反数),如下图右侧所示: 

感知器与梯度下降(二)_第2张图片

梯度下降的算法计算过程,我们来简单看一下,预测函数y,初始随机产生的W和b,那么预测的结果不太好,误差比较大,此时误差下降最快的方向就是在该点的梯度,就是E对w1,w2.......wn,及b的偏导数,为了使得梯度下降的更细腻,引入了学习率α=0.1,那么经过梯度下降后,得到新的wi` 和b`,见下面图中右侧部分

 

感知器与梯度下降(二)_第3张图片

 根据学习率和误差对权重W和b的偏导数计算出新的权重值W`和b`

  此时,预测值y 就是  此时的误差要比之前减少了,预测的效果就变好了,重复这一过程,误差会变的越来越小,进而完成预测的过程。

下面我们来看下公式的推导过程,首先α(x) 是s型函数(sigmod函数),所有就有:,推导过程如下:

感知器与梯度下降(二)_第4张图片

误差函数: 

 其中,

 感知器与梯度下降(二)_第5张图片

感知器与梯度下降(二)_第6张图片

 

 

梯度下降的过程和感知器的学习过程有点类似,感兴趣的同学可以点击查看 之前关于感知器的文章 深度学习-感知器是怎么学习分类的? 下面我们来对比一下,看看两者到底有什么联系和区别:

感知器与梯度下降(二)_第7张图片

从上面的图中对比一下两者的公式,左边是梯度下降,右边是感知器,在感知器学习过程中,不是所有点的权重都进行更新的,只有分类错误的点的权重才进行更新,具体介绍说明可以查看之前的一篇博文 深度学习-感知器是怎么学习分类的?

在感知器中,预测值y^ 的值是0或者1 ,标签y的值也是0或者1 ,因此,分类错误的情况下,分为两种:

(1) y =0,y^=1 : y-y^ = -1  wi = wi - α 

(2)y=1,y^=0: y-y^= 1      wi = wi + α xi6

 这样就和左侧的梯度下降的公式是一致的了,只是在梯度下降的过程中,预测值y^ 可以是0~1中的任意一值,而感知器中的y^  的值只能是0或者1.

而且他们在学习过程中的思想都是一致的,分类错误的点,需要分割线离得更近一点,分类正确的点,需要分割 线离得更远一点

感知器与梯度下降(二)_第8张图片

你可能感兴趣的:(大数据,机器学习)