感知机基础学习

感知机来源于M-P神经元,是罗森布拉特提出的

什么是学习率?和步长有什么区别?

怎么确定初始学习率?怎么在深度学习中进行学习率调整?

两个激活函数有什么区别?

感知机学习算法

所谓的神经网络的学习规则,就是调整神经元之间的连接权值和神经元内部阈值的规则

调整规则:用学习率乘以差错来对应于修正权重\varepsilon

以区分西瓜香蕉为例

假如输入一个西瓜,得到输入权值\omega _1=1,\omega_2=-2,则得到输出结果为

f(1)=x_1w_1+x_2w_2-\theta =1\times 1+1\times(-2)-0=-1,y=0

输出值并不是西瓜,而是香蕉

因此我们需要通过感知机学习进行修正,修正规则为

\omega _{new}=\omega_{old}+\varepsilon

\theta _{new}=\theta _{old}+\varepsilon

设置学习率为l,y为期望输出,y^'为实际输出,则修正权重\varepsilon

学习率l我们给个默认值1.5,则

\varepsilon =l\times (y-y^{'})=1.5\times (1-0)=1.5

\omega _{new1}=\omega_{old1}+\varepsilon=1+1.5=2.5

\omega _{new2}=\omega_{old2}+\varepsilon=0+1.5=1.5

\theta _{new}=\theta _{old}+\varepsilon=0+1.5=1.5

然后

f(1)=x_1w_1+x_2w_2-\theta =1\times 2.5+1\times1.5-1.5=2.5,得到y=1

因此预测正确为西瓜

在这种参数下

对于香蕉而言

f(1)=x_1w_1+x_2w_2-\theta =0\times 2.5+0\times1.5-1.5=-1.5,得到y=0

香蕉也预测正确

f(1)=x_1w_1+x_2w_2-\theta =0\times 2.5+0\times1.5-1.5=-1.5

\theta看成-1*\theta=x_0\omega_0,那么感知机的几何意义可以看做

如果识别对象x有n个特征,那么感知机可以看做在n维实例空间(即点空间)中的超平面决策面,以向量的形式写出来就是如下所示:

f(\overrightarrow{x})=x_1w_1+x_2w_2+...+x_iw_i+...+x_nw_n-\theta =x_0w_0+x_1w_1+...+x_iw_i+...+x_nw_n=\overrightarrow{x}\cdot \overrightarrow{\omega }

感知机可以看做是一个超平面划分空间位置的识别器

svm将感知机的不唯一变为唯一

感知机的表征能力

所有的数学法则,都可自下而上的通过无可辩驳的基本逻辑来实现

感知机的缺点:不能实现异或运算,只能实现与、或、非运算

明斯基已经证明,若两类模式是线性可分的,那么一定存在一个线性超平面可以将它们区分开来,这样的感知机,其学习过程一定会趋于稳定下来,神经网络的权值可以学习得到。

对于线性不可分原子布尔函数(如异或操作),就不存在简单的线性超平面将其区分开来。在这种情况下,感知机的学习过程就会震荡,权值向量就难以求得合适解。

单层神经网络无法解决不可线性分割的问题,典型的证据就是不能实现异或门电路功能。

你可能感兴趣的:(AI学习)