学习笔记之神经网络

周志华老师的西瓜书第五章,用了十几页就介绍了神经网络包括深度学习在内的知识点,介绍了主流的多个模型,涉及面很广,算是一个概述。

1,神经元模型

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真是世界物体所作出的交互反应。
沿用至今的是McCulloch and Pitts在1943年提出的“M-P神经元模型”。在这个模型中,神经元接受来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接受到的总输入与阈值进行比较,然后通过“激活函数”(activation function)处理以产生神经元的输出。
学习笔记之神经网络_第1张图片
理想中的激活函数是阶跃函数,它将输入值映射为输出值0或1,显然0对应神经元抑制,1对应神经元兴奋。但是阶跃函数具有不连续、不光滑等不太好的性质,因此实际常用Sigmoid函数作为激活函数,它将比较大范围变化的输如挤压到(0,1)输出值范围内。
学习笔记之神经网络_第2张图片
另外一种激活函数是ReLU(RectifiedLinearUnit)函数,当输入X小于0是f(x)等于0,其他情况,f(x)等于X.

2,感知机与多层网络

感知机(perceptron)由两层神经元组成,输入层接受外界输入信号后传递给输出层,输出层是MP神经元,亦称“阈值逻辑单元”(threshold logic unit)。感知机能容易实现逻辑与、或、非运算。感知机只有输出层神经元进行激活函数处理,及一层功能神经元,学习能力有限,只能处理线性可分的问题。
要解决非线性可分问题,需要使用多层神经元。一般的神经网络是如下图所示的层级结构,每层神经元与下一层神经元全互连,神经元之间不存在同层连接,也不存在跨层连接,这样的神经网络通常称为“多层前馈神经网络”(multi-layer feedforward neural networks)。
学习笔记之神经网络_第3张图片

其中输入层神经元接受外界输入,隐层与输出层对信号进行加工,最终结果由输出层神经元输出;神经网络的学习过程就是根据训练数据来调整神经元之间的“连接权”(connection weight)以及每个功能神经元的阈值,即神经网络学到的东西蕴含在连接权与阈值中。

3,误差逆传播算法

误差逆传播(error BackPropagation,简称BP)算法是迄今最成功的神经网络学习算法。
学习笔记之神经网络_第4张图片
学习笔记之神经网络_第5张图片
学习笔记之神经网络_第6张图片
学习笔记之神经网络_第7张图片
学习笔记之神经网络_第8张图片
学习笔记之神经网络_第9张图片
学习笔记之神经网络_第10张图片
上面介绍的“标准BP算法”每次仅针对一个训练样例更新连接权和阈值,类似的基于累计误差最小化的更新规则就可得到累积误差逆传播算法。
BP 算法场遭遇过拟合,即训练误差持续降低,测试误差却可能上升。有两种策略来应对:1,早停,将数据分成训练集和验证集,训练集用来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练;2,正则化,其基本思想是在误差函数中增加一个用于描述网络复杂度的部分,例如连接权与阈值的平方和。训练过程将会偏好比较小的连接权与阈值,使网络输出更加光滑。

4,全局最小与局部最小

神经网络的训练过程可以看做是一个参数寻优过程,存在陷入局部最小的可能,人们常采用一下策略来试图跳出局部最小。
1,以多组不同的参数值初始化多个神经网络,取其中误差最小的解作为最终参数。
2,使用模拟退火(simulated annealing)技术。模拟退火在每一步都以一定的概率接受比当前解更差的结果,从而有助于跳出局部最小。在每步的迭代过程中,接受“次优解”的概率要随着时间的推移而逐渐降低,从而保证算法稳定。
3,使用随机梯度。在计算梯度时加入随机因素,这样限于局部最小计算的梯度仍不为零,这样有机会跳出局部最小。
此外遗传算法也常用来训练神经网络来逼近全局最小。这些技术大多是启发式,理论上尚缺乏保障。

你可能感兴趣的:(统计与机器学习)