吃瓜教程Task4:神经网络 西瓜书第五章

一.感知机模型

模型简介:感知机模型是线性模型之一,拟合一个超平面f(x)=WTX+b来划分样本点,策略为最小化分类错误率。通过迭代的方式求得符合条件能够线性可分的训练样本分开的超平面。当样本非训练可分时,传统的感知机模型将无法训练。也是为了解决这一问题引出了后文中介绍的多层神经元网络结构模型,万有近似原理将使得多层网络结构的模型能够以任意精度拟合函数。将感知机模型手写笔记如下:

吃瓜教程Task4:神经网络 西瓜书第五章_第1张图片

二.前馈神经网络模型与BP算法

2.1 前馈神经网络模型

全连接的三层前馈神经网络模型由以下结构构成,待学习的参数包含每个神经元的阈值,以及所有神经元连接上的连接权。

吃瓜教程Task4:神经网络 西瓜书第五章_第2张图片

2.2 激活函数

神经元接收到的总输入值将与神经元的阈值进行比较,然后通过“激活函数”处理以产生神经元的输出。理想的激活函数应该具有以下特征:
(1)连续可导

(2)尽可能简单

(3)导函数的值域在合适的区间内。

激活函数的设定都是为了方便BP算法的计算与求解。

2.3 以sigmoid为激活函数的全连接前馈神经网络BP算法推导:

吃瓜教程Task4:神经网络 西瓜书第五章_第3张图片

BP算法的推导过程需要注意的核心是:从隐层神经元的输入出发,从输出层神经元的输入出发。

2.4算法伪代码:
吃瓜教程Task4:神经网络 西瓜书第五章_第4张图片

 三.使用神经网络模型中可能会出现的问题:

3.1  有哪些策略可以缓解BP网络的过拟合?


(1)早停:该策略需要配合验证集进行,用训练机来更新权重和阈值,计算梯度,验证集用来估计泛化误差,若训练集误差降低而验证集误差升高,则停止训练,返回当下的连接权和阈值。

(2)正则化:在误差目标函数中加入一项用于描述网络结构复杂度的部分,如连接权和阈值的平方和,使得训练过程偏好较小的连接权和阈值,会对过拟合现象有所缓解。

(3)dropout:用于深层网络防止过拟合,在前向传播的过程中,以概率P随机删掉一些神经元。dropout如此操作相当于取平均的作用,每次在训练不同的网络。同时也类似于正则化,一个泛化能力强的模型,即使丢失特定的线索,网络也应该从众多其他线索中学习到共同的特征。

3.2 哪些策略可以跳出局部最小

(1)多组不同的参数初始化多个神经网络,取误差最小的解作为最终参数值

(2)模拟退火,在每一步都以一定的概率接受比当前结果更差的结果,有助于跳出局部最小,随着迭代的深入,这个概率要降低,以避免“反复横跳”保证算法的稳定性

(3)使用随机梯度下降,在计算梯度时加入了随机因素也有机会跳出局部最小继续摸索。

3.3 在训练较深层神经网络的时候梯度爆炸与梯度消失的原因是什么?有什么影响?如何解决 ?
 

简述:
梯度爆炸指的是在深层网络或循环网络中误差梯度可在更新中累计,变得非常大的梯度,然后导致网络权重的大幅更新,因此网络变得不稳定。在极端情况下,权重的值变得非常大,以至于溢出导致N#A值

梯度消失指的是如传统的激活函数sigmoid具有(0,1)范围内的梯度,BP算法会使得n层网络的梯度相乘,这意味着梯度(误差信号)呈指数递减,使梯度趋近于0而导致无法更新。

如何解决?
(1)预训练+微调:
         每次训练一层隐节点,训练时将上一层隐节点的输出作为输入,“逐层训练”,此思想类似于一直寻求局部最优。

(2)权共享;
         让一组神经元使用相同的连接权,如卷积神经网络,无论是卷积层还是采样层都是用同一种卷积滤波器提取输入,使用相同的连接权大大减少了需要训练的参数数目

(3)梯度剪切+正则化:
         梯度剪切针对梯度爆炸提出,设定一个梯度的阈值来限制梯度的范围。权重正则化也可以视作对权重的约束。

(4)采用Relu,Leakrule,Elu等激活函数:
        Relu=max(x,0),其导数在正数部分恒为1,所以可缓解深层网络中的梯度消失和爆炸的问题。

(5)网络中的残差结构(最nb的)
        将设我们期望利用深度网络学习到f(x;w)去逼近h(x),将h(x)拆分成两部分h(x)=x+(h(x)-x),恒等函数和残差函数,采用非线性单元f(x;w)去近似残差部分h(x)-x,用f(x;w)+x去逼近h(x)。引入残差结构后,相较于几层,几十层的深层网络都不值一提,残差网络可以轻松构建几百层,而不用担心梯度消失过快的问题,因为有x的存在永远不会使梯度消失。

【课程链接】 https://datawhale.feishu.cn/docs/doccndJC2sbSfdziNcahCYCx70W

【视频链接】B站视频:https://www.bilibili.com/video/BV1Mh411e7VU

你可能感兴趣的:(神经网络,机器学习,人工智能)