待做:
1、先看习题有什么问题,带着问题
2、整体过一遍,记录
3、做习题,再次整理,补充。
问题:
1、神经元激活函数有哪些?
2、学习率对训练的影响
3、标准 BP 算法和累积 BP 算法
人工神经网络
神经网络(neural networks)
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。
——— T.Kohonen 1988
神经网络学习: 机器学习 && 神经网络
典型的神经元激活函数:
对数几率函数是Sigmoid函数的典型代表。
挤压函数: 将可能在较大范围内变化的输入值挤压到(0, 1)输出范围内。
重要性质: f ′ ( x ) = f ( x ) ( 1 − f ( x ) ) f^{'}(x)=f(x)(1-f(x)) f′(x)=f(x)(1−f(x))
10个神经元两两连接,则有100个参数(90个连接权和10个阈值)
f f f为阶跃函数, y = f ( ∑ i w i x i − θ ) y=f(\sum_iw_ix_i-θ) y=f(∑iwixi−θ)
1、与, y = f ( 1 ⋅ x 1 + 1 ⋅ x 2 − 2 ) , 仅 在 x 1 = x 2 = 1 时 , y = 1 y=f(1·x_1+1·x_2-2),仅在x_1=x_2=1时,y=1 y=f(1⋅x1+1⋅x2−2),仅在x1=x2=1时,y=1
2、或, y = f ( 1 ⋅ x 1 + 1 ⋅ x 2 − 0.5 ) , 当 x 1 = 1 或 x 2 = 1 时 , y = 1 y=f(1·x_1+1·x_2-0.5),当x_1=1或x_2=1时,y=1 y=f(1⋅x1+1⋅x2−0.5),当x1=1或x2=1时,y=1
3、非, y = f ( − 0.6 ⋅ x 1 + 0 ⋅ x 2 + 0.5 ) , 当 x 1 = 1 时 , y = 0 ; 当 x 1 = 0 时 , y = 1 y=f(-0.6·x_1+0·x_2+0.5),当x_1=1时,y=0;当x_1=0时,y=1 y=f(−0.6⋅x1+0⋅x2+0.5),当x1=1时,y=0;当x1=0时,y=1
学习权重 w i ( i = 1 , 2 , . . , n ) w_i(i=1,2,..,n) wi(i=1,2,..,n)以及阈值 θ θ θ
感知机学习规则:
对训练样例 ( x , y ) (x,y) (x,y),若当前感知机的输出样例为 y ^ \hat{y} y^,权重调整:
w i ← w i + η ( y − y ^ ) x i w_i\gets w_i+\eta(y-\hat{y})x_i wi←wi+η(y−y^)xi
η ∈ ( 0 , 1 ) \eta\in(0,1) η∈(0,1),学习率
调整权重,使得预测值更接近真实值。
感知机只有输出神经元进行激活函数处理,即只拥有一层功能神经元。
学习能力 有限
多层功能神经元: 处理非线性问题。
隐含层和输出层都是具有激活函数的功能神经元。
多层前馈神经网络:
前馈是指 网络拓扑结构上不存在环或回路。
神经网络"学"到的东西,蕴含在连接权重与阈值中。
BP网络: BP算法训练的多层前馈神经网络。
@更新公式推导
BP算法流程:
1、将输入示例提供给输入层神经元,然后逐层将信号前传,知道产生输出层的结果。
2、计算输出层的误差(第4-5行),将误差逆向传播至隐层神经元(第6行),对连接权重和阈值进行调整。(第7行)
迭代过程循环进行,直到达到某些停止条件。
标准BP算法
- 每次更新只针对单个样例,参数更新频繁,对不同样例进行更新的效果可能出现"抵消"的效果。
累积BP算法
- 直接针对累积误差最小化,在读取整个训练集D一遍后才对参数进行更新,参数更新频率低
在很多任务中,累积误差下降到一定程度后,进一步下降会非常缓慢,这时标准BP会获得更好的解,训练集D非常大时更明显。
缓解BP神经网络的过拟合:
1、早停
2、正则化
1、局部极小解(邻域点)
对 w ∗ 和 θ ∗ , 若 存 在 ϵ > 0 使 得 对w^*和θ^*,若存在\epsilon>0使得 对w∗和θ∗,若存在ϵ>0使得
∀ ( w ; θ ) ∈ { ( w ; θ ) ∣ ∣ ∣ ( w ; θ ) − ( w ∗ ; θ ∗ ) ∣ ∣ ⩽ ϵ } \forall(w;\theta)\in\left\{(w;\theta)|||(w;\theta)-(w^*;\theta^*)||\leqslant\epsilon\right\} ∀(w;θ)∈{(w;θ)∣∣∣(w;θ)−(w∗;θ∗)∣∣⩽ϵ},
都 有 E ( w ; θ ) ⩾ E ( w ∗ ; θ ∗ ) 成 立 , 则 w ∗ ; θ ∗ ) 为 局 部 极 小 解 。 都有E(w;\theta)\geqslant E(w^*;\theta^*)成立,则w^*;\theta^*)为局部极小解。 都有E(w;θ)⩾E(w∗;θ∗)成立,则w∗;θ∗)为局部极小解。
2、全局最小解(参数空间所有点)
对 参 数 空 间 中 的 任 意 ( w ; θ ) 都 有 E ( w ; θ ) ⩾ E ( w ∗ ; θ ∗ ) 成 立 , 则 w ∗ ; θ ∗ ) 为 全 局 最 小 解 。 对参数空间中的任意(w;\theta)都有E(w;\theta)\geqslant E(w^*;\theta^*)成立,则w^*;\theta^*)为全局最小解。 对参数空间中的任意(w;θ)都有E(w;θ)⩾E(w∗;θ∗)成立,则w∗;θ∗)为全局最小解。
基于梯度的搜索 参数寻优方法。
负梯度方向
跳出局部极小的策略:
1、以多组不同参数值初始化多个神经网络,选择其中误差最小的解。
2、模拟退火: 在每一步都以一定的概率接受比以前更差的结果。
- 在每步迭代中,接受 次优解的概率随着时间的推移而逐渐降低,从而保证算法稳定。
- 也会造成跳出全局最小
3、使用随机梯度下降。
4、遗传算法逼近全局最小。
单隐层前馈神经网络
1、使用径向基函数作为隐层神经元激活函数。
2、输出层则是对隐层神经元输出的线性组合。
对 d 维 向 量 x 对d维向量\boldsymbol{x} 对d维向量x
R B F 表 示 : φ ( x ) = ∑ i = 1 q w i ρ ( x , c i ) RBF表示:\varphi(\boldsymbol{x})=\sum\limits_{i=1}^qw_i\rho(\boldsymbol{x},\boldsymbol{c}_i) RBF表示:φ(x)=i=1∑qwiρ(x,ci)
其 中 q 为 隐 层 神 经 元 个 数 其中q为隐层神经元个数 其中q为隐层神经元个数,
c i 和 w i 分 别 是 第 i 个 隐 层 神 经 元 所 对 应 的 中 心 和 权 重 。 \boldsymbol{c}_i和w_i分别是第i个隐层神经元所对应的中心和权重。 ci和wi分别是第i个隐层神经元所对应的中心和权重。
ρ ( x , c i ) 是 径 向 基 函 数 , 沿 径 向 对 称 的 标 量 函 数 , \rho(\boldsymbol{x},\boldsymbol{c}_i)是径向基函数,沿径向对称的标量函数, ρ(x,ci)是径向基函数,沿径向对称的标量函数,通常定义为 x \boldsymbol{x} x到数据中心 c i \boldsymbol{c}_i ci之间欧式距离的单调函数。
高 斯 径 向 基 函 数 : ρ ( x , c i ) = e − β i ∣ ∣ x − c i ∣ ∣ 2 高斯径向基函数:\rho(\boldsymbol{x},\boldsymbol{c}_i)=e^{-β_i||\boldsymbol{x}-\boldsymbol{c}_i||^{2}} 高斯径向基函数:ρ(x,ci)=e−βi∣∣x−ci∣∣2
上面式子的2有点奇怪。
训练RBF网络的两步:
1、确定神经元中心 c i \boldsymbol{c}_i ci
- 随机采样,聚类等
2、利用BP算法确定参数 w i 和 β i w_i和β_i wi和βi
竞争型学习: 无监督,胜者通吃
ART网络: 比较层、识别层、识别阈值和重置模块。
竞争的方式: 计算输入向量与每个识别层神经元所对应的模式类的代表向量之间 的距离,距离小者胜。
在线学习: 每获得一个新样本就进行一次模型更新。
增量学习: “批模式”的在线学习。
1、缓解了竞争型学习中的“可塑性-稳定性”窘境。
2、可进行增量学习或在线学习。
ART网络算法族:
1、能处理实值输入的ART2网络
2、结合模糊处理的FuzzyART网络
3、可进行监督学习的ARTMAP网络
竞争学习型, 无监督
将高维输入数据映射到低维空间。同时保持输入数据在空维空间的拓扑结构。
距离近: 最佳匹配单元,
调整最佳匹配单元及其邻近神经元的权重。
应用: 聚类、高维数据可视化、图像分割等。
结构自适应网络
学习目标 = 连接权重,阈值等参数+网络结构。
1、无需设置网络层数、神经元数目
2、训练速度较快
3、在数据较少时易陷入过拟合。
递归神经网络,可以出现环形 结构。
能处理与时间有关的动态变化。
能量
显层:表示数据的输入与输出
隐层:数据的内在表达
受限Boltzmann机(Restricted Boltzmann Machine, RBM): 仅保留显层与隐层之间的连接。
云计算,大数据
增加隐层的数目 比 增加隐层神经元 数目 更有效。
增加隐层的数目 好处:
1、增加了拥有激活函数的神经元数目
2、增加了激活函数嵌套的层数。
预训练+ 微调
权共享 CNN
–
5.1 试述将线性函数 f ( x ) = w T x f(x)=w^Tx f(x)=wTx用作神经元激活函数的缺陷。
以M-P神经元模型为例: y = f ( ∑ i = 1 n w i x i − θ ) y=f(\sum\limits_{i=1}^nw_ix_i-\theta) y=f(i=1∑nwixi−θ)
当 f ( x ) = w T x 当f(x)=w^Tx 当f(x)=wTx
y = w T ⋅ ( ∑ i = 1 n w i x i − θ ) y=w^T· (\sum\limits_{i=1}^nw_ix_i-\theta) y=wT⋅(i=1∑nwixi−θ)这是一个线性函数,没有区分作用, 没法实现 激活 的目的。
5.2 试述使用图 5.2(b) 激活函数的神经元与对率回归的联系.
1、 图5.2(b)的激活函数为: s i g m o i d ( x ) = 1 1 + e − x sigmoid(x)=\frac{1}{1+e^{-x}} sigmoid(x)=1+e−x1,使用该激活函数的神经元(假设为M-P神经元)的输出 y = 1 1 + e − ( ∑ i = 1 n w i x i − θ ) y=\frac{1}{1+e^{-(\sum\limits_{i=1}^nw_ix_i-\theta)}} y=1+e−(i=1∑nwixi−θ)1,目的在于将输入区分成1(神经元兴奋)和0(神经元抑制)两种状态。
2、 对 数 几 率 函 数 为 y = 1 1 + e − ( w T x + b ) 对数几率函数为y=\frac{1}{1+e^{-(w^Tx+b)}} 对数几率函数为y=1+e−(wTx+b)1,目的是用用线性回归模型的预测结果去逼近真实标记的对数几率。
Sigmoid函数使得线性回归模型可用于分类任务
5.3 对于图 5.7 中的 v i h v_{ih} vih 试推导出 BP 算法中的更新公式(5.13)
5.4 试述式(5.6) 中学习率的取值对神经网络训练的影响.
学习率太大容易振荡,学习率太小收敛速度又会太慢。
5.5 试编程实现标准 BP 算法和累积 BP 算法?在西瓜数据集 3.0 上分别用这两个算法训练一个单隐层网络,并进行比较.
5.6 试设计一个 BP 改进算法,能通过动态调整学习率显著提升收敛速度.编程实现该算法,并选择两个 UCI 数据集与标准 BP 算法进行实验比较.
5.7 根据式(5.18) (5.19) ,试构造一个能解决异或问题的单层 RBF 神经网络.
5.8 从网上下载或自己编程实现 SOM 网络,并观察其在西瓜数据集 3.0 α α α上产生的结果.
5.9 试推导用于 Elman 网络的 BP 算法.
5.10 从网上下载或自己编程实现一个卷积神经网络, 并在手写字符识别数据MNIST 上进行实验测试.
https://blog.csdn.net/weixin_42612337/article/details/103037333