吃瓜教程 | Datawhale-2021.10打卡(Task04)

目录

  • 第5章 神经网络
    • 5.1 神经元模型
    • 5.2 感知机与多层网络
    • 5.3 误差逆传播算法(error BackPropagation,BP)
    • 5.4 全局最小与局部极小
    • 5.5 其他常见神经网络
    • 参考文献

第5章 神经网络

5.1 神经元模型

1943年,Miculloch和Pitts受到生物神经网络启发,提出了机器学习中沿用至今的“M-P神经元模型”。在这个模型中,神经元接收到来自 n n n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入值与神经元的阈值进行比较(此时为线性模型,神经网络拟合能力较弱),然后通过“激活函数”处理以产生神经元的输出(通过非线性激活函数,将上述线性模型映射为非线性模型,提升了神经网络的拟合能力)。

吃瓜教程 | Datawhale-2021.10打卡(Task04)_第1张图片

常见的神经元激活函数如下图所示:

吃瓜教程 | Datawhale-2021.10打卡(Task04)_第2张图片

5.2 感知机与多层网络

感知机由输入层和输出层两层神经元组成,输入层接收外界输入信号后传递给输出层,输出层是 M − P \rm{M-P} MP神经元。

吃瓜教程 | Datawhale-2021.10打卡(Task04)_第3张图片

给定训练数据集 ( x , y ) (\bm{x},y) (x,y),权重 ω i ( i = 1 , 2 , … , n ) \omega_{i}(i=1,2,\dots,n) ωi(i=1,2,,n)以及阈值 θ \theta θ可通过学习得到。阈值 θ \theta θ可看作一个固定输入为 − 1 -1 1的“哑结点”所对应的连接权重 ω n + 1 \omega_{n+1} ωn+1,通过该操作可将权重和阈值的学习统一起来。当前感知机的输出为 y ^ \hat{y} y^,则感知机的权重调整方式如下:

ω i ← ω i + Δ ω i (5.1) \omega_{i} \leftarrow \omega_{i}+\Delta \omega_{i} \tag{5.1} ωiωi+Δωi(5.1)

Δ ω i = η ( y − y ^ ) x i (5.2) \Delta \omega_{i} = \eta(y-\hat{y}) x_{i} \tag{5.2} Δωi=η(yy^)xi(5.2)

其中 η ∈ ( 0 , 1 ) \eta \in (0,1) η(0,1)称为学习率,由上述权重的更新规则可知,若预测值 y ^ \hat{y} y^比真实值小, Δ ω i \Delta \omega_{i} Δωi输出为正数,通过式(5.1)将增大权重值;若预测值比真实值大,则 Δ ω i \Delta \omega_{i} Δωi输出为负数,通过式(5.1)将减小权重值,通过上述操作方法可使的预测值不断逼近真实值。

需注意,感知机只有输出层神经元进行激活函数处理,即只有一层功能神经元,学习能力有限,往往只能处理线性可分问题。要处理非线性可分问题,需考虑使用多层功能神经元,即在输出层与输入层中间添加隐含层

多层前馈神经网络:每层神经元与下一层神经元全互连接,神经元之间不存在同层连接,也不存在跨层连接。

吃瓜教程 | Datawhale-2021.10打卡(Task04)_第4张图片
需注意,“前馈”并不意味着网络中信号不能后向传播,而是指网络拓扑结构上不存在回路

5.3 误差逆传播算法(error BackPropagation,BP)

手推BP算法如下:

反向传播算法主要有如下三个步骤:

  1. 计算输出层误差
  2. 误差反向传播
  3. 更新权重值和阈值

缓解过拟合操作方法有:

  1. 早停(early stopping):将数据集分成训练集和验证集,训练集用来计算梯度、更新连接权重和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权重和阈值。
  2. 正则化(regularization),在误差目标函数中增加一个用于描述网络复杂度的部分,例如权重与阈值的平方和。此外,还有Dropout失活正则化。

5.4 全局最小与局部极小

局部极小解:参数空间中的某个点,其领域点的误差函数值均不小于改点的函数值;

全局最小解:参数空间中所有点的误差函数值均不小于改点的误差函数值;

吃瓜教程 | Datawhale-2021.10打卡(Task04)_第5张图片

常采用如下策略“跳出”局部极小:

  • 以多组不同参数值初始化多个神经网络;
  • 使用“模拟退火”技术;
  • 使用“随机梯度下降算法”。

5.5 其他常见神经网络

  • RBF网络(Radial Basis Function,径向基函数)
    RBF网络:是一种单隐层前馈神经网络,它使用径向基函数作为隐层神经元激活函数,而输出层是对隐层神经元输出的线性组合。
    RBF网络可表示为:
    φ ( x ) = ∑ i = 1 q ω i ρ ( x i , c i ) (5.18) \varphi (\bm{x}) = \sum\limits_{i=1}^{q} \omega_{i} \rho(\bm{x}_{i}, \bm{c}_{i}) \tag{5.18} φ(x)=i=1qωiρ(xi,ci)(5.18)

其中 q q q为隐层神经元个数, c i \bm{c}_{i} ci ω i \omega_{i} ωi分别是第 i i i个神经元对应的中心和权重, ρ ( x , c i ) \rho(\bm{x},\bm{c}_{i}) ρ(x,ci)是径向基函数。常用的高斯径向基函数如下:

ρ ( x , c i ) = e − β i ∥ x − c i ∥ 2 (5.19) \rho(\bm{x},\bm{c}_{i}) = e^{-\beta_{i}\|\bm{x}-\bm{c}_{i}\|^{2}} \tag{5.19} ρ(x,ci)=eβixci2(5.19)

  • ART网络(Adaptive Resonance Theory,自适应谐振理论)
    ART网络:是竞争型学习的重要代表,由比较层、识别层、识别阈值和重置模块构成。竞争型学习是神经网络中一种常用的无监督学习策略,在使用该策略时,网络中的输出神经元相互竞争,每一时刻仅有一个获胜的神经元被激活,其他神经元的状态被抑制。
  • SOM网络(Self-Organizing Map,自组织映射)
    SOM网络:是一种竞争学习型的无监督神经网络,它能将高维输入数据映射到低维空间,同时保持输入数据在高维空间的拓扑结构,即将高维空间中相似的样本点映射到网络输出层中的邻近神经元。

参考文献

《机器学习》,周志华著,清华大学出版社.

你可能感兴趣的:(吃瓜教程2021.10打卡,深度学习,神经网络,机器学习)