人工智能基础入门——神经网络讲解

人工智能基础入门——神经网络讲解_第1张图片

1、人工神经元

人类神经元中抽象出来的数学模型
人工智能基础入门——神经网络讲解_第2张图片
树突:input
细胞核:处理操作+激活函数
轴突末梢:输出
人工智能基础入门——神经网络讲解_第3张图片
f( ∑ i = 1 N I i ⋅ W i \sum_{i=1}^{N} I_{i}\cdot W_{i} i=1NIiWi)=y
人工神经网络:大量的神经元以某种连接方式构成的机器学习模型。
第一个神经网络:1958年,计算机科学家Rosenblatt提出的Perceptron(感知机)
人工智能基础入门——神经网络讲解_第4张图片
o= σ \sigma σ((+b)) b是指偏执项
if x>0 σ \sigma σ=1 else σ \sigma σ=0
感知机致命缺点:Minsky在1969年证明Perceptron无法解决异或问题。
人工智能基础入门——神经网络讲解_第5张图片
σ \sigma σ( X 0 {X}_{0} X0 W 0 {W}_{0} W0+ X 1 {X}_{1} X1 W 1 {W}_{1} W1+b)=0
X 1 {X}_{1} X1=- W 0 {W}_{0} W0/ W 1 {W}_{1} W1+o/ W 1 {W}_{1} W1-b/ W 1 {W}_{1} W1
所以是一个直线,不能解决异或问题,导致了第一次人工智能发展衰落。
2、多层感知机
多层感知机(Multi Layer Perceptron,MLP):单层神经网络基础上引入一个或多个隐藏层,使神经网络有多个网络层,因而得名多层感知机。
人工智能基础入门——神经网络讲解_第6张图片
输入就是 W 4 × 5 {W}_{4×5} W4×5
隐藏层输出 W 5 × 3 {W}_{5×3} W5×3
前向传播:
σ ( X 1 × 4 ⋅ W h ) = H 1 × 5 \sigma({X}_{1×4}\cdot{W}_h)={H}_{1×5} σ(X1×4Wh)=H1×5
σ ( H 1 × 5 ⋅ W o 5 × 3 ) = O 1 × 3 \sigma({H}_{1×5}\cdot{W}_{o5×3})={O}_{1×3} σ(H1×5Wo5×3)=O1×3
如果没有激活函数就会导致多层感知机变成单层感知机
人工智能基础入门——神经网络讲解_第7张图片

3、激活函数

(1)让多层感知机成为真正的多层,否则等价于一层
(2)引入非线性,使网络可以逼近任意非线性函数(万能逼近定理universal approximator )
激活函数需要具备以下几点性质:
1.连续并可导(允许少数点上不可导),便于利用数值优化的方法来学习网络参数
2.激活函数及其导函数要尽可能的简单,有利于提高网络计算效率
3. 激活函数的导函数的值域要在合适区间内,不能太大也不能太小,否则会影响训练的效率和稳定性
人工智能基础入门——神经网络讲解_第8张图片

4、反向传播

前向传播︰输入层数据从前向后,数据逐步传递至输出层
反向传播:损失函数开始从后向前,梯度逐步传递至第一层
反向传播作用:用于权重更新,使网络输出更接近标签
损失函数:衡量模型输出与真实标签的差异,Loss = f(y^, y)
反向传播原理:微积分中的链式求导法则 y=f(u),u=g(x), ∂ y ∂ x = ∂ y ∂ u ∂ u ∂ x \frac{\partial y}{\partial x}=\frac{\partial y}{\partial u}\frac{\partial u}{\partial x} xy=uyxu
人工智能基础入门——神经网络讲解_第9张图片
人工智能基础入门——神经网络讲解_第10张图片
梯度下降法
(Gradient Decent) :权值沿梯度负方向更新,使函数值减小导数。函数在指定坐标轴上的变化率方向
导数︰指定方向上的变化率
梯度:一个向量,方向为方向导数取得最大值的方向
人工智能基础入门——神经网络讲解_第11张图片学习率
人工智能基础入门——神经网络讲解_第12张图片
人工智能基础入门——神经网络讲解_第13张图片

5、损失函数

损失函数:衡量模型输出与真实的标签之间的差距
损失函数(Loss Function): //指单样本
Loss = f (y ^,y)
代价函数(Cost Function): //指总体样本
cost=1/N ∑ i N f ( y i ^ , y i ) \sum_{i}^{N}f({y}_i^{\hat{}},y_i) iNf(yi^,yi)
目标函数(objective Function): //正则项
0bj = Cost + Regularization Term
人工智能基础入门——神经网络讲解_第14张图片
人工智能基础入门——神经网络讲解_第15张图片
人工智能基础入门——神经网络讲解_第16张图片
人工智能基础入门——神经网络讲解_第17张图片
CE (Cross Entropy,交叉嫡)
交叉嫡:衡量两个概率分布的差异
概率有两个性质:
1.概率值是非负的
2.概率之和等于1
交叉嫡的好伙伴―—Softmax函数:将数据变换到符合概率分布的形式
人工智能基础入门——神经网络讲解_第18张图片
人工智能基础入门——神经网络讲解_第19张图片

6初始化

人工智能基础入门——神经网络讲解_第20张图片
人工智能基础入门——神经网络讲解_第21张图片
人工智能基础入门——神经网络讲解_第22张图片
Regularization:减小方差的策略,通俗理解为减轻过拟合的策略
误差可分解为:偏差,方差与噪声之和。即误差=偏差+方差+噪声之和
偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力
方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响
噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界
人工智能基础入门——神经网络讲解_第23张图片
人工智能基础入门——神经网络讲解_第24张图片
目的:减少L1或L2的值,
L1= ∑ i N ∣ W i ∣ \sum_i^N |W_i| iNWi
可能有权值的吸收性(当 W i W_i Wi
L2= ∑ i N W i 2 \sum_i^N W_i^2 iNWi2
人工智能基础入门——神经网络讲解_第25张图片
减少过拟合的方法:
人工智能基础入门——神经网络讲解_第26张图片
通过对比两个公式,发现正则化是 W i ( 1 − λ ) W_i(1-\lambda) Wi(1λ),而正则化是 W i W_i Wi,会发现正则化导致了权值变小,过拟合现象也变小了。
人工智能基础入门——神经网络讲解_第27张图片

你可能感兴趣的:(深度学习,笔记,人工智能,神经网络,机器学习)