深度学习入门课笔记(一)

深度学习入门课笔记(一)

神经网络基础

人工神经元


**

人工神经网络

*:大量神经元以某种连接方式构成的机器学习模型。根据连接方式的不同分为很多种。

第一个神经网络:感知机
深度学习入门课笔记(一)_第1张图片
**but!!!**感知机致命缺点;不能解决异或问题(感知机实际上在二维平面是一条直线,无法解决非线性问题)如下图所示:

**

多层感知机

**:单层神经网络基础上引入一个或多个隐藏层,使神经网络有多个网络层,因而叫做多层感知机
层与层之间权重矩阵大小的算法:输入个数×输出个数
举个例子:深度学习入门课笔记(一)_第2张图片
那么在这个例子中计算出输出其实就是一个同行矩阵的乘法。
但是要注意隐藏层中我们不能再用仿射函数,而应该在一次仿射变换后对每个隐藏单元应用非线性的激活函数。
原因如下:
若无激活函数,网络退化为单层网络:
H=XW_{h}+b_{h}
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
隐藏层中加入激活函数,可避免网络退化。
在这里插入图片描述

激活函数

  • 作用:

(1)让多层感知机成为真正的多层,否则就等价于一层
(2)引入非线性,使网络可以逼近任意非线性函数(万能逼近定理)

  • 性质:
    深度学习入门课笔记(一)_第3张图片
  • 常见激活函数:

Sigmoid:常用被用于输出视作二元分类问题的概率时,冲淡输出单元上的激活函数,但是有一个缺点当大量元素落在饱和区时,就无法再更新权值了。
深度学习入门课笔记(一)_第4张图片
Tanh:双曲正切函数,当输入在0附近时,此函数接近线性变换。有两个饱和区,不利于权值的更新和梯度向前传播
深度学习入门课笔记(一)_第5张图片
(非饱和激活函数)ReLu:修正线性单元
深度学习入门课笔记(一)_第6张图片

反向传播

前边介绍的都是前向传播,是指输入层数据开始从前向后,数据逐步传递至输出层。
反向传播就是损失函数开始从后向前,梯度逐步传递至第一层。
损失函数是用来衡量模型输出与真实标签的差异。

  • 反向传播作用:用于权重更新,使输出更接近标签
  • 反向传播原理:链式求导法则
  • 梯度下降法 :权值沿梯度负方向更新,使函数值减小。
  • 导数:函数在指定坐标轴上的变化率
  • 方向导数:指定方向上的变化率
  • 梯度:一个向量,方向为方向导数取得最大值的方向
  • 学习率:控制更新步长沿梯度负方向更新
    1. 无学习率:
    在这里插入图片描述
    2.有学习率:在这里插入图片描述

损失函数

  • 与别的函数的区别:损失函数是单样本,代价函数是总体,目标函数用来控制模型复杂度,防止过拟合
  • 深度学习入门课笔记(一)_第7张图片
  • 常见损失函数:
    1.MSE:输出与标签之差的平方的均值,常在回归任务中使用。
    计算公式:在这里插入图片描述
    2.CE:交叉熵,用于衡量两个分布的差异,常在分类任务中使用
    深度学习入门课笔记(一)_第8张图片
    (1) 信息熵:描述信息的不确定度
    (2)自信息:
    在这里插入图片描述
    image是某件事件发生的概率
    信息熵=所有可能的信息量的期望
    优化交叉熵等价于优化相对熵:
    深度学习入门课笔记(一)_第9张图片
    (3) 概率的两个性质:
       1)概率值是非负的
       2)概率之和等于1
    (4)Softmax函数:将数据变换到符合概率分布的形式
    深度学习入门课笔记(一)_第10张图片
    注意:没有一个适合所有任务的损失函数

权值初始化

训练前对权值参数赋值,良好的权值初始化有利于模型训练
注意:一个简便但错误的方法——初始化全为0

  • 初始化方法
    1.随机初始化法:权值不能太小也不能太大,太小起不到作用,太大会落入饱和区(如右图)
    深度学习入门课笔记(一)_第11张图片
       那么我们怎么找标准差呢?
    自适应标准差:自适应方法随机分布中的标准差
    1. Xavier初始化:
      在这里插入图片描述
      2.Kaiming初始化

正则化方法

Regularization:减小方差的策略,即减轻过拟合的策略。

  • 一些基本概念:
     1.误差=偏差+方差+噪声
     2.偏差度量学习算法的期望预测与真实结果的偏离程度(算法本身的拟合能力)
     3.方差度量同样大小的训练集的变动所导致的学习性能的变化(刻画数据扰动所造成的影响)
     4.噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界。
  • 过拟合现象:方差过大,在训练集表现良好,在测试集表现糟糕
  • 正则化方法:
     1.深度学习入门课笔记(一)_第12张图片深度学习入门课笔记(一)_第13张图片
    那么为什么L2有权重衰减功能呢?

深度学习入门课笔记(一)_第14张图片
 2.随机失活:
深度学习入门课笔记(一)_第15张图片

你可能感兴趣的:(笔记,神经网络,深度学习,算法)