深度学习笔记

深度学习笔记_第1张图片

 

人工神经元

        人工神经元

        人类神经元中抽象出来的数学模型

  • 输入        求和(权重乘标签)        Function        输出(0/1是否激活)

         第一个人工神经网络

        Perceptron(感知机 )

\small o=\sigma (<w,x> + b)

\small \sigma (x)=\left\{\begin{matrix} 1 &ifx>0 \\ 0& otherwise \end{matrix}\right.        输出是否激活

        感知机的致命缺点

        无法解决异或问题

深度学习笔记_第2张图片

多层感知机

        单层神经网络基础上引入一个或多个隐藏层,使神经网络有多个网络层,因而得名多层感知机。

        多层感知机的层数往往是看有多少层有权重

        多层感知机的前向传播

深度学习笔记_第3张图片

        多层感知机的激活函数(没有激活函数多层将会退化为单层网络)

                激活函数的意义

  • 让多层感知机成为真正的多层,否则等价于一层
  • 引入非线性,使网络可以逼近任意非线性函数(万能逼近定理)

                激活函数具备以下几个性质

  •   连续并可导(允许少数点上不可导),便于利用数值优化的方法来学习网络参数
  • 激活函数及其导函数要尽可能的简单,有利于提高网络计算效率
  • 激活函数的导函数的值域要在合适区间内,不能太大也不能太小,否则会影响训练的效果和稳定性

                 常见激活函数

激活函数饱和区的导函数为0不利于梯度下降权重更新,不利于神经网络的传播

饱和激活函数

  • Sigmoid(S型):常用于二分类
  • Tanh(双曲正切):对称性

非饱和激活函数

  • ReLU(修正线性单元)

        反向传播

        前向传播vs反向传播

前向传播:输入层数据开始从前向后,数据逐步传递至输出层

反向传播:损失函数开始从后向前,梯度逐步传递至第一层

        反向传播的相关概念

反向传播的作用:用于权重更新,使网络输出更接近标签

损失函数:衡量模型输出与真实标签的差异

反向传播的原理:微积分中的链式求导法则        

        损失函数

损失函数:衡量模型输出与真实的标签之间的差距(单样本)

Loss=f(\hat{y},y)

代价函数:每一个样本差距和的平均(总体)

Cost=\frac{1}{N}\sum_{i}^{N}f(\hat{y_{i}},y_{i})

        两种常见的损失函数

1、MSE均方误差:输出与标签之差的平方的均值,常在回归任务中使用

MSE=\frac{\sum_{i=1}^{n}(y_{i}-y^{p}_{i})^{2}}{n}

2、CE交叉熵:交叉熵源于信息论,用于衡量两个分布的差异,常在分类任务中使用

H(p,q)=-\sum_{i=1}^{n}p(x_{i})log\; q(x_{i})

p:真实概率分布 ;q:模型输出概率

你可能感兴趣的:(深度学习,人工智能)