深度学习的梯度下降法

目录​​​​​​​

梯度下降法

哈密顿算子

最优化问题和回归分析

代价函数

学习数据和正解

误差反向传播法

神经单元误差​


梯度下降法

梯度下降法是一种寻找最小值的点的方法,在数值分析领域,梯度下降法也称最速下降法

近似公式

表示为两个向量的内积形式

深度学习的梯度下降法_第1张图片

 向量a,b的内积为a\cdot b = |a||b|cos\theta\theta为180时内积的值最小,可得向量a满足以下条件式时,内积a\cdot b取最小值

两个变量函数的梯度下降法的基本式子

函数z = f(x, y),当x改变\Delta x,当y改变时\Delta y,函数 f(x, y)的变化\Delta z为下式

 当两个向量的方向相反时\Delta z最小。

深度学习的梯度下降法_第2张图片

 即梯度下降的基本公式

梯度下降法及用法

当有多个变量时,梯度下降法基本公式如下为函数f在点(x_{1},x_{2}\cdots x_{n})的梯度为

(x_{1},x_{2}\cdots x_{n})向点 移动就能以最快的速度移动,因此反复依照计算梯度,并按梯度移动就能找到最小值点

哈密顿算子

梯度下降法基本公式也可由哈密顿算子表示

也可以表示成

32,\eta的含义

可以看成函数移动的步长,在神经网络中称为学习率

最优化问题和回归分析

一元线性回归方程

p称为回归系数,q称为截距

代价函数

 

在最优化方面,误差总和C_{T}也可以称为代价函数

学习数据和正解

利用事先提供的数据来确定权重和偏置,在神经网络中称为学习

误差反向传播法

代价函数计算量大,无法直接使用梯度下降法时,引入误差反向传播法

普通的计算方法:先代入数据,然后计算偏导

误差反向传播法:先计算偏导,然后代入数据,减少了大量的偏导计算过程

神经单元误差\delta _{j}^{l}

引入误差反向传播法的特点是将繁琐的导数计算替换为数列的递推关系式,提供这些递推关系式的就是神经单元误差

 权重,偏置的偏导数和的关系

 \delta _{j}^{l}的计算方法

 将\delta _{j}^{l}看作数列,得到末项的计算公式 

 层L与下一层L+1的值的关系式

 

你可能感兴趣的:(深度学习,tensorflow)