本文是接着上一篇深度学习之 7 深度前馈网络_水w的博客-CSDN博客
目录
自动梯度计算
1、数值微分
2、符号微分
3、自动微分
4、计算图
5、静态计算图、动态计算图
神经网络参数优化的主要问题
1、非凸优化
2、梯度消失
手动使用链式法则计算每个参数的导数并编程实现非常繁琐且极易出错。可使用计算 机实现参数的自动梯度计算,其方法可分为 数值微分 、 符号微分 和 自动微分 三类。
在实际应用中,经常使用下面的方式来计算梯度,以减小截断误差,
✓ ∆ 难以确定,太小会引起舍入误差,太大则增加截断误差;✓ 虽然实现非常简单,但实用性较差;✓ 计算复杂性高,因为需要为每个参数单独施加扰动,若参数数量为 ,则复杂度为 ( 2 )
✓ 一种基于符号计算(代数计算)的自动求导方法,用计算机来 求解带变量的数学表达式✓ 变量被看作符号, 不需要代入具体的值 ,输入和输出都是数学表达式;✓ 包括基于规则的化简、因式分解、微分、积分、解代数方程、解常微分方程等运算;✓ 编译时间长;✓ 需要专门的数学计算语言;✓ 很难调试;✓ 对于深层复合函数,输出的表达式非常冗长,形成表达式膨胀(expression swell);
✓ 一种介于数值微分和符号微分之间的方法• 数值微分强调一开始直接代入数值近似求解,而符号微分强调直接对表达式进行求解,最后才代入数值;• 自动微分将符号微分法应用于最基本的算子,比如常数、幂函数、指数函数、对数函数、三角函数等,将其代入数值,保留中间结果,最后再应用于整个函数;✓ 灵活性高• 微分求解过程对用户是透明的;• 不需要专门的数学语言和编程;• 采用图的方式进行计算,可以做很多优化;
✓ 将复合函数分解为一系列基本操作,并以图的形式连接起来;
实例 :
在当前深度学习框架中,Theano和Tensorflow采用的是静态计算图, 而DyNet、Chainer和PyTorch采用的是动态计图。Tensorflow 2.0 也开始支持动态计算图。◼ 静态计算图(Static Computational Graph)✓ 在编译时构建计算图,构建好后在程序运行时不能改变✓ 在构建时可以进行优化、并行能力强✓ 灵活性较差◼ 动态计算图(Dynamic Computational Graph)✓ 在程序运行时动态构建计算图✓ 不容易优化,当不同输入所使用的网络结构不一样时,难以并行计算✓ 灵活性比较高
其中1和2为网络参数,(∙)为Logistic激活函数。
◼ 误差在反向传播过程中不断衰减甚至消失
误差在每一层传播时都要乘以该层激活函数的导数。