梯度下降法

一,梯度的定义(gradient descent)

一元函数 y=f(x) y = f ( x ) 在点 x0 x 0 处的梯度是: (f(x0)) ( f ′ ( x 0 ) )

二元函数 z=f(x,y) z = f ( x , y ) 在点 x0,y0 ( x 0 , y 0 ) 处的梯度是: (fx(x0,y0),fy(x0,y0)) ( ∂ f ∂ x | ( x 0 , y 0 ) , ∂ f ∂ y | ( x 0 , y 0 ) )

简而言之,对多元函数的各个自变量求偏导数,并把求得的这些偏导数写成向量的形式,就是梯度。我们常把函数 f f 的梯度简记为: gradff g r a d f 或 ∇ f

例子:
函数 φ=2x+3y2sin(z) φ = 2 x + 3 y 2 − s i n ( z ) 的梯度为: φ=(φx,φy,φz)=(2,6y,cos(z)) ∇ φ = ( ∂ φ ∂ x | , ∂ φ ∂ y | , ∂ φ ∂ z | ) = ( 2 , 6 y , − c o s ( z ) )
原来梯度是一个向量

二,梯度的理解
梯度下降法_第1张图片

三,梯度下降法的定义
梯度下降法_第2张图片
η η 相当于是步长,或者叫学习率

对模型的训练不是一蹴而就的,而是一次一次地反复训练。每次训练都需要一批样本。对这一批样本构造损失函数,然后求解梯度,更正参数。一般不建议把batch size取得太小。
θ=θηθJ(θ) θ = θ − η ∇ θ J ( θ )

mi=1(f(xi)yi)2m ∑ i = 1 m ( f ( x i ) − y i ) 2 m

占用内存少,容易出现抖动

四,梯度下降的问题之一:初始值与局部极小值
梯度下降法_第3张图片

五,梯度下降的问题之二:参数调整缓慢
梯度下降法_第4张图片

六,普通的梯度下降法
梯度下降法_第5张图片

七,梯度下降方法之:momentum
梯度下降法_第6张图片
梯度下降法_第7张图片
梯度下降法_第8张图片

八,梯度下降方法之:Nesterov
梯度下降法_第9张图片
梯度下降法_第10张图片
梯度下降法_第11张图片

九,梯度下降方法之:Adagrad自适应方法
梯度下降法_第12张图片

十,梯度下降方法之: AdaDelta以及RMSprop
梯度下降法_第13张图片

梯度下降法_第14张图片

梯度下降法_第15张图片

你可能感兴趣的:(数理统计)