梯度下降法中负梯度方向是最速下降方向的原因

梯度下降法中负梯度方向是最速下降方向的原因

flyfish

1 三角函数中的特殊值 主要是看Cos的值
梯度下降法中负梯度方向是最速下降方向的原因_第1张图片

2 看一个余弦定理
对于任意三角形,任何一边的平方等于其他两边平方的和减去这两边与它们夹角的余弦的两倍积
c2=a2+b22abcosC c 2 = a 2 + b 2 − 2 a b cos ⁡ C

或者是
cosC=a2+b2c22ab. cos ⁡ C = a 2 + b 2 − c 2 2 a b .

余弦定理的使用
OAB △ O A B 中, |BA|2=|OA|2+|OB|22;|OA|;|OB|cosθ | B A → | 2 = | O A → | 2 + | O B → | 2 − 2 ; | O A → | ; | O B → | cos ⁡ θ

|BA|2=(x1x2)2+(y1y2)2 | B A → | 2 = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2

|OA|2=x21+y21 | O A → | 2 = x 1 2 + y 1 2 |OB|2=x22+y22 | O B → | 2 = x 2 2 + y 2 2

(x1x2)2+(y1y2)2=(x21+y21)+(x22+y22)2|OA||OB|cosθ ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 = ( x 1 2 + y 1 2 ) + ( x 2 2 + y 2 2 ) − 2 | O A → | | O B → | cos ⁡ θ

|OA||OB|cosθ=x1x2+y1y2 | O A → | | O B → | cos ⁡ θ = x 1 x 2 + y 1 y 2

也就是向量点积

设两个向量 a=OA=(x1,y1),b=OB=(x2,y2) a = O A → = ( x 1 , y 1 ) , b = O B → = ( x 2 , y 2 ) ,向量夹角为 θ θ ,向量点积的如下:

ab=|a||b|cosθ=x1x2+y1y2 a ⋅ b = | a | ⋅ | b | cos ⁡ θ = x 1 x 2 + y 1 y 2

3 再看泰勒展开

一元的
limΔx0f(x+Δx)f(x)Δx=f(x)f(x+Δx)=f(x)+f(x)Δx+ο(x) lim Δ x → 0 f ( x + Δ x ) − f ( x ) Δ x = f ′ ( x ) ⇒ f ( x + Δ x ) = f ( x ) + f ′ ( x ) Δ x + ο ( x )

二元的 与多元类似

limΔx0 Δy0f(x+Δx,y+Δy)f(x,y)(Δx)2+(Δy)2=limΔx0 Δy0f(x+Δx,y+Δy)f(x,y+Δy)+f(x,y+Δy)f(x,y)(Δx)2+(Δy)2=limΔx0 Δy0f(x)Δx(Δx)2+(Δy)2+f(y)Δy(Δx)2+(Δy)2=f(x)cosα+f(y)cosβ(35) (35) lim Δ x → 0   Δ y → 0 f ( x + Δ x , y + Δ y ) − f ( x , y ) ( Δ x ) 2 + ( Δ y ) 2 = lim Δ x → 0   Δ y → 0 f ( x + Δ x , y + Δ y ) − f ( x , y + Δ y ) + f ( x , y + Δ y ) − f ( x , y ) ( Δ x ) 2 + ( Δ y ) 2 = lim Δ x → 0   Δ y → 0 f ′ ( x ) Δ x ( Δ x ) 2 + ( Δ y ) 2 + f ′ ( y ) Δ y ( Δ x ) 2 + ( Δ y ) 2 = f ′ ( x ) c o s α + f ′ ( y ) c o s β

梯度与单位方向向量的点积就是方向导数

a⃗ b⃗ =|a|×|b|×cos(a⃗ ,b⃗ ) a → ⋅ b → = | a | × | b | × c o s ( a → , b → )

cos(a⃗ ,b⃗ ) c o s ( a → , b → ) 在负梯度方向可得极小值

你可能感兴趣的:(深度学习)