梯度下降法求极小值

本文旨在将自己学习“梯度下降法”过程中的问题进行整理。

  1. 背景
    对于给定多元函数f(x1,x2,x3,…,xn),求其在某点P(x,y)处的极值。

  2. 什么是梯度?
    (1)方向导数的定义
    设二元函数 z = f(x,y) 在点P(x,y)的某一个领域U(P)内有定义,自点P引射线l,设x轴正向到射线l的转角为��,设P’(x+∆x,y+∆y)为l上的另一点,且P’∈U(P),

    PP=ρ=(Δx)2+(Δy)2,Δz=f(x+Δx,y+Δy)f(x,y)
    ,考虑
    Δzρ
    ,当P’沿着l趋于P时,
    limρ>0f(x+Δx,y+Δy)f(x,y)ρ
    如果存在,则称这个极限为函数f(x,y)在点P沿着l方向的方向导数,记为
    fl=limρ>0f(x+Δx,y+Δy)f(x,y)ρ

    (2)梯度的定义
    设二元函数 z = f(x,y) 在平面区域D上具有一阶连续偏导数,则对每一个点P(x,y)都可以定义一个向量:
    (fx,fy)=fx(x,y)i+fy(x,y)j

    这个向量就称为函数f(x,y)在P(x,y)点的梯度,记为gradf(x,y)或∇f(x,y)。其中
    =xi+yj
    ,称为二维向量微分算子或Nabla算子。这个定义可以推广到三元函数。
    (3)梯度的几何意义
    梯度是一个向量,它的方向就是二元函数 z = f(x,y)在点P增长最快的方向,即方向导数取极大值的方向。梯度的模等于方向导数的最大值。
    (4)梯度与二元函数 z = f(x,y)等高线的关系
    二元函数 z = f(x,y)在点P的梯度方向,与点P处的函数等高线f(x,y)=c在这一点的法线方向一致,且从数值较低的等高线f(x,y)=c1,指向数值较高的等高线f(x,y)=c2,c1

你可能感兴趣的:(机器学习)