梯度下降法是一种常用的优化算法,其通过沿着梯度下降的方向迭代寻找局部极小值。如果沿着梯度上升的方向迭代,就可以找到极大值。
在梯度下降法中,我们首先需要选择一个初始点 x 0 x_0 x0作为起始位置,然后计算当前位置的梯度(即函数在该点的导数)。接着,我们根据梯度的反方向来更新当前位置,使得函数值逐渐减小,直到达到局部最小值或收敛。梯度下降法的更新公式为 x n + 1 = x n − λ n ∇ F ( x n ) (1) x_{n+1}=x_n-\lambda_n \nabla F(x_n) \tag{1} xn+1=xn−λn∇F(xn)(1)其中, λ n \lambda_n λn是步长, ∇ F \nabla F ∇F是函数的梯度。
我们需要考虑一个问题,那就是步长 λ n \lambda_n λn应该如何选取。如果步长太短,可能要迭代很多次,如果步长太长,可能会走过,错过极值点。我们可以先选择一个任意长度的步长,然后尝试着走,如果函数值下降了,则进行下一步迭代,如果函数值没有下降,那么就可以将步长取为现有的这一步,再次尝试,直到函数值下降为止,至于初始步长的选取,可以按照Barzilai-Borwein方法来定义
λ n = ∣ ( x n − x n − 1 ) T ( ∇ F ( x n ) − ∇ F ( x n − 1 ) ) ∣ ∣ ∣ ∇ F ( x n ) − ∇ F ( x n − 1 ) ∣ ∣ 2 (2) \lambda_{n}=\frac{\left|\left(x_{n}-x_{n-1}\right)^{\mathrm{T}}\left(\nabla F\left(x_{n}\right)-\nabla F\left(x_{n-1}\right)\right)\right|}{|| \nabla F\left(x_{n}\right)-\nabla F\left(x_{n-1}\right)||^{2}} \tag{2} λn=∣∣∇F(xn)−∇F(xn−1)∣∣2 (xn−xn−1)T(∇F(xn)−∇F(xn−1)) (2)
用梯度下降法求 F ( x , y ) = ( x − 1 ) 2 + ( y − 1 ) 2 F(x,y)=(x-1)^2+(y-1)^2 F(x,y)=(x−1)2+(y−1)2的极小值。
首先求出函数F的梯度 ∇ F ( x , y ) = ( 2 ( x − 1 ) , 2 ( y − 1 ) ) \nabla F(x,y)=(2(x-1),2(y-1)) ∇F(x,y)=(2(x−1),2(y−1)),然后利用上面介绍的算法过程进行实现,以下是python实现代码。
def hanshu(x,y):
return (x-1)*(x-1)+(y-1)*(y-1)
def daoshu(x,y):
return [2*(x-1),2*(y-1)]
def calculate_lamb(x0,y0,d0,x1,y1,d1):
f1=(x1-x0)*(d1[0]-d0[0])+(y1-y0)*(d1[1]-d1[0])
f2=(d1[0]-d0[0])**2+(d1[1]-d0[1])**2
return f1/f2
def grad_descent(x0,y0):
f0=hanshu(x0,y0)
d0=daoshu(x0,y0)
i,lamb=0,0.01
while i<1000:
x1,y1=x0-lamb*d0[0],y0-lamb*d0[1]
f1=hanshu(x1,y1)
while f1>f0:
lamb=lamb*0.5
x1,y1=x0-lamb*d0[0],y0-lamb*d0[1]
f1=hanshu(x1,y1)
if (x1-x0)**2+(y1-y0)**2<0.000001:
break
d1=daoshu(x1,y1)
lamb=calculate_lamb(x0,y0,d0,x1,y1,d1)
x0,y0,f0,d0=x1,y1,f1,d1
i+=1
return x1,y1,i
这里取初始值(10,10),代入算法中求得最优解为(1.000538330078125, 1.000538330078125),这个值就已经很接近理论最小值(1,1)啦!
需要注意的是,梯度下降法可能会陷入局部最小值而无法找到全局最小值,因此在实践中常常会根据需求使用其他优化算法。同时,通过调节迭代次数等超参数,可以对梯度下降法进行优化,以获得更好的结果。