老师举的样例提出实际运行regression可能遇到的困难
样例中初始x,y的数据为x_data,y_data,
x,y,Z用于标出损失函数等高线,b,w为初始值为-120,-4,
指定学习率lr=0.0000001,迭代次数iteration=100000
画图中在最终实际参数w,b的位置画上了橘黄色的X,每次迭代画出历史w,b的位置
代码段
(不得不吐槽没有好的程序块插入,行间隔太长了)
import numpy as np
import matplotlib.pyplot as plt
x_data = np.array([338,333,328,207,226,25,179,60,208,606],dtype=np.float)
y_data = np.array([640,633,619,393,428,27,193,66,226,1591],dtype=np.float)
x = np.arange(-200,-100,1)
y = np.arange(-5,5,0.1)
Z = np.zeros((len(x),len(y)))
X,Y = np.meshgrid(x,y)
for i in range(len(x)):
for j in range(len(y)):
b = x[i]
w = y[j]
Z[i][j] = 0
for n in range(len(x_data)):
Z[j][i] = Z[j][i] + (y_data[n] - b - w * x_data[n])**2
Z[j][i] = Z[j][i]/(len(x_data))
w = -4
b = -120
lr = 0.0000001
iteration = 100000
b_history = [b]
w_history = [w]
for i in range(iteration):
b_grad=0.0
w_grad=0.0
for n in range(len(x_data)):
b_grad = b_grad - 2.0*(y_data[n] - b - w * x_data[n]) * 1.0
w_grad = w_grad - 2.0*(y_data[n] - b - w * x_data[n]) * x_data[n]
b = b - lr * b_grad
w = w - lr * w_grad
b_history.append(b)
w_history.append(w)
plt.contourf(x,y,Z,50,alpha=0.5,cmap=plt.get_cmap('jet'))
plt.plot([-188.4],[2.67],'x',ms=12,markeredgewidth=3,color='orange')
plt.plot(b_history,w_history,'o-',ms=3,lw=1.5,color='black')
plt.xlim(-200,-100)
plt.ylim(-5,5)
plt.xlabel('b',fontsize=16)
plt.ylabel('w',fontsize=16)
plt.show()
分析1
按如上代码运行结果,迭代了100000次以后发现还没有到x点,需要修改学习率lr
分析2
我们讲lr×10,得到如下路径,图中震荡了几次,但是靠向了终点些
分析3
将学习率lr再×10,将强烈振荡而无法趋近终点
最后老师放了个大招解决问题,其实是我没有听清楚英语不知道是什么单词,处理如下,此时学习率改成1就行,效果见后图,老师说以后会讲解,记住这个坑