本文为《机器学习实战:基于Scikit-Learn和TensorFlow》的读书笔记。
中文翻译参考
如何得到模型的参数
import numpy as np
import matplotlib.pyplot as plt
X = 2*np.random.rand(100,1)
y = 4+3*X+np.random.randn(100,1)
plt.plot(X,y,"b.")
plt.axis([0,2,0,15])
X_b = np.c_[np.ones((100,1)),X]
theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)
theta_best
array([[4.46927218],
[2.71589368]])
X_new = np.array([[0],[2]])
X_new_b = np.c_[np.ones((2,1)),X_new]
y_pred = X_new_b.dot(theta_best)
y_pred
array([[4.46927218],
[9.90105954]])
plt.plot(X_new,y_pred,"r-")
plt.plot(X,y,"b.")
plt.axis([0,2,0,15])
plt.show()
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(X,y)
lin_reg.intercept_, lin_reg.coef_ # (array([4.15725481]), array([[2.97840411]]))
lin_reg.predict(X_new)
array([[ 4.15725481],
[10.11406304]])
求解过程需要矩阵求逆,矩阵求逆时间复杂度在 O ( n 2.4 ) O(n^{2.4}) O(n2.4) 到 O ( n 3 ) O(n^3) O(n3) 之间,n 为特征数
整体思路:通过的迭代来逐渐调整参数使得损失函数达到最小值
当我们使用梯度下降的时候,应该确保所有的特征有着相近的尺度范围
(例如:使用 Scikit Learn 的 StandardScaler类),否则它将需要很长的时间才能够收敛。
eta = 0.1 # 学习率
n_iter = 1000
m = 100
theta = np.random.randn(2,1)
for iter in range(n_iter):
gradients = 2/m*X_b.T.dot(X_b.dot(theta)-y)
theta = theta - eta*gradients
theta
array([[4.33118102],
[2.8597418 ]])
eta = 0.1 # 学习率
n_iter = 1000
m = 100
theta = np.random.randn(2,1)
plt.figure(figsize=(8,6))
plt.ion()# 打开交互模式
plt.axis([0,2,0,15])
plt.rcParams["font.sans-serif"] = "SimHei"
for iter in range(n_iter):
plt.cla() # 清除原图像
gradients = 2/m*X_b.T.dot(X_b.dot(theta)-y)
theta = theta - eta*gradients
X_new = np.array([[0],[2]])
X_new_b = np.c_[np.ones((2,1)),X_new]
y_pred = X_new_b.dot(theta)
plt.plot(X,y,"b.")
plt.plot(X_new,y_pred,"r-")
plt.title("学习率:{:.2f}".format(eta))
plt.pause(0.1) # 暂停一会
display.clear_output(wait=True)# 刷新图像
plt.ioff()# 关闭交互模式
plt.show()
theta
求解过程动图请参看博文:matplotlib 绘制梯度下降求解过程
每一步梯度计算只随机选取训练集中的一个样本。这使得算法变得非常快。
由于其随机性,它能跳过局部最优解,但同时它却不能达到最小值。
解决办法:逐渐降低学习率
决定每次迭代的学习率的函数称为 learning schedule
from sklearn.linear_model import SGDRegressor
# help(SGDRegressor)
sgd_reg = SGDRegressor(max_iter=100, penalty=None, eta0=0.1)
sgd_reg.fit(X,y.ravel())
sgd_reg.intercept_, sgd_reg.coef_
(array([3.71001759]), array([2.99883799]))
每次迭代的时候,使用一个随机的小型实例集
依然可以使用线性模型来拟合非线性数据
加权
后作为新的特征m = 100
X = 6*np.random.rand(m,1)-3
y = 0.5*X**2 + X + 2 + np.random.randn(m,1)
plt.rcParams["axes.unicode_minus"] = False # 显示负号
plt.plot(X, y, "g.")
from sklearn.preprocessing import PolynomialFeatures
pf = PolynomialFeatures(degree=2, include_bias=False)
# help(PolynomialFeatures)
X_ploy = pf.fit_transform(X)
print(X[0])
print(X_ploy[0])
[2.43507761]
[2.43507761 5.92960298]
lin_reg = LinearRegression()
lin_reg.fit(X_ploy, y)
lin_reg.intercept_, lin_reg.coef_
(array([1.95147614]), array([[1.0462516 , 0.48003845]]))
plt.plot(X, y, "g.")
x = np.linspace(-3.5, 3.5, 500)
print(x.shape)
y_pred = lin_reg.intercept_ + lin_reg.coef_[0][0]*x + lin_reg.coef_[0][1]*x**2
plt.plot(x, y_pred, 'r-')
注意,阶数变大时,特征的维度会急剧上升,不仅有 a n a^n an,还有 a n − 1 b , a n − 2 b 2 a^{n-1}b,a^{n-2}b^2 an−1b,an−2b2等
如何确定选择多少阶:
1、交叉验证
2、观察学习曲线
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
def plot_learning_curves(model, X, y):
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2)
train_errors, val_errors = [], []
for m in range(1, len(X_train)):
model.fit(X_train[:m], y_train[:m])
y_train_predict = model.predict(X_train[:m])
y_val_predict = model.predict(X_val)
train_errors.append(mean_squared_error(y_train_predict, y_train[:m]))
val_errors.append(mean_squared_error(y_val_predict, y_val))
plt.plot(np.sqrt(train_errors), "r-+", linewidth=2, label="train")
plt.plot(np.sqrt(val_errors), "b-", linewidth=3, label="val")
lin_reg = LinearRegression()
plot_learning_curves(lin_reg, X, y)
模型的泛化误差由三个不同误差的和决定:
限制模型的自由度,降低过拟合
from sklearn.linear_model import Ridge
ridge_reg = Ridge(alpha=1, solver="cholesky")
ridge_reg.fit(X, y)
ridge_reg.predict([[1.5]]) # array([[5.04581676]])
from sklearn.linear_model import Lasso
lasso_reg = Lasso(alpha=0.1)
lasso_reg.fit(X, y)
lasso_reg.predict([[1.5]]) # array([5.00189893])
from sklearn.linear_model import ElasticNet
elastic_net = ElasticNet(alpha=0.1, l1_ratio=0.5)
elastic_net.fit(X, y)
elastic_net.predict([[1.5]]) # array([4.99822842])