y ^ = h Θ ( x ) = Θ ∗ x 其中 Θ 是模型的参数向量,其中包括偏置项 Θ 0 和特征权重 Θ 1 至 Θ n x 是实例的特征向量,包括从 x 0 至 x n , x 0 始终为 0 Θ ∗ x 是向量 Θ 与 x 点积 h Θ 是假设函数,使用模型参数 Θ \widehat{y} = h_{\Theta}(x) = \Theta*x \\其中\Theta是模型的参数向量,其中包括偏置项\Theta_0和特征权重\Theta_1至\Theta_n \\x是实例的特征向量,包括从x_0至x_n,x_0始终为0 \\ \Theta*x是向量\Theta与x点积 \\h_{\Theta}是假设函数,使用模型参数\Theta y =hΘ(x)=Θ∗x其中Θ是模型的参数向量,其中包括偏置项Θ0和特征权重Θ1至Θnx是实例的特征向量,包括从x0至xn,x0始终为0Θ∗x是向量Θ与x点积hΘ是假设函数,使用模型参数Θ
M S E = ( X , h Θ ) = 1 / m ∑ i = 1 m ( Θ T x ( i ) − y ( I ) ) 2 MSE = (X,h_{\Theta}) = 1/m\sum_{i = 1}^{m}(\Theta^Tx^{(i)}-y^{(I)})^2 MSE=(X,hΘ)=1/mi=1∑m(ΘTx(i)−y(I))2
Θ ^ = ( X T X ) − 1 X T y 方程中 Θ ^ 是使成本函数最小的 Θ 值 y 是包括 y ( 1 ) 到 y ( m ) 的目标值向量 \widehat{\Theta}=(X^TX)^{-1}X^Ty \\方程中\widehat{\Theta}是使成本函数最小的\Theta值 \\y是包括y^{(1)}到y^{(m)}的目标值向量 Θ =(XTX)−1XTy方程中Θ 是使成本函数最小的Θ值y是包括y(1)到y(m)的目标值向量
$$
成本函数的偏导数:
\ \frac{ \partial MSE(\theta)}{\partial\theta_j} = 2/m\sum_{i = 1}{m}(\ThetaTx{(i)-y{i}})x_{j}^{(i)}
$$
梯度向量: ∇ Θ M S E ( Θ ) = 2 / m X T ( X Θ − y ) 梯度向量: \nabla_{\Theta}MSE(\Theta) = 2/mX^T(X\Theta-y) 梯度向量:∇ΘMSE(Θ)=2/mXT(XΘ−y)
梯度下降步骤: Θ 下一步 = Θ − η ∇ Θ M S E ( Θ ) ( η 为学习率 ) 梯度下降步骤:\Theta^{下一步} = \Theta-\eta\nabla_{\Theta}MSE(\Theta)\ \ \ \ \ (\eta为学习率) 梯度下降步骤:Θ下一步=Θ−η∇ΘMSE(Θ) (η为学习率)
eta = 0.1
n_iteration = 1000#迭代次数
m = 100
theta = np.random.randn(2,1)
for n in range(n_iteration):
gradienters = 2/m*x_b.T.dot(x_b.dot(theta)-y)#偏导计算
theta = theta-eta*gradienters #更改theta
'''随机梯度下降'''
n_epochs = 50#向前或向后迭代次数
t0,t1 = 5,50 #学习步长超参数
def learning_schedule(t):#计算步长
return t0/(t+t1)#步长逐渐减小
theta = np.random.randn(2,1)
for n in range(n_epochs):
for i in range(m):
random_index = np.random.randint(m)
xi = x_b[random_index:random_index+1]
yi = y[random_index:random_index+1]
gradienters = 2*xi.T.dot(xi.dot(theta)-yi)
eta = learning_schedule(n*m+i)
theta = theta-eta*gradienters
sgd_reg = SGDRegressor(max_iter=1000,tol = 1e-3,penalty=None,eta0=0.1)
sgd_reg.fit(x,y.ravel())
print(sgd_reg.intercept_,sgd_reg.coef_)
'''小批量梯度下降'''
theta_path_mgd = []
n_iterations = 50
minibatch_size = 20
np.random.seed(42)
theta = np.random.randn(2,1) # random initialization
t0, t1 = 200, 1000
def learning_schedule(t):
return t0 / (t + t1)
t = 0
for epoch in range(n_iterations):
shuffled_indices = np.random.permutation(m)
x_b_shuffled = x_b[shuffled_indices]
y_shuffled = y[shuffled_indices]
for i in range(0, m, minibatch_size):
t += 1
xi = x_b_shuffled[i:i+minibatch_size]
yi = y_shuffled[i:i+minibatch_size]
gradients = 2/minibatch_size * xi.T.dot(xi.dot(theta) - yi)
eta = learning_schedule(t)
theta = theta - eta * gradients
theta_path_mgd.append(theta)
'''多项式回归'''
m = 100
x = 6*np.random.rand(m,1)-3
y = 0.5*x**2+x+2+np.random.randn(m,1)
poly_features = PolynomialFeatures(degree=2,include_bias=False)#聚类特征
x_poly = poly_features.fit_transform(x)
lin_reg = LinearRegression()
lin_reg.fit(x_poly,y)
#画图
X_new=np.linspace(-3, 3, 100).reshape(100, 1)
X_new_poly = poly_features.transform(X_new)
y_new = lin_reg.predict(X_new_poly)
plt.plot(x, y, "b.")
plt.plot(X_new, y_new, "r-", linewidth=2, label="Predictions")
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.legend(loc="upper left", fontsize=14)
plt.axis([-3, 3, 0, 10])
plt.show()
PolynomialFeatures还可以将特征的所有组合添加到给定的多项式阶数
成本函数
J ( Θ ) = M S E ( Θ ) + α 1 2 ∑ i = 1 n Θ i 2 超参数 α 控制要对模型进行正规化的程度。如果 α = 0 ,则岭回归仅是线性回归。 如果 α 非常大,则所有权重最终都非常接近于零,结果是一条经过数据均值的平线 J(\Theta) = MSE(\Theta)+\alpha\frac{1}{2}\sum_{i=1}^{n}\Theta_i^2 \\超参数\alpha控制要对模型进行正规化的程度。如果\alpha=0,则岭回归仅是线性回归。 \\如果\alpha非常大,则所有权重最终都非常接近于零,结果是一条经过数据均值的平线 J(Θ)=MSE(Θ)+α21i=1∑nΘi2超参数α控制要对模型进行正规化的程度。如果α=0,则岭回归仅是线性回归。如果α非常大,则所有权重最终都非常接近于零,结果是一条经过数据均值的平线
闭式解的岭回归:
Θ ^ = ( X T X + α A ) − 1 X T y \widehat{\Theta} = (X^TX+\alpha A)^{-1}X^Ty Θ =(XTX+αA)−1XTy
from sklearn.linear_model import Ridge
np.random.seed(42)
m = 20
X = 3 * np.random.rand(m, 1)
y = 1 + 0.5 * X + np.random.randn(m, 1) / 1.5
X_new = np.linspace(0, 3, 100).reshape(100, 1)
ridge_reg = Ridge(alpha=1, solver="cholesky", random_state=42)
ridge_reg.fit(X, y)
ridge_reg.predict([[1.5]])
ridge_reg = Ridge(alpha=1, solver="sag", random_state=42)
ridge_reg.fit(X, y)
ridge_reg.predict([[1.5]])
最小绝对收敛和选择算子回归(Least Absolute Shrinkage and Selection Operator Regression)
成本函数:
J ( Θ ) = M S E ( Θ ) + α ∑ i = 1 n ∣ Θ i ∣ J(\Theta) = MSE(\Theta)+\alpha\sum_{i=1}^{n}|\Theta_i| J(Θ)=MSE(Θ)+αi=1∑n∣Θi∣
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jufNfNa1-1658889211621)()]
Lasso回归子梯度向量:
$$
g(\Theta,J) = \nabla_{\Theta}MSE(\Theta)+\alpha\left|
\begin{matrix}
sin(\Theta_1)\
sin(\Theta_2)\
\vdots\
sin(\Theta_n)
\end{matrix}
\right|\ \ \ 其中sign(\Theta_i) =
\begin{cases}
-1\ 如果\Theta_i<0\
0\ 如果\Theta_i = 0\
+1\ 如果\Theta_i>0
\end{cases}
$$
from sklearn.linear_model import Lasso
lasso_reg = Lasso(alpha=0.1)
lasso_reg.fit(X, y)
lasso_reg.predict([[1.5]])
from sklearn.linear_model import ElasticNet
elastic_net = ElasticNet(alpha=0.1, l1_ratio=0.5, random_state=42)
elastic_net.fit(X, y)
elastic_net.predict([[1.5]])
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GFuvg0wm-1658889211622)()]
np.random.seed(42)
m = 100
x = 6 * np.random.rand(m, 1) - 3
y = 2 + x + 0.5 * x**2 + np.random.randn(m, 1)
x_train, x_val, y_train, y_val = train_test_split(x[:50], y[:50].ravel(), test_size=0.5, random_state=10)
poly_scaler = Pipeline([('poly_features',PolynomialFeatures(degree=90,include_bias=False)),('std_scaler',StandardScaler())])
x_train_poly_scaled = poly_scaler.fit_transform(x_train)
x_val_poly_scaled = poly_scaler.transform(x_val)
sgd_reg = SGDRegressor(max_iter=1,tol=-np.infty,warm_start=True,penalty=None,learning_rate='constant',eta0=0.0005)
minimum_val_error = float('inf')
best_epoch = None
best_model = None
for epoch in range(1000):
sgd_reg.fit(x_train_poly_scaled,y_train)
y_val_predict = sgd_reg.predict(x_val_poly_scaled)
val_error = mean_squared_error(y_val, y_val_predict)
if val_error < minimum_val_error:
minimum_val_error = val_error
best_epoch = epoch
best_model = deepcopy(sgd_reg)
#画图
sgd_reg = SGDRegressor(max_iter=1, tol=-np.infty, warm_start=True,
penalty=None, learning_rate="constant", eta0=0.0005, random_state=42)
n_epochs = 500
train_errors, val_errors = [], []
for epoch in range(n_epochs):
sgd_reg.fit(x_train_poly_scaled, y_train)
y_train_predict = sgd_reg.predict(x_train_poly_scaled)
y_val_predict = sgd_reg.predict(x_val_poly_scaled)
train_errors.append(mean_squared_error(y_train, y_train_predict))
val_errors.append(mean_squared_error(y_val, y_val_predict))
best_epoch = np.argmin(val_errors)
best_val_rmse = np.sqrt(val_errors[best_epoch])
plt.annotate('Best model',
xy=(best_epoch, best_val_rmse),
xytext=(best_epoch, best_val_rmse + 1),
ha="center",
arrowprops=dict(facecolor='black', shrink=0.05),
fontsize=16,
)
best_val_rmse -= 0.03 # just to make the graph look better
plt.plot([0, n_epochs], [best_val_rmse, best_val_rmse], "k:", linewidth=2)
plt.plot(np.sqrt(val_errors), "b-", linewidth=3, label="Validation set")
plt.plot(np.sqrt(train_errors), "r--", linewidth=2, label="Training set")
plt.legend(loc="upper right", fontsize=14)
plt.xlabel("Epoch", fontsize=14)
plt.ylabel("RMSE", fontsize=14)
plt.show()
问题1、2与4的答案
提前终止的目的是为了防止过拟合,如果我们只要返回使验证误差最低的参数,就可以获得验证集误差更低的模型。
图1.学习曲线(横轴为训练轮次,纵轴为负的对数似然)
对图1的注释:
蓝色曲线表示训练集上的loss随着训练轮次的变化而变化的情况。
红色曲线表示测试集上的loss随着训练轮次的变化而变化的情况。
注释:红色曲线是每训练完一个epoch后就测试一次所得到的曲线。
从图中可以看出,测试误差在前几个epoch中逐渐减小,但是训练到某个epoch后,测试误差又有了小幅度的增大。这说明此时发生了过拟合。
发生过拟合是我们所不愿意看见的,我们可以利用提前终止(early stopping)
来防止过拟合的发生。
提前终止是指:在测试误差开始上升之前,就停止训练,即使此时训练尚未收敛(即训练误差未达到最小值)。
首先我们要保存好现在的模型(网络结构和权值),训练num_batch次(即一个epoch),得到新的模型。将测试集作为新模型的输入,进行测试。如果我们发现测试误差比上次得到的测试误差大,我们并不会马上终止测试,而是再继续进行几个epoch的训练与测试,如果测试误差依旧没有减小,那么我们就认为该试验在上一次达到最低测试误差时停下来。具体算法可参见《deep learning》
问题3的答案
该问题是为了回答为什么提前停止可以起到正则化的作用。
首先,我们对损失函数在ω∗ω∗的邻域内用Taylor展开式展开(只展开至二次),则有
J′(ω)=J(ω∗)+1/2(ω−ω∗)TH(ω−ω∗)J′(ω)=J(ω∗)+1/2(ω−ω∗)TH(ω−ω∗)
其中H是Hessian矩阵。这里之所以没有一阶导数的信息,是因为 ω∗ω∗是最优解,在 ω∗ω∗的邻域中,可以近似地认为梯度为0。
对 J′(ω)J′(ω)求梯度,得到
∇ωJ′(ω)=H(ω−ω∗)∇ωJ′(ω)=H(ω−ω∗)
我们将参数向量 ω(0)ω(0)初始化为原点0。由梯度下降法,可以得到如下公式:
ω(τ)=ω(τ–1)−α∇ωĴ (ω(τ−1))ω(τ)=ω(τ–1)−α∇ωĴ(ω(τ−1))
ω(τ)=ω(τ−1)−αH(ω(τ−1)−ω∗)ω(τ)=ω(τ−1)−αH(ω(τ−1)−ω∗)
ω(τ)−ω∗=(I−αH)(ω(τ−1)−ω∗)ω(τ)−ω∗=(I−αH)(ω(τ−1)−ω∗)
将H进行特征值分解: H=QTπQH=QTπQ,其中Q是标准正交矩阵,π是对角矩阵。
那么
ω(τ)−ω∗=QT(I−απ)Q(ω(τ−1)−ω∗)ω(τ)−ω∗=QT(I−απ)Q(ω(τ−1)−ω∗)
Q(ω((τ))−ω∗)=(I−απ)Q(ω((τ−1))−ω∗)Q(ω((τ))−ω∗)=(I−απ)Q(ω((τ−1))−ω∗)
其中 αα足够小以保证|1−απi|<1|1−απi|<1。
Qω(τ)=(I−(I−απ)τ)Qω∗Qω(τ)=(I−(I−απ)τ)Qω∗
在分析L2正则项的时候,Qω̃ =(I−(π+εI)−1ε)Qω∗Qω̃=(I−(π+εI)−1ε)Qω∗
由上面两个式子比较可知,如果下式成立:
(π+εI)−1ε=(I−απ)τ(π+εI)−1ε=(I−απ)τ
则L2正则化和提前终止可以认为是等价的。进一步,有
ε/(πi+ε)=(1−απi)τε/(πi+ε)=(1−απi)τ
两侧取对数,可知:
log(ε/(πi+ε))=τlog(1−απi)log(ε/(πi+ε))=τlog(1−απi)
作一个简单的近似:
−log(1+πi/ε)=τlog(1−απi)−log(1+πi/ε)=τlog(1−απi)
−πi/ε=−ατπi−πi/ε=−ατπi
(比较Taylor展开式的第一个非常数项,Taylor展开式是唯一的)
从而
τ=1/αετ=1/αε
以上的推导说明了提前终止可以起到正则化的作用。
逻辑回归模型的估计概率
p ^ = h Θ ( x ) = σ ( x T Θ ) 逻辑记为 σ ( . ) , 是一个 s i g m o i d 函数(即 S 型函数),输出一个介于 0 和 1 之间的数字 \widehat{p} = h_{\Theta}(x) = \sigma(x^T\Theta)\\ 逻辑记为\sigma(.),是一个sigmoid函数(即S型函数),输出一个介于0和1之间的数字 p =hΘ(x)=σ(xTΘ)逻辑记为σ(.),是一个sigmoid函数(即S型函数),输出一个介于0和1之间的数字
逻辑函数
σ ( t ) = 1 1 + e x p ( − t ) \sigma(t) = \frac{1}{1+exp(-t)} σ(t)=1+exp(−t)1
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AhRbsEOJ-1658889211623)()]
逻辑回归模型预测
y ^ = { 0 , 如果 p ^ < 0.5 1 , 如果 p ^ > = 0.5 注意,当 t < 0 时, σ ( t ) < 0.5 ; t > 0 时, σ ( t ) > = 0.5. 如果 x T Θ 是正类,逻辑回归模型预测结果是 1 如果是负类,则预测为 0 \widehat{y} = \begin{cases} 0,如果\widehat{p}<0.5\\ 1,如果\widehat{p}>=0.5 \end{cases}\\ 注意,当t<0时,\sigma(t)<0.5;t>0时,\sigma(t)>=0.5.\\如果x^T\Theta是正类,逻辑回归模型预测结果是1\\如果是负类,则预测为0 y ={0,如果p <0.51,如果p >=0.5注意,当t<0时,σ(t)<0.5;t>0时,σ(t)>=0.5.如果xTΘ是正类,逻辑回归模型预测结果是1如果是负类,则预测为0
单个训练实例的成本函数
c ( Θ ) = { − l o g ( p ^ ) , 如果 y = 1 − l o g ( 1 − p ^ ) , 如果 y = 0 c(\Theta) = \begin{cases} -log(\widehat{p}),\ \ \ \ \ \ 如果y = 1\\ -log(1-\widehat{p}),如果y = 0 \end{cases} c(Θ)={−log(p ), 如果y=1−log(1−p ),如果y=0
逻辑回归成本函数(对数损失)
J ( Θ ) = − 1 m ∑ i = 1 m [ l o g ( p ^ ( i ) + ( 1 − y i ) l o g ( 1 − p ^ ( i ) ) ) ] J(\Theta) = -\frac{1}{m}\sum_{i=1}^{m}[log(\widehat{p}^{(i)}+(1-y^{i})log(1-\widehat{p}^{(i)}))] J(Θ)=−m1i=1∑m[log(p (i)+(1−yi)log(1−p (i)))]
逻辑成本函数偏导数
∂ ∂ Θ j J ( Θ ) = 1 m ∑ i = 1 m ( σ ( Θ T x ( i ) ) − y ( i ) ) x j ( i ) \frac{\partial}{\partial\Theta_j}J(\Theta) = \frac{1}{m}\sum_{i=1}^{m}(\sigma(\Theta^Tx^{(i)})-y^{(i)})x_j^{(i)} ∂Θj∂J(Θ)=m1i=1∑m(σ(ΘTx(i))−y(i))xj(i)
'''决策边界'''
iris = datasets.load_iris()
x = iris['data'][:,3:]
y = (iris['target']==2).astype(np.int_)
log_reg = LogisticRegression()
log_reg.fit(x,y)
#画图展示模型估算出的概率
x_new = np.linspace(0,3,1000).reshape(-1,1)
y_proba = log_reg.predict_proba(x_new)
plt.plot(x_new,y_proba[:,1],'g-',label = 'Iris virginica')
plt.plot(x_new,y_proba[:,0],'b--',label = 'Not Iris virginica')
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CfEOzzhj-1658889211624)()]
类k的Softmax分数
s k ( x ) = x T Θ ( k ) s_k(x) = x^T\Theta^{(k)} sk(x)=xTΘ(k)
Softmax函数
p ^ k = σ ( s ( x ) ) k = e x p ( s k ( x ) ) ∑ j = 1 k e x p ( s j ( x ) ) 此等式中 K 是类数 s ( x ) 是一个向量,其中包括实例 x 的每个类的分数 σ ( s ( x ) ) k 是实例 x 属于类 k 的估计概率,给定该实例每个类的分数 \widehat{p}_k = \sigma(s(x))_k = \frac{exp(s_k(x))}{\sum_{j=1}^{k}exp(s_j(x))}\\ 此等式中\\K是类数\\s(x)是一个向量,其中包括实例x的每个类的分数\\\sigma(s(x))_k是实例x属于类k的 估计概率,给定该实例每个类的分数 p k=σ(s(x))k=∑j=1kexp(sj(x))exp(sk(x))此等式中K是类数s(x)是一个向量,其中包括实例x的每个类的分数σ(s(x))k是实例x属于类k的估计概率,给定该实例每个类的分数
Softmax回归分类预测
y ^ = a r g m a x σ ( s ( x ) ) k = a r g m a x s k ( x ) = a r g m a x ( ( Θ k ) T x ) \widehat{y} = argmax\sigma(s(x))_k = argmaxs_k(x) = argmax((\Theta^{k})^Tx) y =argmaxσ(s(x))k=argmaxsk(x)=argmax((Θk)Tx)
交叉熵成本函数
J ( Θ ) = − 1 m ∑ i = 1 m ∑ k = 1 k y k ( i ) l o g ( p ^ l ( i ) ) 在此等式中 y k ( i ) 是属于类 k 的第 i 个实例的目标概率。一般而言等于 1 或 0 ,具体取决于实例是否属于该 J(\Theta) = -\frac{1}{m}\sum_{i=1}^{m}\sum_{k=1}^{k}y_k^{(i)}log(\widehat{p}_l^{(i)}) \\在此等式中y_k^{(i)}是属于类k的第i个实例的目标概率。一般而言等于1或0,具体取决于实例是否属于该 J(Θ)=−m1i=1∑mk=1∑kyk(i)log(p l(i))在此等式中yk(i)是属于类k的第i个实例的目标概率。一般而言等于1或0,具体取决于实例是否属于该
交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。语言模型的性能通常用交叉熵和复杂度(perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。
将交叉熵引入计算语言学消岐领域,采用语句的真实语义作为交叉熵的训练集的先验信息,将机器翻译的语义作为测试集后验信息。计算两者的交叉熵,并以交叉熵指导对歧义的辨识和消除。实例表明,该方法简洁有效.易于计算机自适应实现。交叉熵不失为计算语言学消岐的一种较为有效的工具。
在信息论中,交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,在相同的一组事件中,其中,用非真实分布q来表示某个事件发生所需要的平均比特数。从这个定义中,我们很难理解交叉熵的定义。下面举个例子来描述一下:
假设现在有一个样本集中两个概率分布p,q,其中p为真实分布,q为非真实分布。假如,按照真实分布p来衡量识别一个样本所需要的编码长度的期望为:
H§=
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DYioVdqB-1658889211625)(https://bkimg.cdn.bcebos.com/formula/d8600ed8a168b3ccde14700c4edba145.svg)]
但是,如果采用错误的分布q来表示来自真实分布p的平均编码长度,则应该是:
H(p,q)=
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lk1m7IsR-1658889211626)(https://bkimg.cdn.bcebos.com/formula/4f4bd894f88b051dbcb362809a886c10.svg)]
此时就将H(p,q)称之为交叉熵。交叉熵的计算方式如下:
对于离散变量采用以下的方式计算:H(p,q)=
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CyFkN1Yr-1658889211626)(https://bkimg.cdn.bcebos.com/formula/39dffa5dea6b891ae6a322110c04ea1a.svg)]
对于连续变量采用以下的方式计算:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-l9Gu7e8Y-1658889211626)(https://bkimg.cdn.bcebos.com/formula/86749cf53f17a226a4e45c56664cae10.svg)]
类k的交叉熵梯度向量
∇ Θ ( k ) J ( Θ ) = 1 m ∑ i = 1 m ( p ^ k ( i ) − y k ( i ) ) x ( i ) \nabla_{\Theta(k)}J(\Theta) = \frac{1}{m}\sum_{i=1}^{m}(\widehat{p}_k^{(i)}-y_k^{(i)})x^{(i)} ∇Θ(k)J(Θ)=m1i=1∑m(p k(i)−yk(i))x(i)
'''Softmax回归'''
iris = datasets.load_iris()
X= iris["data"][:, (2, 3)] # petal length, petal width
y = iris["target"]
softmax_reg = LogisticRegression(multi_class="multinomial",solver="lbfgs", C=10, random_state=42)
softmax_reg.fit(X, y)
x0, x1 = np.meshgrid(
np.linspace(0, 8, 500).reshape(-1, 1),
np.linspace(0, 3.5, 200).reshape(-1, 1),
)
X_new = np.c_[x0.ravel(), x1.ravel()]
y_proba = softmax_reg.predict_proba(X_new)
y_predict = softmax_reg.predict(X_new)
zz1 = y_proba[:, 1].reshape(x0.shape)
zz = y_predict.reshape(x0.shape)
#画图
plt.figure(figsize=(10, 4))
plt.plot(X[y==2, 0], X[y==2, 1], "g^", label="Iris virginica")
plt.plot(X[y==1, 0], X[y==1, 1], "bs", label="Iris versicolor")
plt.plot(X[y==0, 0], X[y==0, 1], "yo", label="Iris setosa")
from matplotlib.colors import ListedColormap
custom_cmap = ListedColormap(['#fafab0','#9898ff','#a0faa0'])
plt.contourf(x0, x1, zz, cmap=custom_cmap)
contour = plt.contour(x0, x1, zz1, cmap=plt.cm.brg)
plt.clabel(contour, inline=1, fontsize=12)
plt.xlabel("Petal length", fontsize=14)
plt.ylabel("Petal width", fontsize=14)
plt.legend(loc="center left", fontsize=14)
plt.axis([0, 7, 0, 3.5])
plt.show()
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression,SGDRegressor,LogisticRegression
from sklearn.preprocessing import PolynomialFeatures,StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge
from sklearn.base import clone
from sklearn.pipeline import Pipeline
from copy import deepcopy
from sklearn import datasets
x = 2*np.random.rand(100,1)
y = 4+3*x+np.random.randn(100,1)
x_b = np.c_[np.ones((100,1)),x]
theta_best = np.linalg.inv(x_b.T.dot(x_b)).dot(x_b.T).dot(y)
x_new = np.array([[0],[2]])
x_new_b = np.c_[np.ones((2,1)),x_new]
y_predict = x_new_b.dot(theta_best)
#使用sklearn
lin_reg = LinearRegression()
lin_reg.fit(x,y)
'''批量梯度下降'''
eta = 0.1
n_iteration = 1000#迭代次数
m = 100
theta = np.random.randn(2,1)
for n in range(n_iteration):
gradienters = 2/m*x_b.T.dot(x_b.dot(theta)-y)#偏导计算
theta = theta-eta*gradienters #更改theta
'''随机梯度下降'''
n_epochs = 50#向前或向后迭代次数
t0,t1 = 5,50 #学习步长超参数
def learning_schedule(t):#计算步长
return t0/(t+t1)#步长逐渐减小
theta = np.random.randn(2,1)
for n in range(n_epochs):
for i in range(m):
random_index = np.random.randint(m)
xi = x_b[random_index:random_index+1]
yi = y[random_index:random_index+1]
gradienters = 2*xi.T.dot(xi.dot(theta)-yi)
eta = learning_schedule(n*m+i)
theta = theta-eta*gradienters
sgd_reg = SGDRegressor(max_iter=1000,tol = 1e-3,penalty=None,eta0=0.1)
sgd_reg.fit(x,y.ravel())
print(sgd_reg.intercept_,sgd_reg.coef_)
'''小批量梯度下降'''
theta_path_mgd = []
n_iterations = 50
minibatch_size = 20
np.random.seed(42)
theta = np.random.randn(2,1) # random initialization
t0, t1 = 200, 1000
def learning_schedule(t):
return t0 / (t + t1)
t = 0
for epoch in range(n_iterations):
shuffled_indices = np.random.permutation(m)
x_b_shuffled = x_b[shuffled_indices]
y_shuffled = y[shuffled_indices]
for i in range(0, m, minibatch_size):
t += 1
xi = x_b_shuffled[i:i+minibatch_size]
yi = y_shuffled[i:i+minibatch_size]
gradients = 2/minibatch_size * xi.T.dot(xi.dot(theta) - yi)
eta = learning_schedule(t)
theta = theta - eta * gradients
theta_path_mgd.append(theta)
'''多项式回归'''
m = 100
x = 6*np.random.rand(m,1)-3
y = 0.5*x**2+x+2+np.random.randn(m,1)
poly_features = PolynomialFeatures(degree=2,include_bias=False)#聚类特征
x_poly = poly_features.fit_transform(x)
lin_reg = LinearRegression()
lin_reg.fit(x_poly,y)
画图
X_new=np.linspace(-3, 3, 100).reshape(100, 1)
X_new_poly = poly_features.transform(X_new)
y_new = lin_reg.predict(X_new_poly)
plt.plot(x, y, "b.")
plt.plot(X_new, y_new, "r-", linewidth=2, label="Predictions")
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.legend(loc="upper left", fontsize=14)
plt.axis([-3, 3, 0, 10])
plt.show()
'''学习曲线'''
def plot_learning_curves(model,x,y):
x_train,x_val,y_train,y_val = train_test_split(x,y,test_size=0.2)
train_erros,val_erros = [],[]
for m in range(1,len(x_train)):
model.fit(x_train[:m],y_train[:m])
y_train_pred = model.predict(x_train[:m])
y_val_pred = model.predict(x_val)
train_erros.append(mean_squared_error(y_train[:m],y_train_pred))
val_erros.append(mean_squared_error(y_val,y_val_pred))
plt.plot(np.sqrt(train_erros),'r-+',linewidth = 2,label = 'train')
plt.plot(np.sqrt(val_erros),'b--',linewidth = 3,label = 'val')
plt.show()
lin_reg = LinearRegression()
plot_learning_curves(lin_reg,x,y)
'''岭回归'''
np.random.seed(42)
m = 20
X = 3 * np.random.rand(m, 1)
y = 1 + 0.5 * X + np.random.randn(m, 1) / 1.5
X_new = np.linspace(0, 3, 100).reshape(100, 1)
ridge_reg = Ridge(alpha=1, solver="cholesky", random_state=42)
ridge_reg.fit(X, y)
ridge_reg.predict([[1.5]])
ridge_reg = Ridge(alpha=1, solver="sag", random_state=42)
ridge_reg.fit(X, y)
ridge_reg.predict([[1.5]])
'''lasso'''
from sklearn.linear_model import Lasso
lasso_reg = Lasso(alpha=0.1)
lasso_reg.fit(X, y)
lasso_reg.predict([[1.5]])
'''提前停止'''
np.random.seed(42)
m = 100
x = 6 * np.random.rand(m, 1) - 3
y = 2 + x + 0.5 * x**2 + np.random.randn(m, 1)
x_train, x_val, y_train, y_val = train_test_split(x[:50], y[:50].ravel(), test_size=0.5, random_state=10)
poly_scaler = Pipeline([('poly_features',PolynomialFeatures(degree=90,include_bias=False)),('std_scaler',StandardScaler())])
x_train_poly_scaled = poly_scaler.fit_transform(x_train)
x_val_poly_scaled = poly_scaler.transform(x_val)
sgd_reg = SGDRegressor(max_iter=1,tol=-np.infty,warm_start=True,penalty=None,learning_rate='constant',eta0=0.0005)
minimum_val_error = float('inf')
best_epoch = None
best_model = None
for epoch in range(1000):
sgd_reg.fit(x_train_poly_scaled,y_train)
y_val_predict = sgd_reg.predict(x_val_poly_scaled)
val_error = mean_squared_error(y_val, y_val_predict)
if val_error < minimum_val_error:
minimum_val_error = val_error
best_epoch = epoch
best_model = deepcopy(sgd_reg)
#画图
sgd_reg = SGDRegressor(max_iter=1, tol=-np.infty, warm_start=True,
penalty=None, learning_rate="constant", eta0=0.0005, random_state=42)
n_epochs = 500
train_errors, val_errors = [], []
for epoch in range(n_epochs):
sgd_reg.fit(x_train_poly_scaled, y_train)
y_train_predict = sgd_reg.predict(x_train_poly_scaled)
y_val_predict = sgd_reg.predict(x_val_poly_scaled)
train_errors.append(mean_squared_error(y_train, y_train_predict))
val_errors.append(mean_squared_error(y_val, y_val_predict))
best_epoch = np.argmin(val_errors)
best_val_rmse = np.sqrt(val_errors[best_epoch])
plt.annotate('Best model',
xy=(best_epoch, best_val_rmse),
xytext=(best_epoch, best_val_rmse + 1),
ha="center",
arrowprops=dict(facecolor='black', shrink=0.05),
fontsize=16,
)
best_val_rmse -= 0.03 # just to make the graph look better
plt.plot([0, n_epochs], [best_val_rmse, best_val_rmse], "k:", linewidth=2)
plt.plot(np.sqrt(val_errors), "b-", linewidth=3, label="Validation set")
plt.plot(np.sqrt(train_errors), "r--", linewidth=2, label="Training set")
plt.legend(loc="upper right", fontsize=14)
plt.xlabel("Epoch", fontsize=14)
plt.ylabel("RMSE", fontsize=14)
plt.show()
'''决策边界'''
iris = datasets.load_iris()
x = iris['data'][:,3:]
y = (iris['target']==2).astype(np.int_)
log_reg = LogisticRegression()
log_reg.fit(x,y)
#画图展示模型估算出的概率
x_new = np.linspace(0,3,1000).reshape(-1,1)
y_proba = log_reg.predict_proba(x_new)
plt.plot(x_new,y_proba[:,1],'g-',label = 'Iris virginica')
plt.plot(x_new,y_proba[:,0],'b--',label = 'Not Iris virginica')
plt.show()
'''Softmax回归'''
iris = datasets.load_iris()
X= iris["data"][:, (2, 3)] # petal length, petal width
y = iris["target"]
softmax_reg = LogisticRegression(multi_class="multinomial",solver="lbfgs", C=10, random_state=42)
softmax_reg.fit(X, y)
x0, x1 = np.meshgrid(
np.linspace(0, 8, 500).reshape(-1, 1),
np.linspace(0, 3.5, 200).reshape(-1, 1),
)
X_new = np.c_[x0.ravel(), x1.ravel()]
y_proba = softmax_reg.predict_proba(X_new)
y_predict = softmax_reg.predict(X_new)
zz1 = y_proba[:, 1].reshape(x0.shape)
zz = y_predict.reshape(x0.shape)
plt.figure(figsize=(10, 4))
plt.plot(X[y==2, 0], X[y==2, 1], "g^", label="Iris virginica")
plt.plot(X[y==1, 0], X[y==1, 1], "bs", label="Iris versicolor")
plt.plot(X[y==0, 0], X[y==0, 1], "yo", label="Iris setosa")
from matplotlib.colors import ListedColormap
custom_cmap = ListedColormap(['#fafab0','#9898ff','#a0faa0'])
plt.contourf(x0, x1, zz, cmap=custom_cmap)
contour = plt.contour(x0, x1, zz1, cmap=plt.cm.brg)
plt.clabel(contour, inline=1, fontsize=12)
plt.xlabel("Petal length", fontsize=14)
plt.ylabel("Petal width", fontsize=14)
plt.legend(loc="center left", fontsize=14)
plt.axis([0, 7, 0, 3.5])
plt.show()
]
y_proba = softmax_reg.predict_proba(X_new)
y_predict = softmax_reg.predict(X_new)
zz1 = y_proba[:, 1].reshape(x0.shape)
zz = y_predict.reshape(x0.shape)
plt.figure(figsize=(10, 4))
plt.plot(X[y2, 0], X[y2, 1], “g^”, label=“Iris virginica”)
plt.plot(X[y1, 0], X[y1, 1], “bs”, label=“Iris versicolor”)
plt.plot(X[y0, 0], X[y0, 1], “yo”, label=“Iris setosa”)
from matplotlib.colors import ListedColormap
custom_cmap = ListedColormap([‘#fafab0’,‘#9898ff’,‘#a0faa0’])
plt.contourf(x0, x1, zz, cmap=custom_cmap)
contour = plt.contour(x0, x1, zz1, cmap=plt.cm.brg)
plt.clabel(contour, inline=1, fontsize=12)
plt.xlabel(“Petal length”, fontsize=14)
plt.ylabel(“Petal width”, fontsize=14)
plt.legend(loc=“center left”, fontsize=14)
plt.axis([0, 7, 0, 3.5])
plt.show()