机器学习(二)线性模型—线性回归
2.1 线性回归
2.1.1 基本形式:
给定样本 x=(x1,x2,...,xd) x = ( x 1 , x 2 , . . . , x d ) ,线性模型通过如下方式计算预测值:
f(x)=w1x1+w2x2+...+wdxd+b=w⋅x+b(1) (1) f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b = w ⋅ x + b
目标函数:
w∗,b∗=argmin(w,b)∑i=1m(f(xi)−yi)2=argmin(w,b)∑i=1m(yi−w⋅xi−b)2(2) w ∗ , b ∗ = a r g m i n ( w,b ) ∑ i = 1 m ( f ( x i ) − y i ) 2 (2) = a r g m i n ( w,b ) ∑ i = 1 m ( y i − w ⋅ x i − b ) 2
改写成矩阵乘法形式:
w∗=argminw((y−Xw)T(y−Xw))(3) (3) w ∗ = a r g m i n w ( ( y − Xw ) T ( y − Xw ) )
求导:
d((y−Xw)T(y−Xw))=d(y−Xw)T(y−Xw)+(y−Xw)Td(y−Xw)=d(Xw)T(y−Xw)−(y−Xw)TdXw=tr(−2(y−Xw)TXdw)(4) d ( ( y − Xw ) T ( y − Xw ) ) = d ( y − Xw ) T ( y − Xw ) + ( y − Xw ) T d ( y − Xw ) = d ( Xw ) T ( y − Xw ) − ( y − Xw ) T d Xw (4) = t r ( − 2 ( y − Xw ) T X d w )
故:
∂loss∂w=2XT(Xw−y)(5) (5) ∂ l o s s ∂ w = 2 X T ( Xw − y )
令
(5) ( 5 ) 等于0可得解析解:
w∗=(XTX)−1XTy(6) (6) w ∗ = ( X T X ) − 1 X T y
值得注意的是
XTX X T X 往往不是满秩矩阵
2.1.2 概率角度:
假设我们的真实值与误差函数存在高斯误差,error服从为均值为0,精度为 β β 的高斯分布即:
y=y(x,w)+error(7) (7) y = y ( x , w ) + e r r o r
p(y|x,w,β)=N(y|y(x,w),β−1)(8) (8) p ( y | x , w , β ) = N ( y | y ( x , w ) , β − 1 )
E(y|x)=∫yp(y|x)dx=y(x,w)(9) (9) E ( y | x ) = ∫ y p ( y | x ) d x = y ( x , w )
似然函数可以写为:
p(y|X,w,β)=∏n=1NN(yn|wxn,β−1)(10) (10) p ( y | X , w , β ) = ∏ n = 1 N N ( y n | w x n , β − 1 )
对数似然为:
lnp(y|X,w,β)=N2lnβ−N2ln(2π)−βED(w)(11) (11) l n p ( y | X , w , β ) = N 2 ln β − N 2 l n ( 2 π ) − β E D ( w )
其中:
ED(w)=12∑n=1N(yn−wxn)2(12) (12) E D ( w ) = 1 2 ∑ n = 1 N ( y n − w x n ) 2
从概率角度看,最小二乘法做了一个最大似然估计
2.1.3 正则化:
在原损失函数中加入正则化项 Ω(w) Ω ( w ) ,可得:
loss=12(y−Xw)T(y−Xw)+Ω(w)(13) (13) l o s s = 1 2 ( y − Xw ) T ( y − Xw ) + Ω ( w )
当
Ω(w)=λ2|w| Ω ( w ) = λ 2 |w| ,称为Lasso回归,无法直接求导可采用坐标下降的方式
当
Ω(w)=λ2wTw Ω ( w ) = λ 2 w T w ,称为Ridge回归,
w∗=(λI+XTX)−1XTy w ∗ = ( λ I + X T X ) − 1 X T y
2.1.4 相关问题总结