线性模型(linear model):对于给定 d d d个属性描述的实例 x = ( x 1 ; x 2 ; ⋯ ; x d ) x=(x_1;x_2;\cdots;x_d) x=(x1;x2;⋯;xd),其中, x i x_i xi是 x x x在第 i i i个属性上的取值,通过属性的线性组合来预测的函数叫线性模型。
非线性模型:在线性模型的基础上引入层级结构或者高维映射
f ( x ) = w T x + b f(x)=w^{\rm T}x+b f(x)=wTx+b
其中, w = ( w 1 ; w 2 ; w 3 ; … ; w d ) w=(w_1;w_2;w_3;\dots;w_d) w=(w1;w2;w3;…;wd)。
w w w表示的是特征向量的权重weight, b b b表示的是偏值bias
给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x m , y m ) } D=\{(x_1, y_1), (x_2, y_2), \cdots, (x_m, y_m)\} D={(x1,y1),(x2,y2),⋯,(xm,ym)},其中 x i = ( x i 1 ; x i 2 ; ⋯ ; x i d ) , y i ∈ R x_i=(x_{i1};x_{i2};\cdots;x_{id}), y_i\in R xi=(xi1;xi2;⋯;xid),yi∈R,试图学习得到一个线性模型以尽可能准确的预计实值输出标记的模型叫线性回归模型(linear regression)
f ( x i ) = w x i + b f(x_i)=wx_i+b f(xi)=wxi+b
确定上式中 w w w, b b b的值,使得 f ( x i ) ≃ y i f(x_i)≃y_i f(xi)≃yi
目标:让均方误差最小化
设 ( w ∗ , b ∗ ) (w^*, b^*) (w∗,b∗)为 ( w , b ) (w,b) (w,b)的解,即:
( w ∗ , b ∗ ) = arg min ( w , b ) ∑ i = 1 m ( f ( x i ) − y i ) 2 = arg min ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2 (w^*, b^*) = \arg \min_{(w, b)}\sum^m_{i=1}(f(x_i)-y_i)^2\\ = \arg\min_{(w, b)}\sum^m_{i=1}(y_i-wx_i-b)^2 (w∗,b∗)=arg(w,b)mini=1∑m(f(xi)−yi)2=arg(w,b)mini=1∑m(yi−wxi−b)2
求解 w w w和 b b b使得函数
E ( w , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 E_{(w, b)} = \sum^m_{i=1}(y_i-wx_i-b)^2 E(w,b)=i=1∑m(yi−wxi−b)2
最小化的过程,称为线性回归模型的最小二乘“参数估计”(parameter estimation).
将上式分别对 w w w, b b b求偏导可得:
∂ E ( w , b ) ∂ w = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ) ∂ E ( w , b ) ∂ b = 2 ( m b − ∑ i = 1 m ( y i − w x i ) ) \frac{\partial E_{(w, b)}}{\partial w} = 2\left(w\sum_{i=1}^mx_i^2 - \sum_{i=1}^m(y_i-b)x_i\right)\\[2ex] \frac{\partial E_{(w, b)}}{\partial b} = 2\left(mb-\sum_{i=1}^m(y_i-wx_i)\right) ∂w∂E(w,b)=2(wi=1∑mxi2−i=1∑m(yi−b)xi)∂b∂E(w,b)=2(mb−i=1∑m(yi−wxi))
分别令偏导数等于零,即:
∂ E ( w , b ) ∂ w = 0 ∂ E ( w , b ) ∂ b = 0 \frac{\partial E_{(w, b)}}{\partial w} =0\\[2ex]\frac{\partial E_{(w, b)}}{\partial b} =0 ∂w∂E(w,b)=0∂b∂E(w,b)=0
即可得到 w w w, b b b的最优解闭式:
w = ∑ i = 1 m y i ( x i − x ‾ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i 2 ) w = \frac{\sum_{i=1}^my_i(x_i-\overline{x})}{\sum_{i=1}^mx_i^2-\frac{1}{m}\left(\sum_{i=1}^mx_i^2\right)} w=∑i=1mxi2−m1(∑i=1mxi2)∑i=1myi(xi−x)
b = 1 m ∑ i = 1 m ( y i − w x i ) b=\frac{1}{m}\sum_{i=1}^m(y_i-wx_i) b=m1i=1∑m(yi−wxi)
其中 x ‾ = 1 m ∑ i = 1 m x i \overline{x}=\frac{1}{m}\sum_{i=1}^mx_i x=m1∑i=1mxi为 x i x_i xi的均值
多元线性回归(multivariate linear regression)与上述单变量线性回归类似,这里不再论述。