如果因变量 Y Y Y与自变量 X 1 , X 2 , ⋯ , X p X_1, X_2, \cdots, X_p X1,X2,⋯,Xp之间满足如下关系:
Y = β 0 + β 1 X 1 + ⋯ + β p X p + ϵ Y = \beta_0 + \beta_1X_1 + \cdots + \beta_pX_p + \epsilon Y=β0+β1X1+⋯+βpXp+ϵ
其中 β 0 , β 1 , ⋯ , β p \beta_0, \beta_1, \cdots, \beta_p β0,β1,⋯,βp为未知的常值参数, ϵ \epsilon ϵ为随机误差项,满足 E ( ϵ ) = 0 , V a r ( ϵ ) = σ 2 > 0 E(\epsilon) = 0, Var(\epsilon) = \sigma^2 > 0 E(ϵ)=0,Var(ϵ)=σ2>0,则称此模型为线性回归模型。
多元线性回归有几个重要假设:误差项 ϵ \epsilon ϵ独立同分布,变量之间线性无关。用数学式子表示如下:
注意在实际应用中,变量之间常常会存在多重共线性,违背模型假设,影响模型结果。解决方法有很多,比如PCA降维等,最简单的莫过于画个相关分析热力图,然后保留相关性强的多个变量中的一个,其他删去即可。
记符号如下:
Y = ( Y 1 Y 2 ⋮ Y n ) , X = ( 1 X 11 ⋯ X 1 p 1 X 21 ⋯ X 2 p ⋮ ⋮ ⋮ 1 X n 1 ⋯ X n p ) , β = ( β 0 β 1 ⋮ β p ) , ϵ = ( ϵ 1 ϵ 2 ⋮ ϵ n ) \begin{equation} Y = \left( \begin{array}{c} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{array} \right) , X = \left( \begin{array}{c} 1 & X_{11} & \cdots & X_{1p} \\ 1 & X_{21} & \cdots & X_{2p} \\ \vdots & \vdots & \quad & \vdots\\ 1 & X_{n1} & \cdots & X_{np} \\ \end{array} \right) , \beta = \left( \begin{array}{c} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{array} \right) , \epsilon = \left( \begin{array}{c} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{array} \right) \end{equation} Y=⎝ ⎛Y1Y2⋮Yn⎠ ⎞,X=⎝ ⎛11⋮1X11X21⋮Xn1⋯⋯⋯X1pX2p⋮Xnp⎠ ⎞,β=⎝ ⎛β0β1⋮βp⎠ ⎞,ϵ=⎝ ⎛ϵ1ϵ2⋮ϵn⎠ ⎞
则线性回归模型可以表示为:
Y = X β + ϵ Y = X\beta + \epsilon Y=Xβ+ϵ
其中X为设计矩阵,并且假定是列满秩(变量之间线性无关)的,即 r a n k ( X ) = p + 1 rank(X) = p+1 rank(X)=p+1,误差向量 ϵ \epsilon ϵ满足前文假设条件。
接下来用最小二乘法求解回归方程的参数向量 β \beta β。
β \beta β的最小二乘估计即确定 β \beta β,使得误差向量 ϵ = Y − X β \epsilon = Y-X\beta ϵ=Y−Xβ各元素的平方和达到最小,即
Q ( β ) = ∑ i = 1 n ϵ 2 = ϵ T ϵ = ( Y − X β ) T ( Y − X β ) = Y T Y − 2 β T X T Y + β T X T X β . Q(\beta) = \sum_{i=1}^{n} \epsilon^2 = \epsilon^T \epsilon = (Y-X\beta)^T(Y-X\beta) = Y^TY - 2\beta^TX^TY + \beta^TX^TX\beta. Q(β)=i=1∑nϵ2=ϵTϵ=(Y−Xβ)T(Y−Xβ)=YTY−2βTXTY+βTXTXβ.
令 ∂ Q ( β ) ∂ β = − 2 X T Y + 2 X T X β = 0 \frac{\partial Q(\beta)}{\partial \beta} = -2X^TY + 2X^TX\beta = 0 ∂β∂Q(β)=−2XTY+2XTXβ=0,则有:
X T X β = X T Y . X^TX\beta = X^TY. XTXβ=XTY.
所以参数向量 β \beta β的最小二乘估计 β ^ = ( β ^ 0 , β ^ 1 , ⋯ , β ^ p ) T = ( X T X ) − 1 X T Y . \hat{\beta} = (\hat{\beta}_0, \hat{\beta}_1, \cdots, \hat{\beta}_p)^T = (X^TX)^{-1}X^TY. β^=(β^0,β^1,⋯,β^p)T=(XTX)−1XTY.
线性回归模型为: f ( x i ^ ) = x i ^ T ( X T X ) − 1 X T Y . f(\hat{x_i}) = \hat{x_i}^T(X^TX)^{-1}X^TY. f(xi^)=xi^T(XTX)−1XTY.
在此处挖个坑,有空想起来就填
[1] 《近代回归分析方法》,梅长林.
[2]《机器学习》,周志华.