线性回归分类
线性回归的前提条件:
两个变量:X和Y
例1:人体的身高和体重
X:人体的身高
Y:人体的体重
身高X大时,体重Y也会倾向于增大,但是X不能严格地决定Y
相关关系:自变量的取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系。
相关关系是一种非确定关系。对具有相关关系的两个变量进行统计分析的方法称为回归分析。
X:自变量或者预报变量
Y:因变量或者响应变量
Y { X 能 够 决 定 的 部 分 f ( x ) 其 他 未 考 虑 的 因 素 e : 误 差 Y\begin{cases} X能够决定的部分f(x)\\ 其他未考虑的因素e:误差 \end{cases} Y{X能够决定的部分f(x)其他未考虑的因素e:误差
则得到下面的模型:
Y = f ( x ) + e , E ( e ) = 0 特 别 的 , 当 f ( X ) = β 0 + β 1 X 时 是 线 性 函 数 β 0 和 β 1 都 称 作 回 归 系 数 Y = f(x) + e,E(e) = 0\\ 特别的,当f(X) = \beta_0+\beta_1X时是线性函数\\ \beta_0和\beta_1都称作回归系数 Y=f(x)+e,E(e)=0特别的,当f(X)=β0+β1X时是线性函数β0和β1都称作回归系数
于是有n组观测值(xi , yi ),如果Y与X 满足回归系数时,则(xi , yi )满足:
y i = β 0 + β 1 x i + e i , i = 1 , 2 , . . . , n y_i = \beta_0+\beta_1x_i+e_i,\qquad i=1,2,...,n yi=β0+β1xi+ei,i=1,2,...,n
第三步:确定未知参数值
根据第二步得到的方程组,应用用统计方法,可以得到 β 0 \beta_0 β0和 β 1 \beta_1 β1的估计值 β ^ 0 \hat\beta_0 β^0和 β ^ 1 \hat\beta_1 β^1
第四步:求得经验方程
将估计值 β ^ 0 \hat\beta_0 β^0和 β ^ 1 \hat\beta_1 β^1带入线性回归方程,略去误差项:
Y = β ^ 0 + β ^ 1 X Y = \hat\beta_0+\hat\beta_1X Y=β^0+β^1X
称为经验回归方程
多元线性回归的一般形式:
Y = β 0 + β 1 x + . . . + + β p − 1 x + e i Y = \beta_0+\beta_1 x+...++\beta_{p-1} x+e_i Y=β0+β1x+...++βp−1x+ei
同样 β 0 \beta_0 β0为常数项,$\beta_1,…,\beta_{p-1} 为 回 归 系 数 , 为回归系数, 为回归系数,e$为随机误差.
观测数据
多元线性模型就是有多个未知数 β \beta β
y = [ y 1 y 2 ⋮ y n ] , X = [ 1 x 11 ⋯ x 1 , p − 1 1 x 21 ⋯ x 2 , p − 1 ⋮ ⋮ ⋮ ⋮ 1 x n 1 ⋯ x n , p − 1 ] , β = [ β 0 β 1 ⋮ β p − 1 ] , e = [ e 1 e 2 ⋮ e n ] y=\begin{bmatrix}y_1\\y_2\\\vdots \\y_n\end{bmatrix},X=\begin{bmatrix}1&x_{11}&\cdots&x_{1,p-1}\\1&x_{21}&\cdots&x_{2,p-1}\\\vdots&\vdots&\vdots&\vdots\\1&x_{n1}&\cdots&x_{n,p-1}\end{bmatrix},\beta=\begin{bmatrix}\beta_0\\\beta_1\\\vdots \\\beta_{p-1}\end{bmatrix},e=\begin{bmatrix}e_1\\e_2\\\vdots \\e_n\end{bmatrix} y=⎣⎢⎢⎢⎡y1y2⋮yn⎦⎥⎥⎥⎤,X=⎣⎢⎢⎢⎡11⋮1x11x21⋮xn1⋯⋯⋮⋯x1,p−1x2,p−1⋮xn,p−1⎦⎥⎥⎥⎤,β=⎣⎢⎢⎢⎡β0β1⋮βp−1⎦⎥⎥⎥⎤,e=⎣⎢⎢⎢⎡e1e2⋮en⎦⎥⎥⎥⎤
确定回归系数
求经验回归方程
设 β ^ = ( β ^ 0 , β ^ 1 , ⋯ , β ^ p − 1 ) ′ \hat\beta = (\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_{p-1})' β^=(β^0,β^1,⋯,β^p−1)′为 β \beta β的一种估计,则经验方程是:
Y = β ^ 0 + β ^ 1 X 1 + ⋯ + β ^ p − 1 X p − 1 Y= \hat\beta_0+\hat\beta_1X_1+\cdots+\hat\beta_{p-1}X_{p-1} Y=β^0+β^1X1+⋯+β^p−1Xp−1
非线性模型经过适当变换,转换为线性模型:比如两边取对数
ln Q t = ln a + b ln L t + c ln K t \ln\limits Q_t=\ln\limits a+b\ln\limits L_t+c\ln\limits K_t lnQt=lna+blnLt+clnKt
令
y t = ln Q t ; x t 1 = ln L t , β 0 = ln a , β 1 = b , β 2 = c y_t = \ln\limits Q_t;x_{t1} = \ln\limits L_t,\beta_0 = \ln\limits a,\beta_1 = b,\beta_2 = c yt=lnQt;xt1=lnLt,β0=lna,β1=b,β2=c
加上误差项即是线性关系
在高等数学中有最小二乘法的介绍。简单地说就是要通过确定一系列的系数 β \beta β,使所有情况下的误差最小,即:
e = ∣ y − X β ∣ e = |y-X\beta| e=∣y−Xβ∣
的值最小。由于绝对值不好处理,这里转化成平方形式:
e = ( y − X β ) 2 e = (y-X\beta)^2 e=(y−Xβ)2
上式展开,对 β \beta β求偏导,使其为0,得到线性方程组,解出 β i \beta_i βi即可,这一组 β \beta β即是估计出的参数值。即是通过这一步最终得到了经验方程:
Y ^ = β ^ 0 + β ^ 1 X 1 + ⋯ + β ^ p − 1 X p − 1 \hat Y = \hat\beta_0+\hat\beta_1 X_1+\cdots+\hat\beta_{p-1}X_{p-1} Y^=β^0+β^1X1+⋯+β^p−1Xp−1
上述方程还需要进一步做统计分析,来确定是否, 描述了因变量与自变量的真实关系。
另外,进行线性回归之前,为了消除量纲等因素的影响,我们通常会对数据进行预处理。预处理有
但是经验回归方程是否真正刻画了因变量与自 变量之间的关系?——回归方程的显著性检验
因变量和所有自变量之间是否存在显著的关系?——回归系数的显著性检验
异常点检验
正态线性回归模型:
y i = β ^ 0 + β ^ 1 x i 1 + ⋯ + β ^ p − 1 x i , p − 1 + e i e i — — N ( 0 , σ 2 ) , i = 1 , ⋯ , n y_i = \hat\beta_0+\hat\beta_1 x_{i1}+\cdots+\hat\beta_{p-1}x_{i,p-1}+e_i\\ e_i——N(0,\sigma^2),i = 1,\cdots,n yi=β^0+β^1xi1+⋯+β^p−1xi,p−1+eiei——N(0,σ2),i=1,⋯,n
经验方程是否正确刻画因变量与自变量之间的关系需要进行回归方程的显著性检验:
假设检验:所有回归系数都为0,即 H : β 1 = β 2 = , . . . , = β p − 1 = 0 H:\beta_1 = \beta_2 = ,...,=\beta_{p-1} = 0 H:β1=β2=,...,=βp−1=0
拒绝原假设:至少有一个 β i \beta_i βi不等于0
接受原假设:所有的 β i \beta_i βi都等于0,相对误差而言,所有自变量对因变量Y 的影响是不重要的。
显著性检验
设 m = p − 1 m = p-1 m=p−1,检验假设H: β 1 = ⋯ = β p − 1 = 0 \beta_1 = \cdots=\beta_{p-1} = 0 β1=⋯=βp−1=0的统计量为:
F 回 = S S 回 / p − 1 R S S / n − p F_回 = \frac{{SS_回}/{p-1}}{{RSS}/{n-p}} F回=RSS/n−pSS回/p−1
当原假设成立时, F 回 F_回 F回~ F p − 1 , n − p F_{p-1,n-p} Fp−1,n−p
对于某一置信度 α \alpha α, F 回 > F p − 1 , n − p ( α ) F_回>F_{p-1,n-p}(\alpha) F回>Fp−1,n−p(α)时,拒绝原假设,否则就接受H
回归系数的显著性检验
异常点检验
S S T = S S E + S S R { S S T = ∑ i = 1 n ( y i − y ‾ ) 2 S S E = ∑ i = 1 n ( y i − y ^ i ) 2 S S R = ∑ i = 1 n ( y ^ i − y ‾ ) 2 SST = SSE+SSR\begin{cases}SST = \sum\limits_{i=1}^{n}(y_i-\overline y)^2\\ SSE = \sum\limits_{i=1}^{n}(y_i-\hat y_i)^2\\ SSR = \sum\limits_{i=1}^{n}(\hat y_i-\overline y)^2\\\end{cases} SST=SSE+SSR⎩⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎧SST=i=1∑n(yi−y)2SSE=i=1∑n(yi−y^i)2SSR=i=1∑n(y^i−y)2
另外我们定义了 R 2 R^2 R2
R 2 = S S R S S T , 0 ≤ R 2 ≤ 1 R^2 = \frac{SSR}{SST},0≤R^2≤1 R2=SSTSSR,0≤R2≤1
R 2 R^2 R2越接近1,表示X和Y有较大的相依关系
一些大型线性回归问题(自变量较多),最小二乘估计有时表现不理想 :
复共线性:回归自变量之间存在着近似线性关系。
复共线性严重程度的判断
①方阵 X ′ X X'X X′X的条件数:最大特征值与最小特征值的比值
k = λ 1 λ p k=\frac{\lambda_1}{\lambda_p} k=λpλ1
有下面的判断标准:
②方差膨胀因子
方差膨胀因子 , : 越大,表示共线性越严重。 一般不应该大于, 当>时,提示有严重的多重共线性存在
(1) 增大样本含量,能部分解决复共线性问题。
(2) 把多种自变量筛选的方法结合起来组成拟合模型。建立一个 “最优”的逐步回归方程,但同时丢失一部分可利用的信息
(3) 从专业知识出发进行判断,去除专业上认为次要的,或者是 缺失值比较多、测量误差较大的共线性因子。
(4) 进行主成分分析,提取公因子代替原变量进行回归分析。
目的:
残差图分析
残差: e ^ = y − X b ^ \hat e = y-X\hat b e^=y−Xb^,其中将$\hat e 称 为 残 差 ; 称为残差; 称为残差;\hat y = X\hat b , , ,\hat y_i$称为拟合值。
以残差为纵坐标,以任何其他的量为横坐标的散点图,称为残差图。
这里以拟合值 y ^ i \hat y_i y^i为横轴, r i r_i ri为纵轴的残差图,平面上的点应该落在宽度为4的水平带 − 2 ≤ r i ≤ 2 -2≤r_i≤2 −2≤ri≤2的区域内,且不呈任何趋势。
,其中将$\hat e 称 为 残 差 ; 称为残差; 称为残差;\hat y = X\hat b , , ,\hat y_i$称为拟合值。
以残差为纵坐标,以任何其他的量为横坐标的散点图,称为残差图。
这里以拟合值 y ^ i \hat y_i y^i为横轴, r i r_i ri为纵轴的残差图,平面上的点应该落在宽度为4的水平带 − 2 ≤ r i ≤ 2 -2≤r_i≤2 −2≤ri≤2的区域内,且不呈任何趋势。
[外链图片转存中…(img-TaQX83rE-1627610395779)]
[外链图片转存中…(img-8Xf0EFkx-1627610395781)]