简单地说,回归分析是对拟合问题做的一种统计分析。
P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
具体地说,回归分析在一组数据的基础上研究以下问题:
m m m个变量,对它们分别进行了 n n n次采样(或观测),得到 n n n个样本点,
( x i 1 , x i 2 , . . . , x i m ) , i = 1 , 2 , . . . , n (x_{i1}, x_{i2}, ... , x_{im}), i = 1, 2, ..., n (xi1,xi2,...,xim),i=1,2,...,n
所构成的数据表可以写成一个 n × m n \times m n×m维的矩阵。
(1)数据的中心化处理
实际上就是平移变化,即 x i j ∗ = x i j − x j ‾ , i = 1 , 2 , . . . , n , j = 1 , 2 , . . . , m x_{ij}^* = x_{ij} - \overline{x_j}, i=1,2,...,n, j=1,2,...,m xij∗=xij−xj,i=1,2,...,n,j=1,2,...,m
这种处理,可以是样本的均值为 0 0 0,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。
(2)数据的无量纲化处理
在实际问题中,不同变量的测量单位往往是不同的。
为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1
即, x i j ∗ = x i j / s j , 其 中 , s j = 1 n − 1 ∑ i = 1 n ( x i j − x j ‾ ) 2 x_{ij}^* = x_{ij} / s_j,其中,s_j = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_{ij}-\overline{x_j})^2} xij∗=xij/sj,其中,sj=n−11i=1∑n(xij−xj)2
当然,也有其他消量纲的方法,此处不一一列举。
(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
即, x i j ∗ − x i j − x j ‾ s j , i = 1 , 2 , . . . , n , j = 1 , 2 , . . . m x_{ij}^* - \frac{x_{ij} - \overline{x_j}}{s_j}, i=1,2,...,n, j=1,2,...m xij∗−sjxij−xj,i=1,2,...,n,j=1,2,...m
——选择哪些变量作为因变量的解释变量:
(1)穷举法
列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。
假设有 m m m个潜在变量,则需要拟合与比较的方程个数为 2 m 2_m 2m——当 m m m较大时不现实
(2)向前选择变量法
缺点:
一旦某个自变量被选入模型,它就永远留在模型中。然鹅,随着其他变量的引入,由于变量之间相互传递的相关关系,一些先进入模型的变量的解释作用可能会变得不再显著。
(3)向后删除变量法
缺点:
一旦某个自变量被删除后,它就永远被排斥在模型之外。但是,随着其它变量的被删除,它对 y 的解释作用也可能会显著起来。
(4)逐步回归法——最常用
综合向前选择和向后删除,采取边进边退的方法:
具体流程见书,此处不再赘述。
另外,为了避免变量的进出循环,一般取偏F检验拒绝域的临界值为: F 进 > F 出 F_进 > F_出 F进>F出,式中, F 进 F_进 F进为选入变量时的临界值, F 出 F_出 F出未删除变量时的临界值。
在所有标准的统计软件中都有逐步回归的程序。 F 进 F_进 F进和 F 出 F_出 F出的检验水平值也可以自定,也可以是备择的。常见的检验水平值为 α 进 = 0.05 \alpha_进 = 0.05 α进=0.05, α 出 = 0.1 \alpha_出 = 0.1 α出=0.1
——一般的统计软件常在输出中同时给出 R 2 R^2 R2和 R ‾ 2 \overline{R}^2 R2,如果两者相差过大,则应考虑减少或调整变量【个人认为,可用于检验逐步回归的结果】
统计学家主张在回归建模时,采用尽可能少的自变量,不要盲目地追求复判定系数 R 2 R^2 R2的提高。
当变量增加时,残差项的自由度就会减少 d f E = n − m − 1 df_E = n-m-1 dfE=n−m−1,自由度越小,数据的统计趋势就越不容易显现,故而定义了一个调整复判定系数:
R ‾ 2 = 1 − Q / ( n − m − 1 ) S S T / ( n − 1 ) \overline{R}^2 = 1 - \frac{Q/(n-m-1)}{SST/(n-1)} R2=1−SST/(n−1)Q/(n−m−1)
此外, R ‾ 2 \overline{R}^2 R2还可以用于判断是否可以再增加新的变量:
若增加一个变量,
一元线性回归、多元线性回归——略。
——检查自变量与因变量之间能否用一个线性关系模型表示( F F F检验)
具体检验方法见书,此处不再赘述。
——检查每一个自变量对因变量的影响是否显著( t t t 检验)
具体检验方法见书,此处不再赘述。
M S E = 1 n − 2 ∑ i = 1 n ( e i − e ‾ ) 2 MSE = \frac{1}{n-2} \sum_{i=1}^{n}(e_i - \overline{e})^2 MSE=n−21i=1∑n(ei−e)2
可以计算残差的样本均值 e ‾ = 0 \overline{e} = 0 e=0
记, S e = M S E = 1 n − 2 ∑ i = 1 n e i 2 S_e = \sqrt{MSE} = \sqrt{\frac{1}{n-2} \sum_{i=1}{n} {e_i}^2} Se=MSE=n−21i=1∑nei2
S e S_e Se越小,拟合效果越好
——指可解释的变异占总变异的百分比,用 R 2 R^2 R2表示
R 2 = S S R S S T = 1 − S S E S S T R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} R2=SSTSSR=1−SSTSSE
其中,
S S T = ∑ i = 1 n ( y i − y ‾ ) 2 , 原 始 数 据 y i 的 总 变 异 平 方 和 , d f T = n − 1 SST = \sum_{i=1}^n(y_i - \overline{y})^2,原始数据y_i的总变异平方和,df_T = n-1 SST=i=1∑n(yi−y)2,原始数据yi的总变异平方和,dfT=n−1
S S R = ∑ i = 1 n ( y i ^ − y ‾ ) 2 , 用 拟 合 直 线 可 解 释 的 变 异 平 方 和 , d f R = 1 SSR = \sum_{i=1}^n(\hat{y_i}-\overline{y})^2,用拟合直线可解释的变异平方和,df_R = 1 SSR=i=1∑n(yi^−y)2,用拟合直线可解释的变异平方和,dfR=1
S S E = ∑ i = 1 n ( y i − y i ^ ) 2 , 残 差 平 方 和 , d f E = n − 2 SSE = \sum_{i=1}^n(y_i - \hat{y_i})^2,残差平方和,df_E = n-2 SSE=i=1∑n(yi−yi^)2,残差平方和,dfE=n−2
S S T = S S R + S S E SST = SSR + SSE SST=SSR+SSE
R 2 R^2 R2越接近1,拟合点与原数据越吻合
另外,还可证明, R 2 \sqrt{R^2} R2等于 y y y与自变量 x x x的相关系数,而相关系数的正负号与回归系数 β 1 ^ \hat{\beta_1} β1^的符号相同
在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。
在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)
解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
再如,主成分估计——可以去掉一些复共线性
采用回归模型进行建模的可取步骤如下: