ESS (Explained Sum of Squares) = SSR (Sum of Squares from Regression) 回归平方和
RSS (Residual Sum of Squares) = SSE (Sum of Squares from Errors) 残差平方和
TSS=ESS+RSS=SSR+SSE=SST
R 2 = E S S T S S = S S R S S T R^2=\frac{ESS}{TSS}=\frac{SSR}{SST} R2=TSSESS=SSTSSR
含对数形式的回归模型:
y = β 0 + β 1 x y=\beta_0+\beta_1x y=β0+β1x: Δ x = 1 , Δ y = β 1 \Delta x=1,\Delta y=\beta_1 Δx=1,Δy=β1
y = β 0 + β 1 log x y=\beta_0+\beta_1\log x y=β0+β1logx: Δ x = 1 % , Δ y = β 1 100 \Delta x=1\%,\Delta y=\frac{\beta_1}{100} Δx=1%,Δy=100β1
log y = β 0 + β 1 x \log y=\beta_0+\beta_1 x logy=β0+β1x: Δ x = 1 , Δ y = 100 β 1 % \Delta x=1,\Delta y=100\beta_1\% Δx=1,Δy=100β1%
log y = β 0 + β 1 log x \log y=\beta_0+\beta_1\log x logy=β0+β1logx: Δ x = 1 % , Δ y = β 1 % \Delta x=1\%,\Delta y=\beta_1\% Δx=1%,Δy=β1%
交互项:
C = α + β Y + u C=\alpha+\beta Y+u C=α+βY+u
β = β 1 + β 2 Z \beta=\beta_1+\beta_2Z β=β1+β2Z
⇒ C = α + ( β 1 + β 2 Z ) Y + u = α + β 1 Y + β 2 Y Z + u \Rightarrow C=\alpha+(\beta_1+\beta_2Z)Y+u=\alpha+\beta_1Y+\beta_2YZ+u ⇒C=α+(β1+β2Z)Y+u=α+β1Y+β2YZ+u
刻画交互作用的方法,在变量为定性变量时, 是以乘法方式引入虚拟变量的。
回归方程括号里的是回归系数的标准差 S β ^ 1 S_{\hat\beta_1} Sβ^1, t t t统计量 t = β ^ 1 σ ^ 2 ∑ x i 2 = β ^ 1 S β ^ 1 ∼ t ( n − 2 ) t=\frac{\hat\beta_1}{\sqrt{\dfrac{\hat\sigma^2}{\sum x_i^2}}}=\frac{\hat\beta_1}{S_{\hat\beta_1}}\sim t(n-2) t=∑xi2σ^2β^1=Sβ^1β^1∼t(n−2)
临界 t t t统计量是双侧检验,临界值为 t α / 2 ( n ) t_{\alpha/2}(n) tα/2(n):
α = 10 % \alpha=10\% α=10%显著性水平, n = ∞ n=\infty n=∞, t α / 2 ( n ) = t 0.05 ( n ) = 1.645 t_{\alpha/2}(n)=t_{0.05}(n)=1.645 tα/2(n)=t0.05(n)=1.645
α = 5 % \alpha=5\% α=5%显著性水平, n = ∞ n=\infty n=∞, t α / 2 ( n ) = t 0.025 ( n ) = 1.96 t_{\alpha/2}(n)=t_{0.025}(n)=1.96 tα/2(n)=t0.025(n)=1.96
t统计量的绝对值大于临界值,拒绝原假设( H 0 : β 1 = 0 H_0:\beta_1=0 H0:β1=0,解释变量的回归系数不显著),说明解释变量显著,通过显著性检验。
t统计量大于3一般都可以通过显著性检验,小于1一般无法通过显著性检验。
F F F统计量可以用拟合优度 R 2 R^2 R2以及样本数量 n n n以及(显式)变量数 k k k计算:
F = ( T S S − R S S ) / k R S S / ( n − k − 1 ) = R 2 / k ( 1 − R 2 ) / ( n − k − 1 ) F=\frac{(TSS-RSS)/k}{RSS/(n-k-1)}=\frac{R^2/k}{(1-R^2)/(n-k-1)} F=RSS/(n−k−1)(TSS−RSS)/k=(1−R2)/(n−k−1)R2/k
F统计量总是单变的,越大越显著。
古典线性回归模型的基本假定:
CLM1:参数线性关系
CLM2:随机样本,样本选择又变异性
CLM3:满秩(否则,存在多重共线性)
CLM4:误差项条件均值为零
(前提假设是误差项无条件均值为0且与解释变量无关,否则,存在内生性问题)
CLM5:误差项同方差和无自相关(否则,存在异方差和自相关)
CLM6:误差项正态分布
区分四个概念:
总体回归线:估计给定 X X X时的条件期望。
f ( X ) = E ( Y ∣ X ) = β 0 + β 1 X . f(X)=E(Y|X)=\beta_0+\beta_1X. f(X)=E(Y∣X)=β0+β1X.
总体回归模型:用于描述每一个个体回归模型,加入了随机误差项。
Y i = β 0 + β 1 X i + μ i . Y_i=\beta_0+\beta_1X_i+\mu_i. Yi=β0+β1Xi+μi.
样本回归线:由样本计算出的用于估计总体回归线的函数。
Y ^ = β ^ 0 + β ^ 1 X . \hat{Y}=\hat\beta_0+\hat\beta_1X. Y^=β^0+β^1X.
样本回归模型:用于解释每一个样本的样本回归模型,加入了残差。
Y i = β ^ 0 + β ^ 1 X + e i . Y_i=\hat\beta_0+\hat\beta_1X+e_i. Yi=β^0+β^1X+ei.
经典假设(前四条称高斯-马尔科夫假设):
正规方程组:
Cannot read properties of undefined (reading 'type')
估计量的离差形式与样本回归函数的离差形式:
β ^ 1 = ∑ x i y i ∑ x i 2 , β ^ 0 = Y ˉ − β ^ 1 X ˉ ; y ^ i = β ^ 1 x i . \hat\beta_1=\frac{\sum x_iy_i}{\sum x_i^2},\quad \hat\beta_0=\bar{Y}-\hat\beta_1\bar{X};\\ \hat y_i=\hat\beta_1x_i. β^1=∑xi2∑xiyi,β^0=Yˉ−β^1Xˉ;y^i=β^1xi.
矩估计时的总体矩条件与对应的样本矩条件(矩条件将在工具变量法中发挥作用):
E ( μ i ) = 0 ⇒ 1 n ∑ ( Y i − β ^ 0 − β ^ 1 X i ) = 0 ; E ( X i μ i ) = 0 ⇒ 1 n ∑ ( Y i − β ^ 0 − β ^ 1 X i ) X i = 0. \mathrm{E}(\mu_i)=0\Rightarrow \frac{1}{n}\sum(Y_i-\hat\beta_0-\hat\beta_1X_i)=0;\\ \mathrm{E}(X_i\mu_i)=0\Rightarrow \frac{1}{n}\sum(Y_i-\hat\beta_0-\hat\beta_1X_i)X_i=0. E(μi)=0⇒n1∑(Yi−β^0−β^1Xi)=0;E(Xiμi)=0⇒n1∑(Yi−β^0−β^1Xi)Xi=0.
最小二乘估计量具有线性性,无偏性,有效性(最小方差性)与大样本下的一致性。下面的结果将在预测问题中起到作用。
β ^ 1 = β 1 + ∑ x i ∑ x i 2 μ i , V a r ( β ^ 1 ) = σ 2 ∑ x i 2 ; β ^ 0 = β 0 + ∑ ( 1 n − x i X ˉ ∑ x i 2 ) μ i , V a r ( β ^ 0 ) = ∑ X i 2 n ∑ x i 2 σ 2 ; C o v ( β ^ 0 , β ^ 1 ) = − X ˉ σ 2 ∑ x i 2 . \hat\beta_1=\beta_1+\sum \frac{ x_i}{\sum x_i^2}\mu_i,\quad \mathrm{Var}(\hat\beta_1)=\frac{\sigma^2}{\sum x_i^2};\\ \hat\beta_0=\beta_0+\sum\left(\frac{1}{n}-\frac{x_i\bar{X}}{\sum x_i^2} \right)\mu_i,\quad \mathrm{Var}(\hat\beta_0)=\frac{\sum X_i^2}{n\sum x_i^2}\sigma^2;\\ \mathrm{Cov}(\hat\beta_0,\hat\beta_1)=-\frac{\bar{X}\sigma^2}{\sum x_i^2}. β^1=β1+∑∑xi2xiμi,Var(β^1)=∑xi2σ2;β^0=β0+∑(n1−∑xi2xiXˉ)μi,Var(β^0)=n∑xi2∑Xi2σ2;Cov(β^0,β^1)=−∑xi2Xˉσ2.
随机干扰项的方差估计,这是假设检验、预测置信区间的基础:
σ ^ 2 = ∑ e i 2 n − 2 , S β ^ 1 = σ ^ 2 ∑ x i 2 . \hat\sigma^2=\frac{\sum e_i^2}{n-2},\quad S_{\hat\beta_1}=\sqrt{\frac{\hat\sigma^2}{\sum x_i^2}}. σ^2=n−2∑ei2,Sβ^1=∑xi2σ^2.
σ ^ 2 = R S S n − k − 1 \hat\sigma^2=\frac{RSS}{n-k-1}\\ σ^2=n−k−1RSS
是 σ 2 \sigma^2 σ2的一致估计量。对于一元线性回归 k = 1 k=1 k=1.
S β ^ 1 = σ ^ 2 ∑ x i 2 = σ ^ 2 T S S ( 1 − R 2 ) S_{\hat\beta_1}=\sqrt{\frac{\hat\sigma^2}{\sum x_i^2}}=\sqrt{\frac{\hat\sigma^2}{TSS(1-R^2)}} Sβ^1=∑xi2σ^2=TSS(1−R2)σ^2
平方和分解式:在最小二乘估计下,有
T S S = R S S + E S S . \mathrm{TSS}=\mathrm{RSS}+\mathrm{ESS}. TSS=RSS+ESS.
拟合优度:
R 2 = E S S T S S = T S S − R S S T S S . R^2=\frac{\mathrm{ESS}}{\mathrm{TSS}}=\frac{\mathrm{TSS}-\mathrm{RSS}}{\mathrm{TSS}}. R2=TSSESS=TSSTSS−RSS.
用拟合优度的观点来看,拟合优度反映拟合的优良程度,故拟合得越好 R 2 R^2 R2越大。为计算,有
R 2 = ∑ y ^ i 2 ∑ y i 2 = β ^ 1 2 ∑ x i 2 ∑ y i 2 . R^2=\frac{\sum \hat y_i^2}{\sum y_i^2}=\frac{\hat\beta_1^2\sum x_i^2}{\sum y_i^2}. R2=∑yi2∑y^i2=∑yi2β^12∑xi2.
t t t检验:一元线性回归中的 t t t检验基于变量服从的分布 β ^ 1 ∼ N ( β 1 , σ 2 ∑ x i 2 ) \hat\beta_1\sim N(\beta_1,\dfrac{\sigma^2}{\sum x_i^2}) β^1∼N(β1,∑xi2σ2),构造检验 H 0 : β 1 = 0 H_0:\beta_1=0 H0:β1=0,对未知的 σ 2 \sigma^2 σ2,用服从 χ 2 ( n − 2 ) \chi^2(n-2) χ2(n−2)分布的 σ ^ 2 \hat\sigma^2 σ^2替代,故检验统计量为
t = β ^ 1 σ ^ 2 ∑ x i 2 = β ^ 1 S β ^ 1 ∼ t ( n − 2 ) . t=\frac{\hat\beta_1}{\sqrt{\dfrac{\hat\sigma^2}{\sum x_i^2}}}=\frac{\hat\beta_1}{S_{\hat\beta_1}}\sim t(n-2). t=∑xi2σ^2β^1=Sβ^1β^1∼t(n−2).
大样本情形下,近似有 β ^ 1 − β 1 S β ^ 1 ∼ N ( 0 , 1 ) \frac{\hat \beta_1-\beta_1}{S_{\hat \beta_1}}\sim N(0,1) Sβ^1β^1−β1∼N(0,1),而 t t t分布大样本下接近正态分布,也可以说 β ^ 1 − β 1 S β ^ 1 ∼ t ( n − k − 1 ) \frac{\hat \beta_1-\beta_1}{S_{\hat \beta_1}}\sim t(n-k-1) Sβ^1β^1−β1∼t(n−k−1)
置信区间: β ^ 1 ± t α 2 ( n − 2 ) ⋅ S β ^ 1 \hat\beta_1\pm t_{\frac{\alpha}{2}}(n-2)\cdot S_{\hat\beta_1} β^1±t2α(n−2)⋅Sβ^1。
对条件均值的预测: Y ^ 0 = β ^ 0 + β ^ 1 X 0 \hat Y_0=\hat \beta_0+\hat \beta_1X_0 Y^0=β^0+β^1X0,
E ( Y ^ 0 ) = E ( Y 0 ∣ X 0 ) = β 0 + β 1 X 0 , V a r ( Y ^ 0 ) = V a r ( β ^ 0 ) + X 0 2 V a r ( β ^ 1 ) + 2 X 0 C o v ( β ^ 0 , β ^ 1 ) = ( ∑ X i 2 n ∑ x i 2 + X 0 2 ∑ x i 2 − 2 X 0 X ˉ ∑ x i 2 ) σ 2 = ( ∑ x i 2 n + X ˉ 2 + X 0 2 − 2 X 0 X ˉ ) σ 2 ∑ x i 2 = [ 1 n + ( X ˉ − X 0 ) 2 ∑ x i 2 ] σ 2 . S E ( Y 0 ^ ) = σ 1 n + ( X 0 − X ˉ ) 2 ∑ x i 2 \mathrm{E}(\hat Y_0)=\mathrm{E}(Y_0|X_0)=\beta_0+\beta_1X_0,\\ \begin{aligned} \mathrm{Var}(\hat{Y}_0)&=\mathrm{Var}(\hat\beta_0)+X_0^2\mathrm{Var}(\hat\beta_1)+2X_0\mathrm{Cov}(\hat\beta_0,\hat\beta_1)\\ &=\left(\frac{\sum X_i^2}{n\sum x_i^2}+\frac{X_0^2}{\sum x_i^2}-\frac{2X_0\bar{X}}{\sum x_i^2}\right)\sigma^2\\ &=\left(\frac{\sum x_i^2}{n}+\bar{X}^2+X_0^2-2X_0\bar{X} \right)\frac{\sigma^2}{\sum x_i^2}\\ &=\left[\frac{1}{n}+\frac{(\bar{X}-X_0)^2}{\sum x_i^2} \right]\sigma^2. \end{aligned}\\ \mathrm{SE}(\hat{Y_0})=\sigma\sqrt{\frac{1}{n}+\frac{(X_0-\bar{X})^2}{\sum{x_i^2}}} E(Y^0)=E(Y0∣X0)=β0+β1X0,Var(Y^0)=Var(β^0)+X02Var(β^1)+2X0Cov(β^0,β^1)=(n∑xi2∑Xi2+∑xi2X02−∑xi22X0Xˉ)σ2=(n∑xi2+Xˉ2+X02−2X0Xˉ)∑xi2σ2=[n1+∑xi2(Xˉ−X0)2]σ2.SE(Y0^)=σn1+∑xi2(X0−Xˉ)2
当 σ 2 \sigma^2 σ2未知时,用 σ ^ 2 = ∑ e i 2 n − 2 \hat{\sigma}^2=\sum\frac{e_i^2}{n-2} σ^2=∑n−2ei2代替,此时有 Y 0 ^ \hat{Y_0} Y0^服从 t t t分布,将其标准化,
t = Y 0 ^ − E ( Y 0 ∣ X 0 ) σ ^ 1 n + ( X 0 − X ˉ ) 2 ∑ x i 2 ∼ t ( n − 2 ) t=\frac{\hat{Y_0}-\mathrm{E}(Y_0|X_0)}{\hat{\sigma}\sqrt{\frac{1}{n}+\frac{(X_0-\bar{X})^2}{\sum x_i^2}}}\sim t(n-2) t=σ^n1+∑xi2(X0−Xˉ)2Y0^−E(Y0∣X0)∼t(n−2)
对个别值的预测: Y 0 = β 0 + β 1 X 0 + μ Y_0=\beta_0+\beta_1X_0+\mu Y0=β0+β1X0+μ,从而它是无偏估计,且
V a r ( Y 0 ) = [ 1 + 1 n + ( X ˉ − X 0 ) 2 ∑ x i 2 ] σ 2 . \mathrm{Var}(Y_0)=\left[1+\frac{1}{n}+\frac{(\bar{X}-X_0)^2}{\sum x_i^2} \right]\sigma^2. Var(Y0)=[1+n1+∑xi2(Xˉ−X0)2]σ2.
总体回归模型中包含了 n n n个方程,从而 Y , μ Y,\mu Y,μ是 n n n维向量, β \beta β是 k + 1 k+1 k+1维向量, X X X是 ( k + 1 ) × n (k+1)\times n (k+1)×n矩阵。
Y = X β + μ , Y=X\beta+\mu, Y=Xβ+μ,
基本假设:
回归模型是正确设定的。
X 1 , ⋯ , X k X_1,\cdots,X_k X1,⋯,Xk在抽取的变量中具有变异性,且不存在完全的多重共线性。
r a n k ( X ) = k + 1. \mathrm{rank}(X)=k+1. rank(X)=k+1.
随机干扰项条件零均值。
E ( μ ∣ X ) = 0. \mathrm{E}(\mu|X)=0. E(μ∣X)=0.
随机干扰项条件同方差、序列不相关。
V a r ( μ ∣ X ) = σ 2 I n . \mathrm{Var}(\mu|X)=\sigma^2I_n. Var(μ∣X)=σ2In.
随机干扰项服从条件正态分布。
μ ∣ X ∼ N n ( 0 , σ 2 I n ) . \mu|X\sim N_n(0,\sigma^2I_n). μ∣X∼Nn(0,σ2In).
参数估计量的估计: β ^ = ( X ′ X ) − 1 X ′ Y \hat\beta=(X'X)^{-1}X'Y β^=(X′X)−1X′Y。具有线性性、无偏性、有效性以及大样本下的一致性。
E ( β ^ ) = β , V a r ( β ^ ) = σ 2 ( X ′ X ) − 1 . \mathrm{E}(\hat\beta)=\beta,\quad \mathrm{Var}(\hat\beta)=\sigma^2(X'X)^{-1}. E(β^)=β,Var(β^)=σ2(X′X)−1.
σ 2 \sigma^2 σ2的估计: σ ^ 2 = e ′ e n − k − 1 \hat\sigma^2=\dfrac{e'e}{n-k-1} σ^2=n−k−1e′e, k k k为模型中解释变量的个数。
满足基本要求的样本量: n ≥ 3 ( k + 1 ) n\ge 3(k+1) n≥3(k+1),或 n ≥ 30 n\ge 30 n≥30。
求条件均值 E ( Y 0 ) \mathrm{E}(Y_0) E(Y0)的置信区间: Y ^ 0 = X 0 β ^ \hat{Y}_0=X_0\hat\beta Y^0=X0β^,故
E ( Y ^ 0 ) = X 0 β = E ( Y 0 ) , V a r ( Y ^ 0 ) = X 0 V a r ( β ^ ) X 0 ′ = σ 2 X 0 ( X ′ X ) − 1 X 0 ′ , Y ^ 0 ± t α 2 ( n − k − 1 ) V a r ( Y ^ 0 ) . \mathrm{E}(\hat{Y}_0)=X_0\beta=\mathrm{E}(Y_0),\\ \mathrm{Var}(\hat{Y}_0)=X_0\mathrm{Var}(\hat\beta)X_0'=\sigma^2X_0(X'X)^{-1}X_0',\\ \hat{Y}_0\pm t_{\frac{\alpha}{2}}(n-k-1)\sqrt{\mathrm{Var}(\hat{Y}_0)}. E(Y^0)=X0β=E(Y0),Var(Y^0)=X0Var(β^)X0′=σ2X0(X′X)−1X0′,Y^0±t2α(n−k−1)Var(Y^0).
求个别值 Y 0 Y_0 Y0的置信区间: Y 0 = Y ^ 0 + μ Y_0=\hat{Y}_0+\mu Y0=Y^0+μ,故
E ( Y 0 ) = X 0 β , V a r ( Y 0 ) = σ 2 [ 1 + X 0 ( X ′ X ) − 1 X 0 ] . \mathrm{E}(Y_0)=X_0\beta,\quad \mathrm{Var}(Y_0)=\sigma^2[1+X_0(X'X)^{-1}X_0]. E(Y0)=X0β,Var(Y0)=σ2[1+X0(X′X)−1X0].
平方和分解及其自由度:
拟合优度为 R 2 = 1 − R S S T S S R^2=1-\dfrac{\mathrm{RSS}}{\mathrm{TSS}} R2=1−TSSRSS,为反应变量数的影响,常使用调整可决系数 R ‾ 2 = 1 − R S S / ( n − k − 1 ) T S S / ( n − 1 ) \overline{R}^2=1-\dfrac{\mathrm{RSS}/(n-k-1)}{\mathrm{TSS}/(n-1)} R2=1−TSS/(n−1)RSS/(n−k−1),即分子分母各自除去其自由度,这包含了解释变量个数的影响。
信息准则:可比较所含解释变量个数不同模型的拟合优度,不同的信息准则有不同的惩罚项。两个指标都是越小越好。
t t t检验中, S β ^ j 2 S_{\hat\beta_j}^2 Sβ^j2是 β ^ j \hat\beta_j β^j的方差估计,实际上是 V a r ( β ^ ) \mathrm{Var}(\hat\beta) Var(β^)中第 j j j个对角元素,再利用 σ ^ 2 \hat\sigma^2 σ^2替代即可。
t = β ^ j − β j S β ^ j ∼ t ( n − k − 1 ) . t=\frac{\hat\beta_j-\beta_j}{S_{\hat\beta_j}}\sim t(n-k-1). t=Sβ^jβ^j−βj∼t(n−k−1).
受约束回归:对全估计参数最小二乘的残差平方和为 R S S U \mathrm{RSS}_{U} RSSU,如果对参数施加约束得到的残差平方和为 R S S R \mathrm{RSS}_{R} RSSR,则自然有 R S S U ≤ R S S R \mathrm{RSS}_{U}\le \mathrm{RSS}_{R} RSSU≤RSSR。受约束回归检验的假设是 H 0 H_0 H0:约束为真。如果 H 0 H_0 H0成立,施加的约束为真,则两个残差平方和之间不应具有过大的差异,构造== F F F统计量==为
残 差 平 方 和 形 式 : F = ( R S S R − R S S U ) / ( k U − k R ) R S S U / ( n − k U − 1 ) ∼ H 0 F ( k U − k R , n − k U − 1 ) . 残差平方和形式:F=\frac{(\mathrm{RSS}_{R}-\mathrm{RSS}_{U})/(k_{U}-k_{R})}{\mathrm{RSS}_{U}/(n-k_{U}-1)}\stackrel{H_0}\sim F(k_{U}-k_{R},n-k_{U}-1). 残差平方和形式:F=RSSU/(n−kU−1)(RSSR−RSSU)/(kU−kR)∼H0F(kU−kR,n−kU−1).
拟 合 优 度 ( 可 决 系 数 ) 形 式 : F = ( R U 2 − R R 2 ) / ( k U − k R ) ( 1 − R U 2 ) / ( n − k U − 1 ) ∼ H 0 F ( k U − k R , n − k U − 1 ) . 拟合优度(可决系数)形式:F=\frac{(R_U^2-R_R^2)/(k_U-k_R)}{(1-R_U^2)/(n-k_U-1)} \stackrel{H_0}\sim F(k_{U}-k_{R},n-k_{U}-1). 拟合优度(可决系数)形式:F=(1−RU2)/(n−kU−1)(RU2−RR2)/(kU−kR)∼H0F(kU−kR,n−kU−1).
未约束回归(全参数回归)的残差平方和更小,可决系数更大。(用于记忆公式)
因此,如果 F > F α ( k U − k R , n − k U − 1 ) F>F_{\alpha}(k_{U}-k_{R},n-k_{U}-1) F>Fα(kU−kR,n−kU−1),则拒绝原假设,认为约束为假。注意 F F F检验总是单边的。
F F F检验:原假设是 β 1 = β 2 = ⋯ = β k \beta_1=\beta_2=\cdots=\beta_k β1=β2=⋯=βk,从而 R S S R = ∑ y i 2 = T S S \mathrm{RSS}_{R}=\sum y_i^2=\mathrm{TSS} RSSR=∑yi2=TSS,故
F = ( T S S − R S S ) / k R S S / ( n − k − 1 ) = E S S / k R S S / ( n − k − 1 ) . F=\frac{(\mathrm{TSS-RSS})/k}{\mathrm{RSS}/(n-k-1)}=\frac{\mathrm{ESS}/k}{\mathrm{RSS}/(n-k-1)}. F=RSS/(n−k−1)(TSS−RSS)/k=RSS/(n−k−1)ESS/k.
原模型有 k k k个解释变量,去掉 q q q个变量:原假设是 β k = ⋯ = β k − q + 1 = 0 \beta_{k}=\cdots=\beta_{k-q+1}=0 βk=⋯=βk−q+1=0,从而
F = ( R S S R − R S S U ) / q R S S U / ( n − k − 1 ) . F=\frac{(\mathrm{RSS}_{R}-\mathrm{RSS}_{U})/q}{\mathrm{RSS}_{U}/(n-k-1)}. F=RSSU/(n−k−1)(RSSR−RSSU)/q.
原模型有 k k k个解释变量,增加 q q q个变量:原假设是 β k + 1 = ⋯ = β k + q = 0 \beta_{k+1}=\cdots=\beta_{k+q}=0 βk+1=⋯=βk+q=0,从而
F = ( R S S R − R S S U ) / q R S S U / ( n − ( k + q ) − 1 ) = ( R S S − R S S U ) / q R S S U / ( n − k − q − 1 ) . F=\frac{(\mathrm{RSS}_{R}-\mathrm{RSS}_{U})/q}{\mathrm{RSS}_{U}/(n-(k+q)-1)}=\frac{(\mathrm{RSS}-\mathrm{RSS}_{U})/q}{\mathrm{RSS}_{U}/(n-k-q-1)}. F=RSSU/(n−(k+q)−1)(RSSR−RSSU)/q=RSSU/(n−k−q−1)(RSS−RSSU)/q.
邹氏稳定性检验:有两组样本 X ( 1 ) , X ( 2 ) X^{(1)},X^{(2)} X(1),X(2),估计出两组参数 α , β \alpha,\beta α,β,原假设是 α = β \alpha=\beta α=β,从而
F = ( R S S R − R S S U ) / ( k + 1 ) R S S U / ( n 1 + n 2 − ( 2 k + 2 ) ) . F=\frac{(\mathrm{RSS}_{R}-\mathrm{RSS}_{U})/(k+1)}{\mathrm{RSS}_{U}/(n_1+n_2-(2k+2))}. F=RSSU/(n1+n2−(2k+2))(RSSR−RSSU)/(k+1).