最早接触线性回归,是在计量经济学中。最简单最基础的即是一元线性回归模型。通过一元线性回归可以衍生出了许多模型,所以学好一元线性回归是非常有必要的,是目前所有回归模型的基础。即使跳出统计、计量的领域,到了数据挖掘、人工智能的领域,线性回归模型也是打好基础的重中之重。
谈到模型之前,样本数据的类型也是值得探讨的。按照数据截取的方向划分,有三类:
不同的数据类型,对应的模型选择也大不相同,比如有专门的时间序列模型参见后续将要写的第二十二章内容,面板数据模型,参见第八章。
线性回归,一般研究的都是横截面数据(简称截面数据),数据挖掘、人工智能重点模型大都也都是选择截面数据。
第二、三、八等章均是主要从统计的回归模型或者说计量经济学的模型角度来讨论的。第九章以后主要是从数据挖掘、人工智能的角度来讨论。
回归模型偏向对数值型变量的估值,而挖掘模型更偏向判别离散结果,如这个图片中的数字是0-9中的哪一个。
步骤 | 名称 | 说明 |
---|---|---|
1 | 理论或假说的陈述 | 凯恩斯设想:边际消费倾向 |
2 | 数学模型的设定 | 准确的确定性的模型: Y = β 1 + β 2 X , ∥ β 2 ∥ < 1 Y=β_1+β_2X,\|β_2\|<1 Y=β1+β2X,∥β2∥<1 |
3 | 回归模型(或计量经济学模型)的设定 | 非确定性模型-随机变量(误差项): Y = β 1 + β 2 X + μ Y=β_1+β_2X+μ Y=β1+β2X+μ 模型设置错误会产生选择性偏误 |
4 | 获得数据 | 自然科学来自于实验、社会科学来自于非实验 |
5 | 模型的估计 | 运用统计回归分析方法 |
6 | 模型的检验 | 统计学检验:拟合优度、显著性 计量经济学检验:误差项的正态性 、序列相关,异方差,多重共线性等 预测检验:主要是检验参数估计量的稳定性以及对样本容量变化时的灵敏度,即所谓超样本特性。 |
7 | 预测或预报 | 结构分析,经济预测,政策评价,检验与发展经济理论 |
8 | 利用模型做出决策 | 根据结果给定建议或方案 |
(1) 总体回归函数 (又叫条件期望函数)
E ( E( E(Y| X i ) = f ( X i ) X_i)=f(X_i) Xi)=f(Xi)
表示,给定 X i X_i Xi的条件下,总体Y的均值与 X i X_i Xi存在着某种函数关系f()。
该函数关系f()的形式是一个重要问题,一般依照某种理论假设或实际经验等给出。
(2) 当f()为一元线性假设时,总体回归函数如下:
E ( E( E(Y| X i ) = β 0 + β 1 X X_i)=β_0+β_1X Xi)=β0+β1X
β 0 、 β 1 β_0、β_1 β0、β1分别是线性函数的截距、斜率,统称回归系数。
(3) 对于线性的解释
线性举例 | 非线性举例 | |
---|---|---|
对变量为线性 | Y = β 0 + β 1 X Y=β_0+β_1X Y=β0+β1X | Y = β 0 + β 1 X 2 Y=β_0+β_1X^2 Y=β0+β1X2 |
对参数为线性 | Y = β 0 + β 1 X Y=β_0+β_1X Y=β0+β1X | Y = β 0 + β 1 2 X Y=β_0+β_1^2X Y=β0+β12X |
两种解释中,我们定义所讨论的“线性回归模型”中的“线性”是指的针对于参数为线性,即回归系数为一次方出现的模型,因此对于解释变量X为非线性、可多次方出现的情况,即后续要讨论的广义线性模型。
(4) 误差项
我们可以得到,样本值与总体回归函数的差值
u i = Y i − E ( u_i = Y_i -E( ui=Yi−E(Y| X i ) = Y i − ( β 0 + β 1 X ) X_i)=Y_i -(β_0+β_1X) Xi)=Yi−(β0+β1X)
则
Y i = E ( Y_i = E( Yi=E(Y| X i ) + u i = β 0 + β 1 X + u i X_i) + u_i =β_0+β_1X+u_i Xi)+ui=β0+β1X+ui
如何理解上述方程?
将其理解为两个组成部分
把等式两边取条件期望
Y i = E ( Y_i = E( Yi=E(Y| X i ) + u i X_i) + u_i Xi)+ui
E ( Y i ∣ X i ) = E ( E ( E(Y_i|X_i) = E(E( E(Yi∣Xi)=E(E(Y| X i ) ) + E ( u i ∣ X i ) X_i)) + E(u_i|X_i) Xi))+E(ui∣Xi)
E ( Y i ∣ X i ) = E ( E(Y_i|X_i) = E( E(Yi∣Xi)=E(Y| X i ) + E ( u i ∣ X i ) X_i) + E(u_i|X_i) Xi)+E(ui∣Xi)
令
E ( Y i ∣ X i ) = E ( E(Y_i|X_i) = E( E(Yi∣Xi)=E(Y| X i ) X_i) Xi)
则
E ( u i ∣ X i ) = 0 E(u_i|X_i)=0 E(ui∣Xi)=0
如果想让回归函数对应的回归曲线穿过Y的条件期望,则随机扰动项,即误差项的条件均值为零。
通过样本数据,样本回归模型的结果如下:
Y ^ = β 0 ^ + β 1 ^ X i \hat{Y}=\hat{β_0}+\hat{β_1}X_i Y^=β0^+β1^Xi
加入随机形式的表达如下:
Y = β 0 ^ + β 1 ^ X i + u i ^ Y=\hat{β_0}+\hat{β_1}X_i+\hat{u_i} Y=β0^+β1^Xi+ui^
所以,我们能够得到
β 0 ^ \hat{β_0} β0^是 β 0 β_0 β0的估计量
β 1 ^ \hat{β_1} β1^是 β 1 β_1 β1的估计量
μ i ^ \hat{μ_i} μi^是 μ i μ_i μi的估计量,表示样本与总体的差异
每次总体抽样的结果不一样,得到的样本回归函数也不同,那如何能够让样本回归函数尽可能的趋近于总体回归函数呢?接下来我们研究模型的参数估计。
最经典的线性回归模型的估计方法是普通最小二乘(Ordinary Least Squares, OLS)估计方法,除此之外还有极大似然(Maximum Likelihood)估计方法,对于一般线性回归模型,二者得到的结果是相同的。
根据之前的说明,我们知道,当用样本来估计总体时,将产生误差项
由
Y i = Y i ^ + μ i ^ = β 0 ^ + β 1 ^ X i + μ i ^ Y_i = \hat{Y_i} +\hat{μ_i} =\hat{β_0}+\hat{β_1}X_i+\hat{μ_i} Yi=Yi^+μi^=β0^+β1^Xi+μi^
得
μ i ^ = Y i − Y i ^ = Y i − β 0 ^ − β 1 ^ X i \hat{μ_i} = Y_i - \hat{Y_i} =Y_i-\hat{β_0}-\hat{β_1}X_i μi^=Yi−Yi^=Yi−β0^−β1^Xi
OLS的思想即是求得回归参数的估计量,使得 ∑ μ ^ i 2 \sum{\hat{μ}^2_i} ∑μ^i2最小,即
目标函数最小
O = ∑ μ ^ i 2 = ∑ ( Y i − β 0 ^ − β 1 ^ X i ) 2 \sum{\hat{μ}^2_i}=\sum(Y_i-\hat{β_0}-\hat{β_1}X_i)^2 ∑μ^i2=∑(Yi−β0^−β1^Xi)2
求目标函数极小值的过程:
即
∑ Y i − n β 0 ^ − β 1 ^ ∑ X i = 0 \sum Y_i-n\hat{β_0}- \hat{β_1}\sum X_i=0 ∑Yi−nβ0^−β1^∑Xi=0……………………………………等式1
∑ X i Y i − β 0 ^ ∑ X i − β 1 ^ ∑ X i 2 = 0 \sum X_iY_i-\hat{β_0}\sum X_i-\hat{β_1}\sum X_i^2=0 ∑XiYi−β0^∑Xi−β1^∑Xi2=0……………………………等式2
等式1,同时除n变换
则
∑ Y i / n − β 0 ^ − β 1 ^ ∑ X i / n = 0 \sum Y_i/n-\hat{β_0}- \hat{β_1}\sum X_i/n=0 ∑Yi/n−β0^−β1^∑Xi/n=0
y ‾ − β 0 ^ − β 1 ^ x ‾ = 0 \overline{y}-\hat{β_0}-\hat{β_1}\overline{x}=0 y−β0^−β1^x=0
(其中, y ‾ = ∑ Y i / n , x ‾ = ∑ X i / n \overline{y}=\sum Y_i/n,\overline{x}=\sum X_i/n y=∑Yi/n,x=∑Xi/n)
得
将 β 0 ^ \hat{β_0} β0^代入到等式2,
得
∑ X i Y i − ( y ‾ − β 1 ^ x ‾ ) ∑ X i − β 1 ^ ∑ X i 2 = 0 \sum X_iY_i-(\overline{y}-\hat{β_1}\overline{x})\sum X_i-\hat{β_1}\sum X_i^2=0 ∑XiYi−(y−β1^x)∑Xi−β1^∑Xi2=0
∑ X i Y i − y ‾ ∑ X i + β 1 ^ x ‾ ∑ X i − β 1 ^ ∑ X i 2 = 0 \sum X_iY_i-\overline{y}\sum X_i+\hat{β_1}\overline{x}\sum X_i-\hat{β_1}\sum X_i^2=0 ∑XiYi−y∑Xi+β1^x∑Xi−β1^∑Xi2=0
∑ X i Y i − y ‾ ∑ X i = β 1 ^ ( ∑ X i 2 − x ‾ ∑ X i ) \sum X_iY_i-\overline{y}\sum X_i=\hat{β_1}(\sum X_i^2-\overline{x}\sum X_i) ∑XiYi−y∑Xi=β1^(∑Xi2−x∑Xi)
β 1 ^ = ∑ X i Y i − y ‾ ∑ X i ∑ X i 2 − x ‾ ∑ X i = ∑ ( X i Y i − y ‾ X i ) ∑ ( X i 2 − x ‾ X i ) = ∑ ( X i Y i − y ‾ X i − x ‾ Y i + x ‾ Y i ) ∑ ( X i 2 − 2 x ‾ X i + x ‾ X i ) \hat{β_1}=\frac{\sum X_iY_i-\overline{y}\sum X_i}{\sum X_i^2-\overline{x}\sum X_i}=\frac{\sum (X_iY_i-\overline yX_i)}{\sum (X_i^2-\overline xX_i)}=\frac{\sum (X_iY_i-\overline yX_i-\overline xY_i+\overline xY_i)}{\sum (X_i^2-2\overline xX_i+\overline xX_i)} β1^=∑Xi2−x∑Xi∑XiYi−y∑Xi=∑(Xi2−xXi)∑(XiYi−yXi)=∑(Xi2−2xXi+xXi)∑(XiYi−yXi−xYi+xYi)
因为
∑ x ‾ Y i = x ‾ ∑ Y i = n x y ‾ = ∑ x y ‾ \sum\overline xY_i=\overline x\sum Y_i=n\overline{xy}=\sum \overline{xy} ∑xYi=x∑Yi=nxy=∑xy
同理
∑ x ‾ X i = x ‾ ∑ X i = n x ‾ 2 = ∑ x ‾ 2 \sum\overline xX_i=\overline x\sum X_i=n\overline{x}^2=\sum \overline{x}^2 ∑xXi=x∑Xi=nx2=∑x2
所以
另外根据等式2,得
∑ μ i ^ X i = ( Y i − β 0 − β 1 X 1 ) X i = 0 \sum\hat{μ_i}X_i=(Y_i -β_0-β_1X_1)X_i=0 ∑μi^Xi=(Yi−β0−β1X1)Xi=0……………………………等式3
c o v ( X i , μ i ^ ) = E ( X i − E ( x ) ) ( μ i ^ − E ( μ ) ) = E ( X i μ ^ i ) − E ( X i ) E ( μ ^ i ) cov(X_i,\hat{μ_i})=E(X_i-E(x))(\hat{μ_i}-E(μ))=E(X_i\hat μ_i)-E(X_i)E(\hat μ_i) cov(Xi,μi^)=E(Xi−E(x))(μi^−E(μ))=E(Xiμ^i)−E(Xi)E(μ^i)
因为 E ( μ ^ i ) = 0 E(\hat μ_i)=0 E(μ^i)=0,所以
c o v ( X i , μ i ^ ) = E ( X i μ ^ i ) = ∑ μ i ^ X i n = 0 cov(X_i,\hat{μ_i})=E(X_i\hat μ_i)=\frac{\sum\hat{μ_i}X_i}{n}=0 cov(Xi,μi^)=E(Xiμ^i)=n∑μi^Xi=0
即,残差 μ ^ \hat{μ} μ^与 X i X_i Xi不相关
假设 | 假设说明 | 解释 | |
---|---|---|---|
解释变量假设 | 确定性假设 | X是固定值、非随机变量 | 保证模型可建的基本假设-因为模型是条件期望即条件回归 |
非完全共线性假设 | 共线性导致解释变量冗余 | 完全共线性导致求解不唯一,部分共线性导致求解不稳定 | |
与残差不相关 | c o v ( X i , μ i ) = 0 或 E ( X i ∗ μ i ) = 0 cov(X_i,μ_i)=0 或 E(X_i*μ_i)=0 cov(Xi,μi)=0或E(Xi∗μi)=0 | 由OLS估计,残差平方和对参数 β 1 β_1 β1求偏导数为零求得 |
假设 | 假设说明 | 解释 | |
---|---|---|---|
随机残差项假设 | 零均值假设 | E( μ i μ_i μi| X i X_i Xi)=0 | 带有截距项的OLS估计中可推导出 |
同方差假设 | var( μ i μ_i μi| X i X_i Xi)= σ 2 σ^2 σ2 | 如果残差同方差成立,则var( y i y_i yi| X i X_i Xi)= σ 2 σ^2 σ2也成立 | |
序列不相关 | var( μ i , μ j μ_i, μ_j μi,μj| X i , X j X_i, X_j Xi,Xj)=0, i≠j | ||
正态性假设 | μ i μ_i μi~ N ( 0 , σ 2 ) N(0,σ^2) N(0,σ2) | 参数估计时不需要正态性假设,估计量推断时需要 |
我们已知
β 1 ^ = ∑ ( X i − x ‾ ) ( Y i − y ‾ ) ∑ ( X i − x ‾ ) 2 \hat{β_1}=\frac{\sum (X_i-\overline x)(Y_i-\overline y)}{\sum(X_i-\overline x)^2} β1^=∑(Xi−x)2∑(Xi−x)(Yi−y), β 0 ^ = y ‾ − β 1 ^ x ‾ = 0 \hat{β_0} =\overline{y}-\hat{β_1}\overline{x}=0 β0^=y−β1^x=0
如果对总体数据进行中心化处理,即 x i = X i − x ‾ , y i = Y i − y ‾ x_i = X_i-\overline x, y_i = Y_i-\overline y xi=Xi−x,yi=Yi−y,则
β 1 ^ = ∑ x i y i ∑ x i 2 \hat{β_1}=\frac{\sum x_iy_i}{\sum x_i^2} β1^=∑xi2∑xiyi
由于X是固定变量, 令 k i = x i ∑ x i 2 令k_i=\frac{x_i}{\sum x_i^2} 令ki=∑xi2xi,则
又因为数据做了中心化处理,所以 ∑ x i = 0 , 所 以 ∑ k i = 0 \sum x_i=0,所以\sum k_i=0 ∑xi=0,所以∑ki=0,则
β 1 ^ = β 0 ∑ k i + ∑ β 1 k i x i + ∑ k i μ i = β 1 ∑ k i x i + ∑ k i μ i \hat{β_1}=β_0\sum k_i+\sum β_1k_ix_i+ \sum k_iμ_i=β_1\sum k_ix_i+ \sum k_iμ_i β1^=β0∑ki+∑β1kixi+∑kiμi=β1∑kixi+∑kiμi
β 1 ^ = β 1 + ∑ k i μ i \hat{β_1}=β_1+\sum k_iμ_i β1^=β1+∑kiμi
E ( β 1 ^ ) = E ( β 1 + ∑ k i μ i ) = E ( β 1 ) + E ( ∑ k i μ i ) = E ( β 1 ) + ∑ k i E ( μ i ) E(\hat{β_1})=E(β_1+\sum k_iμ_i)=E(β_1)+E(\sum k_iμ_i)=E(β_1)+\sum k_iE(μ_i) E(β1^)=E(β1+∑kiμi)=E(β1)+E(∑kiμi)=E(β1)+∑kiE(μi)
v a r ( β 1 ^ ) = E ( β 1 ^ − E ( β 1 ^ ) ) 2 = E ( β 1 ^ − β 1 ) ) 2 = E ( ∑ k i μ i ) 2 var(\hat{β_1})=E(\hat{β_1}-E(\hat{β_1}))^2=E(\hat{β_1}-β_1))^2=E(\sum k_iμ_i)^2 var(β1^)=E(β1^−E(β1^))2=E(β1^−β1))2=E(∑kiμi)2
因为假设残差不自相关 E ( μ i , μ j ) = 0 E(μ_i,μ_j)=0 E(μi,μj)=0,所以展开平方公式,得
v a r ( β 1 ^ ) = E ( k 1 2 μ 1 2 + k 2 2 μ 2 2 + . . . + k n 2 μ n 2 ) = σ 2 ∑ k i 2 var(\hat{β_1})=E(k_1^2μ_1^2+k_2^2μ_2^2+...+k_n^2μ_n^2)=σ^2\sum k_i^2 var(β1^)=E(k12μ12+k22μ22+...+kn2μn2)=σ2∑ki2
在上述给定的经典线性回归模型的假定下,OLS的估计量是BLUE的,即最佳线性无偏估计量(best linear unbiased estimatior,BLUE):
除上述假设外,若残差项再服从独立且正态分布 N I D ( 0 , σ 2 ) NID(0,σ^2) NID(0,σ2)假设,则我们可以通过ML进行估计。
ML估计的残差方差是有偏的,但是在大样本的情况下,趋于一致性。
所以ML又叫大样本方法,并且ML除了线性模型,也可以对非线性模型进行估值。
Y = Y ^ + μ = E ( Y ∣ X ) + μ = β ^ 0 + β ^ 1 X + μ Y =\hat Y + μ=E(Y|X)+μ=\hat β_0+\hat β_1X+μ Y=Y^+μ=E(Y∣X)+μ=β^0+β^1X+μ
若 μ μ μ~ N I D ( 0 , σ μ 2 ) NID(0,σ_μ^2) NID(0,σμ2),
有 μ μ μ的线性组合服从的分布不变,
且又有残差有零均值假设E(μ|X)=0,则
E ( Y ∣ X ) = E ( Y ∣ X ) + E ( μ ∣ X ) = E ( Y ∣ X ) = β ^ 0 + β ^ 1 X E(Y|X)=E(Y|X)+E(μ|X)=E(Y|X)=\hat β_0+\hat β_1X E(Y∣X)=E(Y∣X)+E(μ∣X)=E(Y∣X)=β^0+β^1X
因为 Y ^ \hat Y Y^是回归得到的固定值,非随机变量
v a r ( Y ) = v a r ( Y ^ + μ ) = v a r ( μ ) = σ μ 2 var(Y)=var(\hat Y + μ)=var(μ)=σ_μ^2 var(Y)=var(Y^+μ)=var(μ)=σμ2
所以, Y Y Y~ N I D ( β ^ 0 + β ^ 1 X , σ μ 2 ) NID(\hat β_0+\hat β_1X, σ_μ^2) NID(β^0+β^1X,σμ2)
得到 y i y_i yi的概率密度
P ( y i ) = 1 σ 2 π e x p ( − 1 2 σ 2 ( y i − β ^ 0 − β ^ 1 x i ) 2 ) P(y_i)=\frac{1}{σ\sqrt 2π}exp(-\frac{1}{2σ^2}(y_i - \hat β_0-\hat β_1x_i)^2) P(yi)=σ2π1exp(−2σ21(yi−β^0−β^1xi)2)
定义目标函数L
L ( β ^ 0 , β ^ , σ 2 ) = P ( y 1 ) ⋅ P ( y 2 ) . . . ⋅ P ( y n ) = 1 ( σ 2 π ) n e x p ( − 1 2 σ 2 ∑ i = 1 i = n ( y i − β ^ 0 − β ^ 1 x i ) 2 ) L(\hat β_0,\hat β,σ^2)=P(y_1)·P(y_2)...·P(y_n)=\frac{1}{(σ\sqrt 2π)^n}exp(-\frac{1}{2σ^2}\sum_{i=1}^{i=n}(y_i - \hat β_0-\hat β_1x_i)^2) L(β^0,β^,σ2)=P(y1)⋅P(y2)...⋅P(yn)=(σ2π)n1exp(−2σ21∑i=1i=n(yi−β^0−β^1xi)2)
L ∗ = l n ( L ) = − n l n ( σ 2 π ) − 1 2 σ 2 ∑ i = 1 i = n ( y i − β ^ 0 − β ^ 1 x i ) 2 L^*=ln(L)=-nln(σ\sqrt 2π)-\frac{1}{2σ^2}\sum_{i=1}^{i=n}(y_i - \hat β_0-\hat β_1x_i)^2 L∗=ln(L)=−nln(σ2π)−2σ21∑i=1i=n(yi−β^0−β^1xi)2
对 L ∗ L^* L∗求极大值,即是等价于对 ∑ i = 1 i = n ( y i − β ^ 0 − β ^ 1 x i ) 2 \sum_{i=1}^{i=n}(y_i - \hat β_0-\hat β_1x_i)^2 ∑i=1i=n(yi−β^0−β^1xi)2求极小值,等价于OLS的目标函数
因为目标函数一致,所以求得的参数一致。
由回归方程
Y i = β 0 ^ + β 1 ^ X i + μ ^ i Y_i=\hat{β_0} + \hat{β_1}X_i+\hat μ_i Yi=β0^+β1^Xi+μ^i
代入均值,我们可得
Y ‾ i = β 0 ^ + β 1 ^ X ‾ i \overline Y_i=\hat{β_0} + \hat{β_1}\overline X_i Yi=β0^+β1^Xi
两式相减,得
Y i − Y ‾ i = β 1 ^ ( X i − X ‾ ) + μ ^ i Y_i-\overline Y_i=\hat{β_1}(X_i-\overline X)+\hat μ_i Yi−Yi=β1^(Xi−X)+μ^i
总平方和为
∑ ( Y i − Y ‾ i ) 2 = ∑ [ β 1 ^ ( X i − X ‾ ) + μ ^ i ] 2 = ∑ β 1 ^ 2 ( X i − X ‾ ) 2 + ∑ μ ^ i 2 + 2 β 1 ^ ∑ μ ^ i ( X i − X ‾ ) \sum (Y_i-\overline Y_i)^2=\sum[\hat{β_1}(X_i-\overline X)+\hat μ_i]^2=\sum\hat{β_1}^2(X_i-\overline X)^2+\sum \hat μ_i^2+2\hat{β_1}\sum \hat μ_i(X_i-\overline X) ∑(Yi−Yi)2=∑[β1^(Xi−X)+μ^i]2=∑β1^2(Xi−X)2+∑μ^i2+2β1^∑μ^i(Xi−X)
由于等式3,知
∑ μ ^ i X i = 0 \sum\hat μ_iX_i=0 ∑μ^iXi=0, ∑ μ ^ i = 0 \sum\hat μ_i=0 ∑μ^i=0
所以, 2 β 1 ^ ∑ μ ^ i ( X i − X ‾ ) = ∑ μ ^ i ⋅ 2 β 1 ^ ( X i − X ‾ ) = 0 2\hat{β_1}\sum \hat μ_i(X_i-\overline X)=\sum \hat μ_i·2\hat{β_1}(X_i-\overline X)=0 2β1^∑μ^i(Xi−X)=∑μ^i⋅2β1^(Xi−X)=0
总平方和为
∑ ( Y i − Y ‾ i ) 2 = ∑ β 1 ^ 2 ( X i − X ‾ ) 2 + ∑ μ ^ i 2 = ∑ ( Y ^ i − Y ‾ ) 2 + ∑ μ ^ i 2 \sum (Y_i-\overline Y_i)^2=\sum\hat{β_1}^2(X_i-\overline X)^2+\sum \hat μ_i^2= \sum (\hat Y_i-\overline Y)^2+\sum \hat μ_i^2 ∑(Yi−Yi)2=∑β1^2(Xi−X)2+∑μ^i2=∑(Y^i−Y)2+∑μ^i2
即
总平方和(TSS) = 回归平方和(ESS) + 残差平方和(RSS)
我们定义拟合优度(又叫判定系数)为:
R 2 = E S S T S S = 1 − R S S T S S = 1 − ∑ μ 2 ∑ ( Y i − Y ‾ i ) 2 R^2 =\frac{ESS}{TSS}=1-\frac{RSS}{TSS}=1-\frac{\sum μ^2}{\sum (Y_i-\overline Y_i)^2} R2=TSSESS=1−TSSRSS=1−∑(Yi−Yi)2∑μ2
因为 β 1 = ∑ ( X i − x ‾ ) ( Y i − y ‾ ) ∑ ( X i − x ‾ ) 2 β_1=\frac{\sum (X_i-\overline x)(Y_i-\overline y)}{\sum(X_i-\overline x)^2} β1=∑(Xi−x)2∑(Xi−x)(Yi−y),代入得
R 2 = E S S T S S = ∑ β 1 ^ 2 ( X i − X ‾ ) 2 ∑ ( Y i − Y ‾ i ) 2 = ∑ ( X i − x ‾ ) 2 ( Y i − y ‾ ) 2 ∑ ( X i − X ‾ ) 2 ∑ ( Y i − Y ‾ i ) 2 = [ c o v ( X i , Y i ) ] 2 σ x 2 σ y 2 R^2 =\frac{ESS}{TSS}=\frac{\sum\hat{β_1}^2(X_i-\overline X)^2}{\sum (Y_i-\overline Y_i)^2}=\frac{\sum (X_i-\overline x)^2(Y_i-\overline y)^2}{\sum(X_i-\overline X)^2\sum (Y_i-\overline Y_i)^2}=\frac{[cov(X_i,Y_i)]^2}{σ_x^2σ_y^2} R2=TSSESS=∑(Yi−Yi)2∑β1^2(Xi−X)2=∑(Xi−X)2∑(Yi−Yi)2∑(Xi−x)2(Yi−y)2=σx2σy2[cov(Xi,Yi)]2
所以, R 2 = p e r s o n 相 关 系 数 的 平 方 R^2=person相关系数的平方 R2=person相关系数的平方
∑ ( Y i − Y ‾ i ) 2 = ∑ ( Y ^ i − Y ‾ ) 2 + ∑ μ ^ i 2 + ∑ μ ^ i ⋅ 2 β 1 ^ ( X i − X ‾ ) \sum (Y_i-\overline Y_i)^2= \sum (\hat Y_i-\overline Y)^2+\sum \hat μ_i^2+\sum \hat μ_i·2\hat{β_1}(X_i-\overline X) ∑(Yi−Yi)2=∑(Y^i−Y)2+∑μ^i2+∑μ^i⋅2β1^(Xi−X)
即过原点的回归模型来说,拟合优度 R 2 R^2 R2并不保证非负数。
我们假定残差项:正态且独立分布,即μ~ N I D ( 0 , σ 2 ) NID(0,σ^2) NID(0,σ2)
理由如下:
对于方程来说,如果变量的参数都是零,则说明方程是无效的。
为了验证方程的显著性,我们通过对总体平方和的分解,来构造方差分析中的F统计量。
由
∑ ( Y i − Y ‾ i ) 2 = ∑ β 1 ^ 2 ( X i − X ‾ ) 2 + ∑ μ ^ i 2 = ∑ ( Y ^ i − Y ‾ ) 2 + ∑ μ ^ i 2 \sum (Y_i-\overline Y_i)^2=\sum\hat{β_1}^2(X_i-\overline X)^2+\sum \hat μ_i^2= \sum (\hat Y_i-\overline Y)^2+\sum \hat μ_i^2 ∑(Yi−Yi)2=∑β1^2(Xi−X)2+∑μ^i2=∑(Y^i−Y)2+∑μ^i2
知
总平方和(TSS) = 回归平方和(ESS) + 残差平方和(RSS)
平方和 | 自由度 | 均方 | F统计量 | |
---|---|---|---|---|
回归平方和 | ESS | k | E S S k \frac {ESS}{k} kESS | F = E S S / k R S S / ( n − k − 1 ) F=\frac{ESS/k}{RSS/(n-k-1)} F=RSS/(n−k−1)ESS/k~F(k,n-k-1) |
残差平方和 | RSS | n-k-1 | R S S n − k − 1 \frac {RSS}{n-k-1} n−k−1RSS | |
总平方和 | TSS | n-1 |
原假设 H 0 : β 1 = . . . = β k = 0 ( 注 意 : 截 距 项 β 0 不 再 此 假 设 中 , 因 为 E S S 的 表 达 式 中 没 有 β 0 ) H_0: β_1 = ...=β_k=0 (注意:截距项β_0不再此假设中,因为ESS的表达式中没有β_0) H0:β1=...=βk=0(注意:截距项β0不再此假设中,因为ESS的表达式中没有β0)
备择假设 H 1 : 不 全 为 0 H_1: 不全为 0 H1:不全为0
由于F统计量可以写成拟合优度的表达式: F = ( 1 − R 2 ) / k R 2 / ( n − k − 1 ) F=\frac {(1-R^2)/k}{R^2/(n-k-1)} F=R2/(n−k−1)(1−R2)/k
所以,F检验实际上也是对拟合优度 R 2 R^2 R2的显著性检验
对每个变量进行显著性判断,通过构造t统计量进行推断
t = β i ^ − β i S β ^ i t = \frac {\hat{β_i}-β_i}{S_{\hat β_i}} t=Sβ^iβi^−βi
原假设 H 0 : β i = 0 H_0:β_i = 0 H0:βi=0
备择假设 H 1 : β i ≠ 0 H_1:β_i ≠ 0 H1:βi̸=0
对于多元线性回归模型来说,假设、求解、显著性检验的推断过程和逻辑是一致的。
值得注意的是,对于多元回归模型,拟合优度需要修正:
随着解释变量的增加,拟合优度会至少不会变差,那么真的是越多的变量越好吗?
The Answer Is No
调整后的拟合优度:
R ‾ 2 = 1 − ( 1 − R 2 ) n − 1 n − k \overline{R}^2=1- (1-R^2)\frac{n-1}{n-k} R2=1−(1−R2)n−kn−1
k为包括截距项的估计参数的个数
参考:
1,计量经济学基础,古扎拉蒂