python一元线性回归的显著性检验_从统计学看线性回归(2)——一元线性回归方程的显著性检验...

目 录

1. σ2的估计

2. 回归方程的显著性检验

t 检验(回归系数的检验)

F 检验(回归方程的检验)

相关系数的显著性检验

样本决定系数

三种检验的关系

一、σ2的估计

因为假设检验以及构造与回归模型有关的区间估计都需要σ2的估计量,所以先对σ2作估计。

通过残差平方和(误差平方和)

            (1)

(用到

,其中

)

又∵

                          (2)

                                                 (3)

其中

为响应变量观测值的校正平方和。残差平方和有n-2 个自由度,因为两个自由度与得到

的估计值

相关。

                                         (4)

(公式(4)在《线性回归分析导论》附录C.3有证明)

∴  σ2的无偏估计量:

                                         (5)

为残差均方,

的平方根称为回归标准误差,与响应变量y 具有相同的单位。

因为σ2取决于残差平方和, 所以任何对模型误差假设的违背或对模型形式的误设都可能严重破坏σ2的估计值

的实用性。因为

由回归模型残差算得,称σ2的估计值是模型依赖的。

二、回归方程的显著性检验

目的:检验是否真正描述了变量 y 与x之间的统计规律性。

假设:正态性假设(方便检验计算)

t 检验

用t 检验来检验回归系数的显著性。采用的假设如下:

原假设     H0 : β1 = 0   (x与y不存在线性关系)

对立假设  H1 : β1 ≠ 0

回归系数的显著性检验就是要检验自变量 x 对因变量y的影响程度是否显著。下面我们分析接受和拒绝原假设的意义。

(1)接受 H0 : β1 = 0  (x与y不存在线性关系)

此时有两种情况,一种是无论 x 取值如何,y都在一条水平线上下波动,即

,如下图1,另一种情况为,x与y之间存在关系,但不是线性关系,如图2。

图  1

图 2

(2)拒绝 H0 : β1 = 0  (x对解释y的方差是有用的)

拒绝原假设也有两种情况,一种是直线模型就是合适的,如图 3,另一种情况为存在x对y的线性影响,也可通过x的高阶多项式得到更好的结果,如图4。

图 3

图 4

接下来对其检验。

                           (6)

∴ 当H0 : β1 = 0 成立时,有:

                         (7)

在零附近波动,构造 t 统计量:

                   (8)

若原假设H0 : β1 = 0 成立,则

,计算|t|,

|t| ≥tα/2, 拒绝 H0

|t| <tα/2, 接受 H0

2.F 检验(方差分析)

F检验用于检验回归方程的显著性。

方差分析法检验回归显著性,方差分析以分割响应变量 y 的总变异性为基础。

 , 

               (9)

其中

称为观测值的校正平方和

或总称为平方和(SST: sum of squares for total,

, Lyy),其度量了观测值中总的变异性。刻画 y 的波动程度。

称为模型平方和(或回归平方和),记为SSR(R: regression),

,

。其刻画由 x 的波动引起的y波动的部分。

是残差平方和(误差平方和),记为SSE(E: error),

,

。其刻画了未加控制的因素引起 y 波动的部分。

       

         (10)

下来分析它们的自由度。因为

约束

使

丢掉了一个自由度,所以

个自由度;因为

完全由

一个参数确定,所以

个自由度;因为估计β0与β1时对离差

施加了两个约束,所以

有n-2个自由度。

∵ 自由度有可加性

                (11)

因为总平方和反映因变量 y 的波动程度或称不确定性,在建立了y对x的线性回归后,总平方和SST就分解成回归平方和SSR与残差平方和SSE这两部分,其中SSR是由回归方程确定的,也就是由自变量x的波动引起的,SSE是不能用自变量解释的波动,是由x之外的未加控制的因素引起的。这样,总平方和SST中,能够由自变量解释的部分为SSR,不能由自变量解释的部分为SSE,从而,回归平方和SSR越大,回归的效果就越好,可以据此构造F检验统计量为

                       (12)

在正态假设下,原假设H0 : β1 = 0 成立时,

,当时

,拒绝原假设。

3.相关系数的显著性检验

因为一元线性回归方程讨论的是变量 x 与变量y之间的线性关系,所以变量x与y之间的相关系数来检验回归方程的显著性。用相关系数来反应x与y的线性关系的密切程度。

x 与y的简单相关系数(Pearson 相关系数):

               (13)

r的绝对值小于等于1:|r|≤1

根据相关系数的检验表,通常当|r| 大于表中α=0.05相应的值时,认为x与y有显著的线性关系。

缺点:接近于1的程度与数据组数n有关(n较小时,相关系数的波动较大,|r|接近于1,n较大时,|r|易偏小,n 较小时,不能仅凭 r 判定 x 与 y 之间有密切的线性关系)

另外补充一点,Pearson相关系数的适用范围:

① 两个变量之间是线性关系,都是连续数据;

② 两个变量的总体是正态分布,或接近正态分布;

③ 两个变量的观测值是成对的,每对观测值之间相互独立。

4.样本决定系数

由公式(10)

可知,

越大,线性回归越好,所以定义样本决定系数r2: 回归平方和与总离差平方和之比。

               (14)

(用到

)

             (15)

其中最右边的 r2表示相关系数的平方。

决定系数 r2是一个回归直线与样本观测值拟合优度(Goodness of Fit, 指回归直线对观测值的拟合程度)的相对指标,反映了因变量的波动中能用自变量解释的比例。

0 ≤r2≤ 1,r2 越接近于 1 ,拟合优度越好。

那么r2的值比较小的时候反应了什么情况呢?

r2小的可能原因:

① 线性回归不成立,y与x是曲线关系,应用曲线回归;

② y与x之间符合线性模型,误差项方差σ2大,导致r2 小(n 很大时,线性回归显著)

在对自变量有重复观测时可以通过检验正确区分以上两种不同情况,或者用残差分析的方法。

相关系数和样本决定系数:

相关系数是建立在相关分析的理论基础上,研究两个变量 x 与y之间的线性相关关系;样本决定系数是建立在回归分析的理论基础之上,研究非随机变量x对y的解释程度。样本决定系数除掉了相关系数为0或1(|r|=1 or 0)的情况.

5.三种检验的关系

对于一元线性回归来说,回归系数显著性的 t 检验,回归方程显著性的F检验,相关系数显著性的t检验,这三种检验是等价的。相关系数显著性的t检验与回归系数显著性的t检验是完全相等的,式(12)F统计量则是这两个t统计量的平方。对于一元线性回归只需要做一种检验即可,而对于多元线性回归,这三种检验考虑的问题不同,是三种不同的检验,并不等价。

你可能感兴趣的:(python一元线性回归的显著性检验_从统计学看线性回归(2)——一元线性回归方程的显著性检验...)