文科生的统计学:线性回归模型的推断统计假设

仅供参考,仍在修改补充中,无严格数学证明,没有严谨的数学基础。是为了政策中的数据分析和为计量经济学学习做的铺垫,目的是从感觉上理解统计学概念,并用自然语言表达。

线性回归统计推断的假设
(课上的说法,其实不只有三个,而且不是这么说的。没有理解假设的概念,目前可以理解为进行统计推断的条件,在这种情况下,估计是无偏的)
最小二乘法下拟合的回归模型:
残差平方和最小
残差均值为零
拟合值是真值的期望(平均值)


::1. 线性假设::
这个其实在推断统计之前我们刚开始学回归分析的时候就有提到过,全都基于最小二乘法残差平方和最小。*残差和为零是线性模型本身的基本要求*。只有这样,模型本身的系数才是有意义的。
即给残差-拟合值图像分区,只要有一个区的均值不是零就不行
也叫模型设定假定,规定Y 的条件均值是自变量X的线性函数。可以将非线性函数转换成线性函数,比如对数变换,仍然保持最小二乘法估计值的性质。

::2. 齐方差假设::
总的来说,就是每一个对应的拟合值上的残差值的方差应该是差不多一样的。理论上,一个拟合值可以对应(无限个)多个真值。所以可以说“所有残差的方差”,每个拟合值有一群残差的。只不过是连续的,所以你会疑惑。
谢宇:“*Y的方差不随X的改变而改变,残差的方差必须一致*,如果两组样本方差不一样,那我们无法判断数据中的干扰项是不是一样的。”
同方差假定如果违背,有些估计量还是无偏的而且可以被解释,比如截距、斜率或者r方,但是不可以做统计推断。此假设也可以成为外生性假设,根本目的是为了排除自变量对残差——误差的影响。*所以如果违背此假设,RMSE不能interpret*

补充解释:
谢宇:独立同分布假定,残差相互独立,而且遵循同一分布。任何两个残差之间的(未完)
知乎:保证方差足够小
只有这样,RSE才是有意义的

::3. 正态假设::
残差频率分布服从正态分布
样本越大估计越稳健

原因一:方便建模之后的统计推断。只有符合正态假设才能更好地进行t检验,标准误才是有意义的。
如果残差是正态的,RMSE已知,那么估计回归系数的样本分布也是正态的。但是由于RMSE未知,所以将样本标准差代入后,服从自由度为n-1的t分布。是的,可以说,t分布与正态分布的区别就在于分母的不同,自由度的不同。当样本容量无限大的时候,t分布无限接近正态分布。所以,为了让t检验有意义,样本误差最好符合正态分布。

原因二:这个世界上有很多种误差,受到许多相互独立的随机因素的影响,总的影响可以看做是服从正态分布的。(据说可以证明)

::对模型假设的检验:::
::残差-拟合值图像:::
::检验线性假设:::
分区残差和(均值)为零,如果不为零就不是线性的,在某些区域就是有偏的。预测的回归不是结果的均值。模型系数本身会有偏

::检验齐方差假设:::
看看是不是异方差,如果是异方差,那就违背了。课上的说法:可以反过来观察是不是有异方差性。残差的分布是不是有明显的趋势,可能是从左到右增大,或中间小两头大。如果是这样的话就是违背了齐方差假设。

::残差直方图(或残差和正态分布的分位数Q-Qnorm图):::
用来检验残差正态性假设,直接看图像是不是正态分布就行。

::模型整体检验:::
回归方程的解释力由判定系数R方衡量,所以模型整体检验是对R方的检验,我们需要重新构造一个与R方相联系的统计量。
将MSR和MSE加以比较,用F检验来分析二者之间的差别是否显著
SSR:回归平方和,真值和平均值之差的平方和
SSE:残差平方和,真值和拟合值之差的平方和
MSR:回归均方,简单回归时只有一个自变量所以SSR的自由度为1。
MSE:残差均方 SSE/自由度,它是总体误差的方差的无偏估计。由于决定回归直线需要截距和斜率两个参数,所以其自由度是n-2
RMSE:MSE开方,是真值到回归线的平均高度
F统计量:
MSR/MSE
用MSR和MSE构建F统计量,来进行F检验。注意,这里检验的仅仅是线性关系,即使F检验不显著,他们之间也不是没有关系,可能存在其他非线性关系。
F检验过程:
根据
1. 选定的显著性水平
2. 分子自由度和分母自由度
找到相应的临界值,和计算出的F统计量作比较

::回归系数检验::
回归系数的标准误:
公式,数学证明,至于怎么推的,我目前不知道,也不太重要。

从公式可以知道(引自谢宇):
残差的标准差越大,变异越大,估计标准误也就越大,就越难准确地预测截距项。
自变量变异越大,估计标准误越小,我们能更容易地发现Y和X的关系,预测出的b1更准确。
样本量增加,估计的准确性也会增加,估计标准误越小。

由于总体中残差的方差是未知的,所以要用残差均方(MSE)(即样本的残差方差)作为其无偏估计。损失两个自由度

零假设:总体的回归系数为0
(注意:即使没能拒绝零假设,也不能说Y不受X影响)
零假设成立时,估计量b0和b1都服从自由度为n-2的t分布
(准确地说,有几个估计量就要减几个加一自由度)
 

你可能感兴趣的:(线性回归,回归,机器学习,统计学)