多元回归分析--学习笔记

回归系数解释:回多元回归情形下,对每一个回归系数的解释如下,当所有其他自变量保持不变时,bi是因变量y对应于自变量xi改变一个单位时所做的改变的估计值。

多元判定系数(R-sq):计算方法同简单线性回归,乘以100即可解释为:因变量y中的变异性能被估计多元线性回归方程解释的百分比

修正多元判定系数:多元判定系数的值总是随着新的自变量进入模型而增加,即使新增的变量在统计学上并不显著,为了修正这种影响,在计算多元判定系数时增加了自变量个数n的影响。

1 、模型假设:随机误差符合以下假设
  1. 正态分布: 误差项sigma是随机变量,服从正态分布,均值为0,因变量y也服从正态分布
R语言中用Q-QPlot图来展示:

  1. 同方差:误差的方差=y值的方差
  2. 误差独立性:误差sigma互相独立,自变量一组特定值对应的误差与自变量任意一组其他值对应的误差不相关
关于这些模型建设的验证参见简单线性回归

2 、显著性检验
在简单线性回归中我们使用的是t检验和F检验,两种检验提供的结果是相同的, 但是在多元回归的情形中,t检验和F检验的目的是不同的
  • F检验:总体的显著性检验,用于确定因变量和所有自变量之间是否存在一种显著性的关系
  • t检验:单独显著性检验,用于确定每一个单独的自变量是否显著
2 .1 总体显著性F检验
MSE提供了误差项sigma的无偏估计,在假设成立的情况下MSR也提供了sigma的无偏估计,并且sigma服从正态分布,所以MSR/MSE服从F分布。

2.2 t检验
多元回归分析--学习笔记_第1张图片
2.3 多元回归中的多重共线性
多重共线性指的是自变量之间存在线性相关关系
当F检验显示多元回归方程总体显著时,有可能对单个自变量进行t检验时不能拒绝该自变量系数为0的假设,即有可能没有一个单独参数显著不为0,这并不一定意味着该自变量对y不相关,它可能意味着由于模型里有x2,所以x1并不对y值的确定有显著的作用(x1和x2相关)。
  • R中多重共线性可用统计量VIF(Variance Inflation Factor,方差膨胀因子)进行检测。
  • car包中的vif()函数提供VIF值。一般原则下, vif >2就表明存在多重共线性问题。
3 、 因变量y的置信区间估计和预测区间估计
  • 置信区间估计:y均值的估计,用y的预测值与y平均之间的标准差得到置信区间
  • 预测区间估计:y的个别值的估计,对于特定值误差包括两部分,特定y值与y预测值之间的标准差加上y预测值与y平均的标准差,特定y值与y预测值之间的标准差的估计量由SSE,误差标准差给出
y的某个特定值的预测区间比y均值的置信区间要宽,也就是我们对平均y的预测要比对某一特定y的预测要准。
4、学生化残差(studentized deleted residuals)
多元回归分析--学习笔记_第2张图片

如果数据集中存在一个或多个异常值,那么会导致
  • 标准误差s=求和(yi-y^)^2/n-2 增大,
  • 从而使第i个残差的标准差=s*根号下(1-hi)也随之增大,(第2个公式)
  • 那么第i个观察值的标准残差=(yi-y^)/标准化残差,就会因为分母的增大而随之减小
  • 结果是残差有可能很大,由于分母较大使得标准化残差识别异常值的规则无效
学生分布删除残差:假设从数据集中删除第i个观测值,并利用其他n-1个观测值建立新的回归方程,
  • s(i)表示删除第i个观测值后所得到的标准化误差
  • 如果这个观测值为异常值那么s(i)
5 、 有影响的观测值: 包括离群点、高杠杆值点和强影响点。
库克距离:
多元回归分析--学习笔记_第3张图片

总结--公式
多元回归分析--学习笔记_第4张图片 多元回归分析--学习笔记_第5张图片

你可能感兴趣的:(统计学习方法)