《统计学基于R》:第九章 一元线性回归

文章目录

    • 9.1 确定变量间的关系
      • 9.1.1 变量间的关系
      • 9.1.2 相关关系的描述
      • 9.1.3 关系强度的度量
    • 9.2 模型估计和检验
      • 9.2.1 回归模型与回归方程
      • 9.2.2 参数的最小二乘估计
      • 9.2.3 模型拟合优度
      • 9.2.4 模型显著性检验
    • 9.3 利用回归方程进行预测
    • 9.4 回归模型的模型诊断

《统计学基于R》:第九章 一元线性回归_第1张图片

9.1 确定变量间的关系

分析变量之间的关系需要解决下面的问题:

  • 变量之间是否存在关系
  • 如果存在,它们之间是什么样的关系
  • 变量之间的关系强度
  • 如何样本所反映的变量之间的关系能否代表总体变量之间的关系

9.1.1 变量间的关系

1、函数关系:一一对应的确定关系。

2、相关关系:一个变量的取值不能由另一个变量唯一确定。当x固定时,y取值对应一个分布。

9.1.2 相关关系的描述

散点图:可以判断两个变量之间有无相关关系,对关系形态做出大致描述。

example9_1<-read.csv(".\\data\\example\\chap09\\example9_1.csv")
library(car)
windows()
scatter(销售收入~广告支出,data=example9_1)

9.1.3 关系强度的度量

1、相关系数:度量变量之间线性关系强度的一个统计量。常用Pearson相关系数。

2、相关系数的性质

  • r 的取值范围是 [-1,1]
  • |r|越趋于1表示关系越强;|r|越趋于0表示关系越弱
  • |r|=1,为完全相关;r = 0,不存在线性相关关系
  • -1<=r<0,为负相关;0
  • 仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。
  • r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,可能有非线性关系。
  • r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。

3、相关系数的检验

​ 第一步,提出假设:H0:p=0;H1:p≠0

​ 第二步,计算检验的统计量

​ 第三步,计算P值,并于显著性水平 比较,并作出决策。若P

library(psych)
# 计算相关系数
cor(example9_1$销售收入,example9_1$广告支出)
# 检验相关系数
cor.test(example9_1$销售收入,example9_1$广告支出)

9.2 模型估计和检验

9.2.1 回归模型与回归方程

1、回归模型:描述因变量 y 如何依赖于自变量 x 和误差项的方程。

  • y 是 x 的线性函数(部分)加上误差项
  • 线性部分反映了由于 x 的变化而引起的 y 的变化
  • 误差项是随机变量,反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响,是不能由 x 和 y 之间的线性关系所解释的误差

2、误差项:满足正态性、方差齐性、独立性。

  • 由模型的假设可知,在x取某个给定值的情形下,y的变化由误差项的方差来决定。当方差较小时,y的观测值非常接近直线;当方差较大时,y的观测值将偏离直线。
  • 对任何一个给定的x值,y都服从期望值E(y) = β_0+β_1x,方差为2的正态分布,且对于不同的x具有相同方差。
example9_1<-read.csv(".\\data\\example\\chap09\\example9_1.csv")
model<-lm(销售收入~广告指出,data=example9_1)
summary(model)
# 计算回归系数的置信区间
confint(model,level=0.95)
# 输出方差分析表
anova(model)

9.2.2 参数的最小二乘估计

1、最小二乘估计:通过使因变量的观测值与估计值之间的离差平方和达到最小来估计

2、方法:略

9.2.3 模型拟合优度

1、回归模型的拟合优度:回归直线与各观测点的接近程度。

2、评价拟合优度:决定系数(R²)、残差标准误。

误差 计算
总平方和(SST) 真实值-均值的平方和
回归平方和(SSR) 预测值-均值的平方和
残差平方和(SSE) 真实值-预测值的平方和

(1)决定系数R²

  • 取值范围在 [ 0 , 1 ] 之间
  • R²—>1,说明回归方程拟合的越好; R²—>0,说明回归方程拟合的越差
  • 决定系数平方根等于相关系数r
  • 决定系数=回归平方和占总平方和的比重;R²=SSR/SST

(2)残差标准误Se

  • 残差平方和的均方根:Se=sqrt(SSE/n-k-1)

  • 度量各观测值在直线周围分散程度的一个统计量,它反映了实际观测值与回归估计z之间的差异程度

  • 也是对误差项ε的标准差σ的估计,它可以看做在排除了x对y的线性影响后,y随机波动大小的一个估计量。

  • 各观测值越靠近直线,se就越小,预测也就越准确

9.2.4 模型显著性检验

1、线性关系的F检验步骤如下:

第一步:提出假设:H0:β0=0(线性关系不显著);H1:β1≠0(线性关系显著)

第二步:计算检验统计量F=(SSR/k)/(SSE/n-k-1)

第三步:做出决策。若p

2、回归系数的检验和推断的t检验步骤如下:

第一步:提出假设:H0:β0=0(自变量对因变量的影响不显著);H1:β1≠0 (自变量对因变量的影响显著)

第二步:计算检验统计量t

第三步:做出决策:若p

9.3 利用回归方程进行预测

1、点估计:如果对于x的一个给定值x0,求出y的一个预测值。

2、均值的置信区间:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间。

3、个别值的预测区间:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间

# x=500时的点预测
x0<-data.frame(广告支出=500)
predict(model,newdata=x0)
# x=500时的置信区间
predict(model,data.frame(广告支出=500),interval="confidence",level=0.95)
# x=500时的预测区间
predict(model,data.fram(广告支出=500),interval="prediction",level=0.95)

9.4 回归模型的模型诊断

1、检验线性关系:可用F检验、残差图、成分残差图进行检验;

2、检验正态性:可用QQ图、残差图进行检验;

3、检验方差齐性:可用残差图、散布水平图进行检验;

4、检验独立性:可以采用Durbin-Watson检验来检验序列是否存在自相关性。

# 检验线性关系:成分残差图
library(car)
windows()
crPlots(model)

# 检验正态性:模型诊断的图(4个图:残差图、QQ图、看残差、看离群点)
windows()
par(mfrow=c(2,2),cex=0.8,cex.main=0.7)
plot(model)

# 检验方差齐性
library(car)
ncvTest(model)
# 绘制散布-水平图
windows()
spreadLevelPlot(model)

# 检验残差独立性
library(car)
durbinWatsonTest(model)

你可能感兴趣的:(R语言,r语言,线性回归,回归,数据挖掘,数据分析)