统计学--基于R(第3版)(基于R应用的统计学丛书)作者:贾俊平 习题答案 第十章

10.1

#10.1
load("C:/exercise/ch10/exercise10_1.RData")
exercise10_1
#(1)用电视广告费用和报纸广告费用作自变量,建立估计的回归方程,并说明回归系数的意义。
#回归模型的拟合
model1<-lm(月销售收入~电视广告费用+报纸广告费用,data=exercise10_1)
summary(model1)
#计算回归系数的置信区间
confint(model1,level=0.95)
#输出方差分析表
anova(model1)
#β^1=2.2902表示,在报纸广告费用不变的条件下,电视广告费用每变动1万元,月销售收入平均变动2.2902万元
#β^2=1.3010表示,在电视广告费用不变的条件下,报纸广告费用每变动1万元,月销售收入平均变动1.3010万元
#y^=832.3009+2.2902x1+1.3010x2
#(2)对回归模型做综合评估######################
#绘制残差图诊断模型
par(mfrow=c(1,2),mai=c(0.8,0.8,0.4,0.1),cex=0.8,cex.main=0.7)
plot(model1,which=1:2)
#(3)给定电视广告费用为30万元,报纸广告费用为20万元,求月销量收入95%的置信区间和预测区间
#计算置信区间和预测区间
model2<-lm(月销售收入~电视广告费用+报纸广告费用,data=exercise10_1)
x<-exercise10_1[,c(2,3)]
pre<-predict(model2)
res<-residuals(model2)
zre<-rstandard(model2)
con_int<-predict(model2,x,interval="confidence",level=0.95)
pre_int<-predict(model2,x,interval="prediction",level=0.95)
mysummary<-data.frame(月销售收入=exercise10_1$月销售收入,点预测值=pre,残差=res,标准化残差=zre,置信下限=con_int[,2],置信上限=con_int[,3],预测下限=pre_int[,2],预测上限=pre_int[,3])
round(mysummary,3)

10.2

#10.2
load("C:/exercise/ch10/exercise10_2.RData")
exercise10_2
#(1)建立早稻收获量对春季降雨量和春季温度的二元线性回归方程,并对回归模型的线性关系和回归系数进行检验(α=0.05),你认为模型中是否存在多重共线性?
#回归模型的拟合
model1<-lm(收获量~降雨量+温度,data=exercise10_2)
summary(model1)
#计算回归系数的置信区间
confint(model1,level=0.95)
#输出方差分析表
anova(model1)
#y^= -1402.707516-4.268921x1+53.364699x2
#绘制残差图诊断模型
par(mfrow=c(1,2),mai=c(0.8,0.8,0.4,0.1),cex=0.8,cex.main=0.7)
plot(model1,which=1:2)
#如图可对去掉第1,3,6三个点后进行回归及诊断
#线性系数及回归系数检验分析可见课本277页相关内容
#多重共线性的识别和处理
#自变量之间的相关系数及其检验
library(psych)
corr.test(exercise10_2[2:3],use="complete")
#计算容忍度和VIF
library(car)
vif(model1)#vif
1/vif(model1)#容忍度
#容忍度均小于0.1,vif均大于10,认为存在严重共线性
#(2)比较降雨量和温度在预测收获量中的相对重要性
library(lm.beta)
model.beta<-lm.beta(model1)
summary(model.beta)
#按标准化回归系数的绝对值大小排序,0.5896>0.4146,温度是预测收获量的最重要的变量

10.3

#10.3
load("C:/exercise/ch10/exercise10_3.RData")
exercise10_3
#(1)用不良贷款作因变量,建立多元线性回归方程
#回归模型的拟合
model1<-lm(不良贷款~贷款余额+应收贷款+贷款项目个数+固定资产投资,data=exercise10_3)
summary(model1)
#y^=-1.02164+0.04004x1+0.14803x2+0.01453x3-0.02919x4
#(2)分析模型中是否存在共线性
#自变量之间的相关系数及其检验
library(psych)
corr.test(exercise10_3[2:5],use="complete")
#观测结果可得是否存在
#计算容忍度和VIF
library(car)
vif(model1)
1/vif(model1)#容忍度
#由以上结果可见,容忍度均大于0.1,VIF均小于10,说明该回归模型共线性不严重
#(3)用逐步回归方法建立回归模型
#变量选择
model2<-step(model1)
#拟合逐步回归模型
model2<-lm(不良贷款~贷款余额+应收贷款+固定资产投资,data=exercise10_3)
summary(model2)
#逐步回归的方差分析表
anova(model2)
#y^=-0.971605+0.041039x1+0.148858x2-0.028502x4
#(4)比较4个自变量在不良贷款中的相对重要性
library(lm.beta)
model1.beta<-lm.beta(model1)
summary(model1.beta)
#β1=0.89131,β2=0.25982,β3=0.03447,β4=-0.32492
#按标准化回归系数绝对值大小排序,可见重要性按贷款余额、固定资产投资、应收贷款、贷款项目个数顺序依次降低
#(5)用anova和AIC两种方法对模型进行比较和分析
model1<-lm(不良贷款~贷款余额+应收贷款+贷款项目个数+固定资产投资,data=exercise10_3)
model2<-lm(不良贷款~贷款余额+应收贷款+固定资产投资,data=exercise10_3)
anova(model2,model1)
#p=0.8629,不拒绝H0(x3不会对y的预测提供信息),没证据表明两个模型由显著差异,从回归模型的简约原则看,选择逐步回归模型
AIC(model2,model1)
#逐步回归模型的AIC更小,说明它比包含4个自变量的模型更好

10.4

#10.4
load("C:/exercise/ch10/exercise10_4.RData")
exercise10_4
#(1)建立月薪与工龄的一元回归模型
model_s<-lm(月薪~工龄,data=exercise10_4)
summary(model_s)
#方差分析表
anova(model_s)
#y^=5249.7+327.2x1
#(2)建立月薪与工龄和性别的二元回归模型
model_dummy<-lm(月薪~工龄+性别,data=exercise10_4)
summary(model_dummy)
#方差分析表
anova(model_dummy)
#y^=6190.74+111.22x1-458.68x2
#(3)对两个模型进行比较,看看引入性别这一哑变量对预测月薪是否有用
anova(model_s,model_dummy)
AIC(model_s,model_dummy)
#由于p=1.823e-06,拒绝H0,表示两个模型有显著差异,而且model_dummy的AIC较小,这意味着引入性别这一哑变量对预测月薪效果有显著影响

你可能感兴趣的:(r语言,大数据)