NO.3-描述统计分析,逐步回归等

(1)

x<-c(825,215,1070,550,480,920,1350,325,670,1215)
y<-c(3.5,1,4,2,1,3,4.5,1.5,3,5)
plot(x,y)#画散点图

(2)

cor(x,y)#x与y的相关系数
cor.test(x,y)#当p-value<0.05 ,拒绝相关系数为0的原假设

(3)

(fm1<-lm(y~x))#最小二乘方法,y=0.003585*x1+0.118129

(4)

summary(fm1)$sigma #估计标准差sigma

(5)

summary(fm1)$r.sq#决定系数

(6)

anova(fm1)#方差分析

(7)

plot(y,fm1$res,xlab="y",
ylab="残差",main="残差图");abline(h=0,lty=2,col="red")#残差图

(8)

(x0<-data.frame(x=1000))
predict(fm1,x0)#x0=1000时,需要加班时间是3.703262 小时

2(1)

d2<-read.table("clipboard",header=T)#将E4.2表单复制至剪贴板
(fm2=lm(y~x1+x2,data=d2))#多元线性回归y=0.1511*x1+1.2166x2-22.7450

(2)

summary(fm2)#多元线性回归系数t检验
plot(y~x1,data=d2,main="x1与y散点图")#从图中看出x1不与y呈线性关系
plot(y~x2,data=d2,main="x1与y散点图")#从图中看出x2不与y呈线性关系

(3)

cor(d2)#相关系数
(R2=summary(fm2)$r.sq)#显示多元线性回归模型决定系数
(R=sqrt(R2))#复相关系数

3(1)

d3<-read.table("clipboard",header=T)#将E4.3表单复制至剪贴板
colnames(d3)<-c("x1","x2","y")
head(d3)
(fm3=lm(y~.,data=d3))#多元线性回归,y=8508.8x1+181.6x2-5213.1

(2)

summary(fm3)#x2的p值=0.55,不显著
summary(fm3)$r.sq#回归模型的拟合优度R^2=0.6676533,模型拟合并不显著

(3)

x1<-3.00;x2<-24#GPA=3.00,年龄=24
predict(fm3,x1,x2)#y的预测值为24671.16

4(1)

d4<-read.table("clipboard",header=T)#将E4.4表单复制至剪贴板
cor(d4)#相关系数矩阵
pairs(d4)#矩阵散点图

(2)

(fm4=lm(y~.,data=d4))#y=3.754x1+7.101x2+12.447x3-348.280

(3)

summary(fm4)$r.sq#拟合优度R^2=0.8055077,方程拟合的比较好

(4)

summary(fm4)#x1,x3的p值大于0.05,没通过显著性检验

(5)

(fm44=lm(y~x2,data=d4))#剔除x1,x3,重新建立方程得:y=9.689x2-159.927
summary(fm44)

(6)

fm4.step=step(fm4,direction="both")#逐步回归得到最优模型,方程:y=3.754x1+7.101x2+12.447x3-348.280

你可能感兴趣的:(NO.3-描述统计分析,逐步回归等)