伍德里奇计量经济学导论之计算机操作题的R语言实现(一些重要专题)

引言

本章内容介绍了多元线性回归一些好玩且实用的专题:

  1. 改变自变量(因变量(对数自变量)当度量单位对因变量(自变量)、系数、t值、F值等的影响
  2. 自变量和因变量标准化以后B系数的解释
  3. 对数-水平模型下,B系数当精确解读以及二次模型来表明边际递增或递减当情况
  4. 调整的R方的好处以及缺点(这个倒是第一次见识)
  5. 构造估计值和预测值的一个置信区间
  6. 残差分析

本文代码和整理好的数据见这里
此篇博客开始,每一题上方都会来个小标题,表明该题涉及到当重要技术细节,以供参考。

C6.1 二次项模型的加入以及解释

data_kielmc<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/kielmc.csv',header = T)
lm_kielmc<-lm(log(Price)~log(dist),data=data_kielmc)
#预期 垃圾焚化炉离住房越远,价格越高,系数符号应为正。
summary(lm_kielmc)
#log(Price)=8.25750+0.31722 log(dist)
#距离相隔每增加百分之一,平均来说,价格变每上升0.31%
#(2)
lm_kielmc_1<-lm(log(Price)~log(dist)+log(intst)+log(area)+log(land)+rooms+baths+age,data=data_kielmc)
summary(lm_kielmc_1)
## 系数从0.31722减小到0.0281887 ,因为增加了更多了更多变量来解释价格当变化,焚化炉距离远近对价格影响效应减弱。
#(3)
lm_kielmc_2<-lm(log(Price)~log(dist)+log(intst)+log(area)+log(land)+rooms+baths+age+I((log(intst))^2),data=data_kielmc)
summary(lm_kielmc_2)
#log(Price)=-3.7907630+0.1897589log(dist)+ 1.9024997log(intst) -0.1128430I((log(intst))^2)...
#加入log(intst)的二次项以后log(intst)一次项系数变得统计显著了,二次项系数也是统计显著的。
#在此估计模型下,住房价格与离告诉公路当距离呈现倒U型关系,在刚开始时距离越大价格越大,但是到达
#一个临界点以后,这个距离是-1.9024997/(2*-0.1128430)=8.429853
#从实际生活中也可以解释,住房在刚开始离得远时,远离告诉公路带来当噪声,但是远离太多时,交通就不方便了,因此价格就下降了
#(4)
lm_kielmc_3<-lm(log(Price)~log(dist)+log(intst)+log(area)+log(land)+rooms+baths+age+I((log(intst))^2)+I((log(dist))^2),data=data_kielmc)
summary(lm_kielmc_3)
##加入以后log(dist)以及(log(dist))^2都是不显著的,并没有使模型有更好 解释效果,所以不加入为好。

C6.2二次项系数对因变量的解释

data_wage1<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/wage1.csv',header = T)
#(1)
lm_wage1<-lm(log(wage)~educ+exper+I(exper^2),data=data_wage1)
summary(lm_wage1)
#log(wage)=0.1279975+0.0903658educ+0.0410089 exper-0.0007136I(exper^2)
#Adjusted R-squared:  0.2963 n=526
#(2)
#在给定1%的显著性水平下,exper^2系数P值为1.42e-09,小于显著性水平,因此认为该项变量显著
#(3)当在第四年时
(0.0410089-2*0.0007136*4)*1*100
# 第五年的近似回报为3.53%
#当在第19年时,
(0.0410089-2*0.0007136*19)*1*100
#回报下降到1.38921%
#(4)
#求解 0.0410089-2*0.0007136*n=0
0.0410089/(2*0.0007136)
#29年以后会降低工作预期
length(which(data_wage1[,'exper']>29))#111个大于29年的

C6.3二次项系数的置信区间


#(1)
#对educ求导易得导数为B1+B3exper
#(2)
#教育的回报不取决exper意味着B3=0,则对立假设:在给定教育年限的情况下,B3>0
#(3)
data_wage2<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/wage2.csv',header = T)
lm_wage2<-lm(log(wage)~educ+exper+educ:exper,data=data_wage2)
summary(lm_wage2)
#给定5%的显著性水平,B3的t值对应的P值为0.0365小于0.05,因此拒绝原假设,认为教育的回报取决于经验。
newvar<-(10*data_wage2$educ-data_wage2$educ*data_wage2$exper)
lm_wage2_1<-lm(log(wage)~educ+exper+newvar,data=data_wage2)
summary(lm_wage2_1)
confint(lm_wage2_1,'educ')
#置信区间是[0.06309736 0.08906172]

C6.4 二次项的最优值

data_gpa2<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/gpa2.csv',header = T)
#(1)
lm_gpa2<-lm(sat~hsize+I(hsize^2),data=data_gpa2)
summary(lm_gpa2)
#sat= 997.981+19.814hsize-2.131I(hsize^2)
#Adjusted R-squared:  0.007169 n=4137
#由于二次项系数t值对应的P值小于0.001,所以该变量是统计显著的
#(2)
#最优规模在模型的最大值处取到,该值为-19.814/(2*-2.131)*100
#最优规模为464.8991
#(3)
#从调整的R方来看,该模型只解释了学术成绩变异的0.7%,这个解释较小,所以不是最优代表
#(4)
lm_gpa2_1<-lm(log(sat)~hsize+I(hsize^2),data=data_gpa2)
summary(lm_gpa2_1)
#sat= 6.8960291 +0.0196029hsize-0.0020872I(hsize^2)
##最优规模在模型的最大值处取到,该值为-0.0196029/(2*-0.0020872)*100
#最优规模为469.598
#两者结论差异不大

未完待续。(抱歉,最近较忙,后期有时间再补上)

你可能感兴趣的:(R语言学习与应用,计量经济学,r语言,计量经济学)