use
scatter 纵坐标变量 横坐标变量
scatter y x1 x2 …
reg y x1 x2 x3 …
Obs 样本值 Pr(skewness)是对偏度的正态分布检测值 Pr(kurtosis)是对其峰度的正态分布检验,chi(2)是对总体的正态分布检验,我们主要观看的是P值(Prob)如果P值大于0.05我们就认为其符合正态分布,否则不符合
Formula对数据的处理方法,主要看p值如果P值大于0.05我们就认为其符合正态分布,否则不符合
通过单一样本T检验,我们可以实现样本均值与总体均值的比较。也就是说,是用来比较一组数据的平均值和一个数值有无差异
Mean是平均值,std.err为标准误,std.dev是标准差 95% conf.interval是95%水平的置信区间范围 自由度为观测样本数-1 t为t值 主要看P值如果小于0.05那么这组数据的平均值与给定的数据平均值有显著性差异,如果大于0.05那么则无显著性差异
数据指标与上图一致,只是置信水平发生变化
通过独立样本T检验,我们可以实现两个独立样本的均值检验
其他表项与上述表项类似,主要看P值如果小于0.05那么两组数据有显著性差异,如果大于0.05那么则无显著性差异
独立样本T检验两样本方差不同 ttest 变量名=变量名,unpaired unequal
配对样本T检验 ttest 变量名=变量名
通过配对样本T检验,我们可以实现对成对数据样本均值的比较,其与独立样本T检验的区别是:两个样本来自同一总体,而且数据的顺序不能调换。
主要看P值分析与上面一致
F检验又叫方差齐性检验。从两研究总体中随机抽取样本,要对这两个>样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t’检验或变量变换或秩和检验等方法。
从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t’检验或变量变换或秩和检验等方法。其中要判断两总体方差是否相等,就可以用F检验。
reg y x1 x2 x3 x4
test x1 x2 x4
test x2=0.3
注意除了y其他都能用test检验
建立鸡肉消费量Y对鸡肉价格PC、人均可支配收入YD的回归模型,采用1974-2002的数据估计参数(变量YEAR),检验1993年是否存在结构变化(邹检验),请写出相应的Stata的程序或命令(数据use CHICK6.dta)。
use CHICK6.dta
reg Y PC YD
scalar ssr = e(rss)
reg Y PC YD if year < 1993
scalar srr1 = e(rss)
reg Y PC YD if year >= 1993
scalar srr2 = e(rss)
gene f = ((ssr - ssr1 - ssr2) / 3) / (srr1 + srr2) / (29 - 6)
use CHICK6.dta
reg Y PC YD
estat sbknown,break(1993)
参考博客
scaler j = 1
while j <= num{
matrix pvalue[j, 1] = 2*(1-t(rowsof(x)-colsof(X), abs(tvalue[j, 1])))
scalar j = j + 1 // 更新时也用scalar
}
需要提前安装 ssc install jb6
estat vif
先回归再检测,如果vif大于5认为存在严重的多重共线性
先回归再检验
DW检验:estat dwatson
BG/LM检验 (拉格朗日乘数检验)
DW检验有许多限制,只能用于阶序列相关性的检验,方程包含一个常数,而且方程不含滞后被解释变量,还有DW检验会随着被解释变量的个数增加,不确定区域也会扩大
estat bgodfrey, lags( p ) nomiss()
以上为BG检验原始语句,lags( p )用来指定BG检验的滞后阶数p,默认为lags(1),选择项nomiss()表示进行不添加0的BG检验,默认是以0代替缺失值,即DM方法
关于如何确认滞后阶数,简单的方法是看自相关图,画图自相关图后,阴影部分时95%的置信区间,点落在95%的置信区间之外或者附近,表明显著不为0,也就是有自相关
自动估计相关系数和阶数,两条命令代表相关系数的两种迭代方法
- prais Y X1 X2 X3
- prais Y X1 X2 X3, corc
lag(3)代表最高自相关阶数为3
newey Y PC PB YD, lag(3)
参考博客
reg VOL TOT SAT // 先回归
estat imtest, white
//补救措施1 怀特调整
reg PCON REG PRICE, robust
//补救措施2 变换方程形式(双对数)
gen lnPCON = ln(PCON)
gen lnREG = ln(REG)
gen lnPRICE = ln(PRICE)
reg lnPCON lnREG lnPRICE
//补救措施3 重新定义定义变量
gen PCON1 = PCON / POP
gen REG1 = REG / POP
reg PCON1 REG1 PRICE
建立图书馆藏书量VOL对师生人数TOT,学生高考成绩SAT的回归模型,请写出线性回归模型的stata命令,采用white法检验异方差命令,采用White调整异方差的命令
reg VOL TOT SAT
estat imtest, white
reg VOL TOT SAT, robust
结果如下:
这个结果用的是CHICK6.dta的数据,但意思大同小异
怀特检验,我们主要H0是同方差假设,HA是异方差假设,看P值,如果P值<0.05说明我们要拒绝原假设,即原序列有着异方差性
怀特检验修正
画自相关图
ac e1
简单来说,本次练习就是寻找最合适的解释变量,来解释被解释变量。
首先肯定要选择GPA,APMATH以及APENG为我们的解释变量,然后AP因为APMATH以及APENG已经可以解释所以不用,然后看ESL和RACE因为样本中不是亚洲人就是白种人,如果英语不是母语,很大概率是亚洲人,并且在相关系数表中,ESL和RACE的相关系数为0.8461>0.8太大了,因此ESL和RACE只用选一个就可以了,在考试中我认为ESL个具有代表性,因为如果你不是母语者那么你学习过程中肯定有一定的困难,所以采用ESL作为解释变量,而GENDER和PEPR在我看来都有充足的解释力,而且前文也提到了性别对于SAT成绩的巨大影响。
综上所述,我们先用 GPA APMATH APENG ESL GENDER PEPR进行回归分析
预测符号
变量 | 符号 |
---|---|
GPA | + |
APMATH | + |
APENG | + |
ESL | - |
GEND | + |
PREP | + |
开始回归
我们首先看系数与我们的设想一不一致,然后看p值,在t检验中,p值如果<0.05则说明该解释变量有显著的解释力,反之则没有。
我们发现PREP与我们的预期不符。表面上看,变量PREP是一个有影响力的变量,因为几乎可 以肯定PREP课程可以提高修读了该课程学生的SAT测试成绩。问题是学生修读PREP课程的 决定与他以前的(或者预期的)SAT测试成绩有关。我们相信那些感觉自己需要修读PREP课 程的学生会做出正确的判断,同时,我们认为这些课程会使他们的成绩达到与那些没有选修 PREP课程的学生的成绩不相上下。因而,该变量对SAT成绩没有显著的影响。
所以去除PREP
发现一个问题,其他变量p值都挺好的,但到了ESL就拉了,从感性角度出发,但是ESL有充分理由留在这里,这启发我们,数据统计出来的只是一个参考,具体问题,要结合具体的情况分析。
0时,概率分布右偏,有一个向右的尾