由于之前上课的时候用过stata感觉用stata做分析的时候交互什么的体验其实很好,这次要做一个回归分析,发现之前学过的很多都不太记得了,就打算写一个博客作为备忘。
https://www.stata.com/manuals/icombinedsubjecttableofcontents.pdf
stata的documentation做得很好,这个是一个类似目录的pdf,点进去就会跳到另一个详细说明的pdf了,还有其他的example什么的
cd C:\Users\虫子\Dropbox\Fitts\pilotVersions\pilot5\DataAnalysis\excelSamples
clear
import excel allPaperSample.xlsx, firstrow
第一步,先设置操作文件夹,cd到要导入excel 文件的文件夹。
第二步,清除所有变量。如果当前窗口还有variable的话,excel会导入失败。
第三步,导入excel文件,文件名字是“allPaperSample.xlsx”, firstrow在这边的意思是要把第一行作为变量名
https://www.stata.com/manuals13/gsm11.pdf
stata一般有generate 和replace两种方式生成新变量。
generate就是生成一个新的变量
replace就是用这个新的变量替换掉原来的变量
generate logMT = log10(MT)
以上就是以现有变量MT,生成一个新变量logMT。
查看某个变量的基本信息
codebook variableName
查看所有变量的基本信息
codebook
这个是stata regress函数的说明文件:
https://www.stata.com/manuals13/rregress.pdf
regress errors subID timeDay timeDir timeOrder vCon W D
regress后面的第一个变量:errors 是要回归的目标,之后所有的变量都是模型中的predictors。
随便给一个回归的结果:
图中左上角的是对于regress后得到的model 的一个“analysis-of-variance(ANOVA)”表格。
其每一列的头:SS , df , MS 分别对应:“sum of squares”, “degrees of freedom”和“mean square”。
第一列:可以知道Model的SS(1808)/Total的SS(8001)=R-squared(0.2261)即R2。R2的意思就是说,这个模型说明解释了这些变量中多少的variance。
第二列:自由度,一共有N个sample这个数据集就有(N-1)个dof(因为要减去均值)。模型的自由度由模型有几个predictor决定。
第三列:MS一般是用于计算F-statistic的。
图中的右上角是另一些统计描述:
第一行:Number of obs 一共有多少个sample
第二行:F(df of Model,df of Residual) = MS of Model(301.448)/MS of Residual(6.934) = 43.47
The F statistic tests the hypothesis that all coefficients excluding the constant are zero.
这个F值的H0假设是:所有的predictor都不对y产生影响,即所有predictor的coef都会是0,所有的predictor都不significant。
第三行:Prob > F 的值是上述的H0假设的成立的可能性。当其趋近于0的时候,说明至少会有一些predictor的coef不为0.
第四行:R-squared 前面已经说过了
第五行:Adj R-squared 由于R2存在一个问题:无论什么predictor加到模型中,R2都会变大。为了避免这个问题,adjR2惩罚了模型的复杂度。
第六行:root mean squared error是MS of Redidual的平方根(2.6333 = 6.9342^0.5),其意义是回归模型的residual部分的standard deviatio。
图中下面的部分就是regression的结果了。
最后一行是模型的常数项
第一列是模型的系数,根据系数我们就可以写出回归的线性模型了
第二列是线性回归系数的standard error
查了半天没看到这个参数具体是怎么计算的。不过这个系数是对前面coef的估计的可信度估计,越小越好。
有一个百度的答案:
https://zhidao.baidu.com/question/501609456486160404.html
这是估计的标准误差,是残差均方开根号的值,残差均方等于残差平方和除以自由度,残差平方和等于总平方和减去回归平方和
不过不知道里面说的残差是怎么计算的。
第三列是t-statisitic
正常T-statistic应该在0假设(null hypothesis)为真时,服从T分布(T-distribution).
粗略地讲这个值大于2,对应的predictor就是significant。
Coefficient除以standard error 等于 t-statistic
第四列是这个t-statistic的p-value,一般来讲小于0.05就是significant的
第五六列是95%confidence interval of coef,系数的95%置信区间。