探究内生性是否会影响估计的无偏性与一致性
计算模型误差项μ与自变量的相关系数
相关系数与真实的β相差大,则内生性越严重
用一个一元线性回归来估计应该为二元的线性模型(遗漏一个变量)
所谓蒙特卡罗就是自己模拟一些数据,来进行验证
x2本来应该是包含在自变量中的,但我们模拟的是遗漏了x2的情况,所以x2是存在在模型的误差项中,为了使模拟更真实,在x2与x1有一定关系的情况下再增添加一个随机,使x2与x1相关不明确
%% 蒙特卡洛模拟:内生性会造成回归系数的巨大误差
times = 300; % 蒙特卡洛的次数
R = zeros(times,1); % 用来储存扰动项u和x1的相关系数
K = zeros(times,1); % 用来储存遗漏了x2之后,只用y对x1回归得到的回归系数
for i = 1: times
n = 30; % 样本数据量为n
x1 = -10+rand(n,1)*20; % x1在-10和10上均匀分布,大小为30*1
u1 = normrnd(0,5,n,1) - rand(n,1); % 随机生成一组随机数
x2 = 0.3*x1 + u1; % x2与x1的相关性不确定, 因为我们设定了x2要加上u1这个随机数
% 这里的系数0.3我随便给的,没特殊的意义,你也可以改成其他的测试。
u = normrnd(0,1,n,1); % 扰动项u服从标准正态分布
y = 0.5 + 2 * x1 + 5 * x2 + u ; % 构造y
k = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1)); % y = k*x1+b 回归估计出来的k
K(i) = k;
u = 5 * x2 + u; % 因为我们回归中忽略了5*x2,所以扰动项要加上5*x2
r = corrcoef(x1,u); % 2*2的相关系数矩阵
R(i) = r(2,1);
end
plot(R,K,'*')
xlabel("x_1和u'的相关系数")
ylabel("k的估计值")
设置核心解释变量以及控制变量
写论文时可以区分出核心解释变量与控制变量,重点放在核心解释变量上面
多个自变量加一句:在其他变量不变的情况下
除了关注δ的正负,还要专注其显著性,证明其显著差异(不为0)
括号里的(0.26)叫做标准误,用于T检验
每次最多只有一个虚拟变量为1
因变量可能受到两种自变量交互效应的影响
显著>0 交互效应正向
显著<0 交互效应负向
只做简单记录
- 全选,插入,创建表(表包含标题),可以进行按列的筛选
- 调用上一次的命令
- 导入数据:导入->excel文件->第一行为变量名
- 导入数据:代码import…
- 代码文件后缀.do
方差分析表
H0:联合显著性检验
如果不能拒绝原假设(H0)则说明回归无法进行,算出来的系数都是0,没有意义
P值(Prob>F):<0.05拒绝原假设
在回归问题中我们看 adj R-squared(调整后R的平方)
回归系数表
对于分类变量,只能用虚拟变量进行回归
消除多重共线性(自动忽略G4)note: G4 omitted because of collinearity
生成的虚拟变量个数是分类变量-1,将其中一个作为对照组,其他的跟对照组比较
如果全部引入,则会有完全多重共线性的影响
解读:
reg 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2
看回归系数
// 下面进行回归
regress 评价量 团购价元 商品毛重kg
// 下面的语句可帮助我们把回归结果保存在Word文档中
// 在使用之前需要运行下面这个代码来安装下这个功能包(运行一次之后就可以注释掉了)
//ssc install reg2docx, all replace
// 如果安装出现connection timed out的错误,可以尝试换成手机热点联网,如果手机热点也不能下载,就不用这个命令吧,可以自己做一个回归结果表,如果觉得麻烦就直接把回归结果截图。
est store m1
reg2docx m1 using m1.docx, replace
// *** p<0.01 ** p<0.05 * p<0.1
// Stata会自动剔除多重共线性的变量
regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
est store m2
reg2docx m2 using m2.docx, replace
结果表很长,(字体处理同上),将A1、A2等虚拟变量,变成汉字。放入附录中,正文里解释一下回归系数等等
我们这里一半用作解释型回归,预测有其他方法
将数据进行标准化(减均值,除标准差),再进行回归
这样得到的标准化回归系数才可以比较不同自变量的影响程度
beta
看回归系数绝对值进行比较
论文中因为相关系数低就添加什么平方,是错误的。因为没有解释为什么就加了平方。
而且,论文研究的是什么因素影响大学数学期末成绩,是解释型回归,而不是预测型回归。并不足需要拟合优度越高越好。
班干与否x3是个分类变量,x3平方跟x3一回事,不知道平方干啥
文献综述(略)
数据说明
描述性统计
这个表看起来太费劲,得不出什么,进行可视化处理
有实心标记的是回归系数显著的
含义:控制了其他变量后,其他这些省份借款成功率和内蒙古存在显著差异
得到两组回归系数,计算两组的相关系数,发现不存在显著相关关系。
本文主要是解释型回归而不是预测型,所以用ols回归没问题
下面探究是否出现异方差现象和如何解决
min∑(u_hat)^ 2
最小,可以给不同的u_hat不同的权重残差图
拟合值与残差
自变量x与残差
通过波动可以看出上述两图均存在异方差现象
Tips:两个命令有一个字母不同
stata保存图片:graph export 图片名,replace
summarize 平价量,d
不要求数学证明
BP检验可以看作怀特检验的特例,怀特检验适用范围更广
一般都可以用
自由度与bp检验不同
在回归前进行检验,更加严谨,在论文中不会被挑毛病
一些笔记
往往用第一种办法,可以把2011年这句话加入论文中,然后用第一种办法
命令就是+robust/r
p值就是用稳健的标准误求出来的p值,相比之前有更多的显著的自变量,得出来的结论越多
本笔记来自清风老师的数学建模,强烈推荐该课程!