终于进入回归了regression!
回归就是探究因变量和自变量的相关关系
因变量,就是y,又被称为被解释变量,回归子,相应变量
自变量,就是x,又被称为解释变量,回归元,控制变量
根据变量个数可以将回归分为简单回归(双变量回归模型)和复回归(多变量回归模型)
根据回归函数形式可以分为,线性回归和非线性回归
=================
- 简单回归,我们先定义简单回归函数形式
Y=β0+β1X+u
其中 β0,β1是参数 ,而 u 是误差
误差项是一个大头:
我们现有如下假设才能做回归,
1.误差项 u 其期望为0,即
E(u)=0
就是说
u 对Y没有影响,
u 和Y独立
2.误差项与自变量X无关即
E(u|x)=E(u)=0
以上两点假设说明了误差项
u 和X和Y均独立无关,即保证了:
E(Y)=β0+β1x
然后我们定义样本值 yi :
yi=y^i+u^i=拟合值+残差
拟合值
y^i=β^0+β^1x
所以就推出了两种估计方法:最小二乘法和矩估
1、最小二乘法 OLS估计
这个就是利用残差 u^i 的平方和最小,残差平方和最小就说明了该参数最符合样本分布,误差最小
然后我们把残差平方和加总,并对 β0 和 β1 求偏导,做出其最小值的解,即偏导数为0
具体做的话就是先将残差表示成:
u^i=yi−β^0−β^1xi
然后残差平方和就是
∑i=1nu^2i
之后我们令其两个偏导数为零,做最小值点:
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪∂∑ni=1u^2i∂β^0=0∂∑ni=1u^2i∂β^1=0
之后我们可以解出:
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪β^1=∑(yi−y¯)xi∑(xi−x¯)xi=∑(yi−y¯)(xi−x¯)∑(xi−x¯)(xi−x¯)β^0=y¯−β^1x¯=这个何必要公式呢上面算完就好烦了,直接带数字吧
2矩估算法
这个结果是一样的,就是依据两点
1、残差期望为0
2.残差和x的无关,所以其协方差为0
改写成公式则是
⎧⎩⎨∑u^i=0∑xiu^i=0
所以这个结果跟之前的最小二乘法的求导结果是一样的
之后是总平方和TSS的概念
TSS=∑(yi−y¯)2
我们可将平方项中间添上 −y^+y^
然后拆开可以得到
TSS=∑(yi−y¯)2=∑(yi−y^i)2+∑(y^i−y¯)2−2∑(yi−y^i)(y^i−y¯)
下面我们考虑
∑(yi−y^i)(y^i−y¯)
∑(yi−y^i)(y^i−y¯)=∑u^i(y^i−y¯)
由于残差和
y^i 独立;
y¯ 是常数所以
⎧⎩⎨∑u^iy¯=0∑u^iy^i=0
所以我们可以求得
∑(yi−y^i)(y^i−y¯)=0
即
TSS=∑(yi−y¯)2=∑(yi−y^i)2+∑(y^i−y¯)2=残差平方和RSS+解释平方和ESS
解释平方和ESS就是在模型内,可以被本模型解释的平方和,就是被解释掉的量,所以我们在STATA分析中,其是在MODEL一栏中
残差平方和RSS就是残差的平方和,就是没有解释掉的量,越大模型的解释性越差,越扯淡,STATA放在了RESIDUAL
之后是拟合优度 R2
R2=ESSTSS=1−RSSTSS
所谓拟合优度就是判别这个模型靠不靠谱的系数,如前文所说 被解释掉的量越高则其越靠谱,越高;不能被解释的量越高 模型越扯淡,那么这个值就越低。
所以 R2 有如下特性:
1 若是R值等于1,则是完全拟合就是说我们把所有的量都解释了,模型和样本点完美对应。
2若是R值等于0 ,则是因变量和主变量即回归元和回归子之间万全没有关系,这个模型就是扯淡的。
3.如果R值较小,我们并不能说估算结果没有用啊!!!!!因为可能会有别的变量影响,导致R值减少(实质就是模型扯淡但是不承认!只是说我们的主变量影响不显著罢了!)
之后是几种线性回归形式
有 变量线性,就是因变量是主变量的线性函数,即回归元是回归子的线性函数,如线性一次回归模型
还有一种是参数线性 就是如同二次函数,柯布道格拉斯生产函数一样的回归元是参数的线性方程,所以我们在面对形如 Q(x)=AKaLb 的函数是一般将其对数化则可化为线性回归形式。
接下来是过原点回归的问题 Regression through the origin
过原点回归先有如下函数形式
y=β1xi+μ
根据OLS最小二乘法估计,我们可以估计出
β^1=∑xiyi∑x2i
然后这里有个问题是过原点回归的拟合优度 R2
我们先考虑 拟合优度的一般表达式
R2=1−RSSTSS=1−∑(yi−y^)2∑(yi−y¯)2
这表示什么意思呢,除了上面的解释外,另一种解释就是说,
yi 用
y^i 解释的效果之比
在平时 我们用 y^i 拟合是符合样本值的趋势的,其要比用 y¯ 拟合要高出不知道多少,然而我们强制规定截距项为零后,那么这个 y^i 很可能就不符合这个趋势,那么这个估计量的效果还不如直接采用 y¯ 作为估计量,所以就有 ∑(yi−y^)2∑(yi−y¯)2>1 ,那么这样这个 R2 就小于零了,这是明显不符合常理的(除非引入复数形式)
所以我们对于过原点回归的拟合优度的计算方式就要进行修正
R2=1−∑(yi−y^)2∑y2i
这样的表达就是我们把用
y^i 拟合和用X轴拟合进行比对,只要其
y^i 的预测趋势即增减性和样本值符合这个
R2 就是大于0 的,这一般来讲都成立。
to be continue…