一元线性回归是只有一个自变量(自变量x和因变量y)线性相关的方法。
最早源于遗传学,由高尔顿引入:
观测1078对夫妇,研究父母身高(平均身高x)与子女身高(成年的身高)的遗传问题时,得到如下回归方程:
y ^ = 33.73 + 0.516 x \hat{y}=33.73+0.516x y^=33.73+0.516x
表明父母平均身高每增加一个单位,成年儿子增加0.516个单位,反之亦然。即子代的平均高度向中心回归了(33.73为中心值),也就是无限次迭代之后也不会出现为0的情况,而是33.73。说明了生物学中“种”的稳定性。
回归的现代解释:
回归分析是研究某一变量(因变量)与另一个或多个变量(自变量、解释变量)之间的依存关系,用解释变量(自变量)的已知值或固定值来估计或预测因变量的总体平均值。
人话:将已知的X带入回归模型,去预测未知Y的值。于是关键在于怎么设计回归模型。
{ y = β 0 + β 1 x + ϵ E ϵ = 0 , D ( ϵ ) = σ 2 \begin{cases} y=\beta_0+\beta_1x+\epsilon \\ E\epsilon=0,D(\epsilon)=\sigma^2\end{cases} {y=β0+β1x+ϵEϵ=0,D(ϵ)=σ2
β 0 + β 1 x \beta_0+\beta_1x β0+β1x:表述的是总体关系
ϵ \epsilon ϵ:表述的是个体差异,且 ϵ − N ( μ , σ 2 ) \epsilon-N(\mu,\sigma^2) ϵ−N(μ,σ2)
前面我们把回归模型建立起来了,但是参数并没有给定,所以这一步主要是确定回归模型里面的参数,学过机器学习的同学应该一眼就能看出来,梯度下降法的原理就是这个。
预测出的 y ^ \hat{y} y^尽可能的接近真实值y,也就是预测误差尽可能的小。
根据模型的目的,设计出一个损失函数,对预测过程中的损失进行量化。
Q e = ∑ i = 1 n ( y − y ^ ) 2 = ∑ i = 1 n ( y − β 0 ^ − β 1 ^ x i ) 2 y : 样 本 值 y ^ = β 0 ^ + β 1 ^ x i : 预 测 值 Q_e=\sum_{i=1}^{n}(y-\hat{y})^2=\sum_{i=1}^{n}(y-\hat{\beta_0}-\hat{\beta_1}x_i)^2\\ y:样本值\\ \hat{y}=\hat{\beta_0}+\hat{\beta_1}x_i:预测值 Qe=i=1∑n(y−y^)2=i=1∑n(y−β0^−β1^xi)2y:样本值y^=β0^+β1^xi:预测值
注:因为绝对值不好表示,所以通常我们使用平方进行计算,这里同样也是如此,而最小二乘法中的二乘也是来源于此
此时,模型目的就转化为(3)式的最小值(此处也就是极值)。
令 : { ∂ Q ∂ β 0 = − 2 ∑ i = 1 n ( y i − β 0 ^ − β 1 ^ x i ) = 0 ∂ Q ∂ β 1 = − 2 ∑ i = 1 n x i ( y i − β 0 ^ − β 1 ^ x i ) = 0 令:\\ \begin{cases} \frac{\partial{Q}}{\partial{\beta_0}}=-2\sum_{i=1}^{n}(y_i-\hat{\beta_0}-\hat{\beta_1}x_i) = 0\\ \frac{\partial{Q}}{\partial{\beta_1}}=-2\sum_{i=1}^{n}x_i(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0\\ \end{cases} 令:{∂β0∂Q=−2∑i=1n(yi−β0^−β1^xi)=0∂β1∂Q=−2∑i=1nxi(yi−β0^−β1^xi)=0
于是可得:
{ n β 0 ^ + β 1 ^ ∑ i = 1 n x i = ∑ i = 1 n y i β 0 ^ ∑ i = 1 n x i + β 1 ^ ∑ i = 1 n x i 2 = ∑ i = 1 n x i y i \begin{cases} n\hat{\beta_0}+\hat{\beta_1}\sum_{i=1}^{n}x_i=\sum_{i=1}^{n}y_i\\ \hat{\beta_0}\sum_{i=1}^{n}x_i+\hat{\beta_1}\sum_{i=1}^{n}x_i^2=\sum_{i=1}^{n}x_iy_i \end{cases} {nβ0^+β1^∑i=1nxi=∑i=1nyiβ0^∑i=1nxi+β1^∑i=1nxi2=∑i=1nxiyi
解得:
{ β ^ 1 = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 = L x y L x x β ^ 0 = y ˉ − β ^ 1 x ˉ \begin{cases} \hat{\beta}_1=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}{n}(x_i-\bar{x})^2}=\frac{L_{xy}}{L_{xx}}\\ \hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x} \end{cases} {β^1=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ)=LxxLxyβ^0=yˉ−β^1xˉ
由此,便求出对应的回归方程。
补充一点:
由(4)式中的1可知 ∑ i = 1 n ϵ = 0 \sum_{i=1}^{n}\epsilon=0 ∑i=1nϵ=0,由此可得出 E ϵ = 0 E\epsilon=0 Eϵ=0,与(2)中的1式对应。