证明 总偏差平方和 = 回归平方和 + 残差平方和

线性回归中有这样一条性质:
总 偏 差 平 方 和 ( S S T ) = 回 归 平 方 和 ( S S R ) + 残 差 平 方 和 ( S S E ) 总偏差平方和 (SST) = 回归平方和(SSR) + 残差平方和(SSE) (SST)=SSR+SSE

即:
∑ ( y i − y ‾ ) 2 = ∑ ( y ^ i − y ‾ ) 2 + ∑ ( y i − y ^ i ) 2 (1) \sum(y_i-\overline y)^2=\sum(\hat y_i-\overline y)^2+\sum(y_i-\hat y_i)^2\tag{1} (yiy)2=(y^iy)2+(yiy^i)2(1)

证明:下面以一元回归为例证明。
∑ ( y i − y ‾ ) 2 = ∑ ( y i − y ^ i + y ^ i − y ‾ ) 2 = ∑ ( y i − y ^ i ) 2 + ∑ ( y ^ i − y ‾ ) 2 + 2 ∑ ( y i − y ^ i ) ( y ^ i − y ‾ ) \begin{aligned} \sum(y_i-\overline y)^2&=\sum(y_i-\hat y_i+\hat y_i-\overline y)^2\\ &=\sum(y_i-\hat y_i)^2+\sum(\hat y_i-\overline y)^2+2\sum(y_i-\hat y_i)(\hat y_i-\overline y)\\ \end{aligned} (yiy)2=(yiy^i+y^iy)2=(yiy^i)2+(y^iy)2+2(yiy^i)(y^iy)

因此,我们需要证明 ∑ ( y i − y ^ i ) ( y ^ i − y ‾ ) = 0 \sum(y_i-\hat y_i)(\hat y_i-\overline y)=0 (yiy^i)(y^iy)=0.

∑ ( y i − y ^ i ) ( y ^ i − y ‾ ) = ∑ ( y i − y ^ i ) y ^ i − y ‾ ∑ ( y i − y ^ i ) (2) \begin{aligned} \sum(y_i-\hat y_i)(\hat y_i-\overline y)&=\sum(y_i-\hat y_i)\hat y_i-\overline y\sum (y_i-\hat y_i)\\ \end{aligned}\tag{2} (yiy^i)(y^iy)=(yiy^i)y^iy(yiy^i)(2)

根据最小二乘法,若回归方程为: y = β 0 + β 1 x y=\beta_0+\beta_1x y=β0+β1x,优化目标是使得 f = ∑ ( y i − β 0 + β 1 x i ) 2 f=\sum (y_i-\beta_0+\beta_1x_i)^2 f=(yiβ0+β1xi)2最小,通过令一阶导数 f f f 为零计算 β 0 , β 1 \beta_0, \beta_1 β0,β1
∂ f ∂ β 0 = − 2 ∑ ( y i − β 0 + β 1 x i ) = 0 \begin{aligned} \frac{\partial f}{\partial \beta_0}=-2\sum(y_i-\beta_0+\beta_1x_i)=0 \end{aligned} β0f=2(yiβ0+β1xi)=0
由于 y ^ i = β 0 + β 1 x i \hat y_i=\beta_0+\beta_1x_i y^i=β0+β1xi,所以
∑ ( y i − y ^ i ) = 0 (3) \sum (y_i-\hat y_i)=0\tag{3} (yiy^i)=0(3)

又因为:
∂ f ∂ β 1 = 2 ∑ x i ( y i − β 0 + β 1 x i ) = 0 \begin{aligned} \frac{\partial f}{\partial \beta_1}=2\sum x_i(y_i-\beta_0+\beta_1x_i)=0 \end{aligned} β1f=2xi(yiβ0+β1xi)=0

所以,
∑ ( β 0 + β 1 x i ) ( y i − β 0 + β 1 x i ) = ∑ y ^ i ( y ^ i − y i ) = 0 (4) \sum (\beta_0+\beta_1x_i)(y_i-\beta_0+\beta_1x_i)=\sum\hat y_i(\hat y_i-y_i)=0\tag{4} (β0+β1xi)(yiβ0+β1xi)=y^i(y^iyi)=0(4)

综合表达式 (2),(3),(4),表达式(1)成立。因此:
总 偏 差 平 方 和 ( S S T ) = 回 归 平 方 和 ( S S R ) + 残 差 平 方 和 ( S S E ) 总偏差平方和 (SST) = 回归平方和(SSR) + 残差平方和(SSE) (SST)=SSR+SSE
□ \Box

你可能感兴趣的:(统计学)