在统计学中,无偏估计是指估计量的期望值等于总体参数的真实值。当我们用样本数据估计总体方差或协方差时,分母使用 ( n − 1 ) (n-1) (n−1) 而不是 n n n 是为了确保估计是无偏的。
总体方差 σ 2 \sigma^2 σ2 定义为:
σ 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 σ2=n1i=1∑n(xi−μ)2
其中 n n n 是总体数据点数, μ \mu μ 是总体均值。
样本方差的直观定义可能是:
s n 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 s_n^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 sn2=n1i=1∑n(xi−xˉ)2
但这个估计是有偏的。为了得到无偏估计,我们使用:
s n − 1 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s_{n-1}^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 sn−12=n−11i=1∑n(xi−xˉ)2
关键证明是样本方差总和的期望值:
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = ( n − 1 ) σ 2 E\left[ \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = (n-1) \sigma^2 E[i=1∑n(xi−xˉ)2]=(n−1)σ2
若分母用 n n n:
E [ s n 2 ] = E [ 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ] = n − 1 n σ 2 < σ 2 E[s_n^2] = E\left[ \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = \frac{n-1}{n} \sigma^2 < \sigma^2 E[sn2]=E[n1i=1∑n(xi−xˉ)2]=nn−1σ2<σ2
若分母用 ( n − 1 ) (n-1) (n−1):
E [ s n − 1 2 ] = E [ 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 ] = 1 n − 1 ⋅ ( n − 1 ) σ 2 = σ 2 E[s_{n-1}^2] = E\left[ \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = \frac{1}{n-1} \cdot (n-1) \sigma^2 = \sigma^2 E[sn−12]=E[n−11i=1∑n(xi−xˉ)2]=n−11⋅(n−1)σ2=σ2
方面 | 分母用 ( n − 1 ) (n-1) (n−1) | 分母用 n n n |
---|---|---|
估计性质 | 无偏估计, E [ s n − 1 2 ] = σ 2 E[s_{n-1}^2] = \sigma^2 E[sn−12]=σ2 | 有偏估计, E [ s n 2 ] = n − 1 n σ 2 E[s_n^2] = \frac{n-1}{n} \sigma^2 E[sn2]=nn−1σ2 |
数值大小 | 结果稍大(因为分母更小) | 结果稍小(因为分母更大) |
适用场景 | 统计推断,估计总体参数 | 最大似然估计或描述样本特性 |
样本大小影响 | 小样本时差异明显,大样本时差异趋近于零 | 同左,但偏差始终存在 |
好的,我来更新第4部分的内容,用更详细的推导过程替代之前的版本。
为了推导这个期望,我们需要明确以下假设:
直接计算 E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] E[∑i=1n(xi−xˉ)2] 较为复杂,因为 x ˉ \bar{x} xˉ 本身是随机变量。我们可以利用一个恒等式将表达式改写为更容易处理的形式。
考虑 x i − x ˉ x_i - \bar{x} xi−xˉ 的定义:
x i − x ˉ = ( x i − μ ) − ( x ˉ − μ ) x_i - \bar{x} = (x_i - \mu) - (\bar{x} - \mu) xi−xˉ=(xi−μ)−(xˉ−μ)
这里我们引入了总体均值 μ \mu μ,将偏差分解为两部分:样本值与总体均值的偏差 ( x i − μ ) (x_i - \mu) (xi−μ) 和样本均值与总体均值的偏差 ( x ˉ − μ ) (\bar{x} - \mu) (xˉ−μ)。
将这个表达式平方并求和:
∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n [ ( x i − μ ) − ( x ˉ − μ ) ] 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n \left[ (x_i - \mu) - (\bar{x} - \mu) \right]^2 i=1∑n(xi−xˉ)2=i=1∑n[(xi−μ)−(xˉ−μ)]2
展开平方:
( x i − x ˉ ) 2 = ( x i − μ ) 2 − 2 ( x i − μ ) ( x ˉ − μ ) + ( x ˉ − μ ) 2 (x_i - \bar{x})^2 = (x_i - \mu)^2 - 2 (x_i - \mu)(\bar{x} - \mu) + (\bar{x} - \mu)^2 (xi−xˉ)2=(xi−μ)2−2(xi−μ)(xˉ−μ)+(xˉ−μ)2
对所有 i i i 求和:
∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n ( x i − μ ) 2 − 2 ∑ i = 1 n ( x i − μ ) ( x ˉ − μ ) + ∑ i = 1 n ( x ˉ − μ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - 2 \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) + \sum_{i=1}^n (\bar{x} - \mu)^2 i=1∑n(xi−xˉ)2=i=1∑n(xi−μ)2−2i=1∑n(xi−μ)(xˉ−μ)+i=1∑n(xˉ−μ)2
简化最后一项,因为 ( x ˉ − μ ) 2 (\bar{x} - \mu)^2 (xˉ−μ)2 不依赖于 i i i:
∑ i = 1 n ( x ˉ − μ ) 2 = n ( x ˉ − μ ) 2 \sum_{i=1}^n (\bar{x} - \mu)^2 = n (\bar{x} - \mu)^2 i=1∑n(xˉ−μ)2=n(xˉ−μ)2
接下来处理中间项 ∑ i = 1 n ( x i − μ ) ( x ˉ − μ ) \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) ∑i=1n(xi−μ)(xˉ−μ):
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i xˉ=n1i=1∑nxi
所以:
x ˉ − μ = 1 n ∑ i = 1 n ( x i − μ ) \bar{x} - \mu = \frac{1}{n} \sum_{i=1}^n (x_i - \mu) xˉ−μ=n1i=1∑n(xi−μ)
代入:
∑ i = 1 n ( x i − μ ) ( x ˉ − μ ) = ∑ i = 1 n ( x i − μ ) ⋅ 1 n ∑ j = 1 n ( x j − μ ) \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = \sum_{i=1}^n (x_i - \mu) \cdot \frac{1}{n} \sum_{j=1}^n (x_j - \mu) i=1∑n(xi−μ)(xˉ−μ)=i=1∑n(xi−μ)⋅n1j=1∑n(xj−μ)
因为 ∑ j = 1 n ( x j − μ ) \sum_{j=1}^n (x_j - \mu) ∑j=1n(xj−μ) 不依赖于 i i i,可以提出:
∑ i = 1 n ( x i − μ ) ( x ˉ − μ ) = 1 n ∑ i = 1 n ( x i − μ ) ⋅ ∑ j = 1 n ( x j − μ ) = 1 n [ ∑ i = 1 n ( x i − μ ) ] 2 \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = \frac{1}{n} \sum_{i=1}^n (x_i - \mu) \cdot \sum_{j=1}^n (x_j - \mu) = \frac{1}{n} \left[ \sum_{i=1}^n (x_i - \mu) \right]^2 i=1∑n(xi−μ)(xˉ−μ)=n1i=1∑n(xi−μ)⋅j=1∑n(xj−μ)=n1[i=1∑n(xi−μ)]2
注意到:
∑ i = 1 n ( x i − μ ) = n ( x ˉ − μ ) \sum_{i=1}^n (x_i - \mu) = n (\bar{x} - \mu) i=1∑n(xi−μ)=n(xˉ−μ)
所以:
∑ i = 1 n ( x i − μ ) ( x ˉ − μ ) = 1 n [ n ( x ˉ − μ ) ] 2 = n ( x ˉ − μ ) 2 \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = \frac{1}{n} \left[ n (\bar{x} - \mu) \right]^2 = n (\bar{x} - \mu)^2 i=1∑n(xi−μ)(xˉ−μ)=n1[n(xˉ−μ)]2=n(xˉ−μ)2
将这些结果代回原式:
∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n ( x i − μ ) 2 − 2 n ( x ˉ − μ ) 2 + n ( x ˉ − μ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - 2 n (\bar{x} - \mu)^2 + n (\bar{x} - \mu)^2 i=1∑n(xi−xˉ)2=i=1∑n(xi−μ)2−2n(xˉ−μ)2+n(xˉ−μ)2
= ∑ i = 1 n ( x i − μ ) 2 − n ( x ˉ − μ ) 2 = \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 =i=1∑n(xi−μ)2−n(xˉ−μ)2
我们得到了一个关键恒等式:
∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n ( x i − μ ) 2 − n ( x ˉ − μ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 i=1∑n(xi−xˉ)2=i=1∑n(xi−μ)2−n(xˉ−μ)2
现在,对这个表达式取期望:
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = E [ ∑ i = 1 n ( x i − μ ) 2 − n ( x ˉ − μ ) 2 ] E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = E\left[ \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 \right] E[i=1∑n(xi−xˉ)2]=E[i=1∑n(xi−μ)2−n(xˉ−μ)2]
由于期望是线性的,可以分开计算:
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = E [ ∑ i = 1 n ( x i − μ ) 2 ] − E [ n ( x ˉ − μ ) 2 ] E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = E\left[ \sum_{i=1}^n (x_i - \mu)^2 \right] - E\left[ n (\bar{x} - \mu)^2 \right] E[i=1∑n(xi−xˉ)2]=E[i=1∑n(xi−μ)2]−E[n(xˉ−μ)2]
因为 x i x_i xi 是 i.i.d. 的,且 E [ ( x i − μ ) 2 ] = Var ( x i ) = σ 2 E[(x_i - \mu)^2] = \text{Var}(x_i) = \sigma^2 E[(xi−μ)2]=Var(xi)=σ2:
E [ ∑ i = 1 n ( x i − μ ) 2 ] = ∑ i = 1 n E [ ( x i − μ ) 2 ] = ∑ i = 1 n σ 2 = n σ 2 E\left[ \sum_{i=1}^n (x_i - \mu)^2 \right] = \sum_{i=1}^n E[(x_i - \mu)^2] = \sum_{i=1}^n \sigma^2 = n \sigma^2 E[i=1∑n(xi−μ)2]=i=1∑nE[(xi−μ)2]=i=1∑nσ2=nσ2
首先计算 x ˉ \bar{x} xˉ 的方差:
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i xˉ=n1i=1∑nxi
由于 x i x_i xi 是独立的:
Var ( x ˉ ) = Var ( 1 n ∑ i = 1 n x i ) = 1 n 2 ∑ i = 1 n Var ( x i ) = 1 n 2 ⋅ n σ 2 = σ 2 n \text{Var}(\bar{x}) = \text{Var}\left( \frac{1}{n} \sum_{i=1}^n x_i \right) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(x_i) = \frac{1}{n^2} \cdot n \sigma^2 = \frac{\sigma^2}{n} Var(xˉ)=Var(n1i=1∑nxi)=n21i=1∑nVar(xi)=n21⋅nσ2=nσ2
因为 E [ x ˉ ] = μ E[\bar{x}] = \mu E[xˉ]=μ(样本均值无偏),所以:
E [ ( x ˉ − μ ) 2 ] = Var ( x ˉ ) = σ 2 n E[(\bar{x} - \mu)^2] = \text{Var}(\bar{x}) = \frac{\sigma^2}{n} E[(xˉ−μ)2]=Var(xˉ)=nσ2
因此:
E [ n ( x ˉ − μ ) 2 ] = n ⋅ E [ ( x ˉ − μ ) 2 ] = n ⋅ σ 2 n = σ 2 E\left[ n (\bar{x} - \mu)^2 \right] = n \cdot E[(\bar{x} - \mu)^2] = n \cdot \frac{\sigma^2}{n} = \sigma^2 E[n(xˉ−μ)2]=n⋅E[(xˉ−μ)2]=n⋅nσ2=σ2
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = n σ 2 − σ 2 = ( n − 1 ) σ 2 E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = n \sigma^2 - \sigma^2 = (n - 1) \sigma^2 E[i=1∑n(xi−xˉ)2]=nσ2−σ2=(n−1)σ2
我们得到了:
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = ( n − 1 ) σ 2 E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = (n - 1) \sigma^2 E[i=1∑n(xi−xˉ)2]=(n−1)σ2
这表明, ∑ i = 1 n ( x i − x ˉ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 ∑i=1n(xi−xˉ)2 的期望值是 ( n − 1 ) σ 2 (n-1) \sigma^2 (n−1)σ2。在统计学中,样本方差定义为:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2 s2=n−11i=1∑n(xi−xˉ)2
其期望为:
E [ s 2 ] = 1 n − 1 E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = 1 n − 1 ⋅ ( n − 1 ) σ 2 = σ 2 E[s^2] = \frac{1}{n-1} E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = \frac{1}{n-1} \cdot (n-1) \sigma^2 = \sigma^2 E[s2]=n−11E[i=1∑n(xi−xˉ)2]=n−11⋅(n−1)σ2=σ2
这说明 s 2 s^2 s2 是总体方差 σ 2 \sigma^2 σ2 的无偏估计。
如果用 n n n 作为分母:
E [ 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ] = 1 n ⋅ ( n − 1 ) σ 2 = n − 1 n σ 2 < σ 2 E\left[ \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 \right] = \frac{1}{n} \cdot (n-1) \sigma^2 = \frac{n-1}{n} \sigma^2 < \sigma^2 E[n1i=1∑n(xi−xˉ)2]=n1⋅(n−1)σ2=nn−1σ2<σ2
这表明分母用 n n n 会低估总体方差。
通过将 ∑ i = 1 n ( x i − x ˉ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 ∑i=1n(xi−xˉ)2 展开为 ∑ i = 1 n ( x i − μ ) 2 − n ( x ˉ − μ ) 2 \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 ∑i=1n(xi−μ)2−n(xˉ−μ)2,并分别计算两项的期望,我们推导出:
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = ( n − 1 ) σ 2 E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = (n - 1) \sigma^2 E[i=1∑n(xi−xˉ)2]=(n−1)σ2
数据中心化是将每个数据点减去均值的过程:
对于数据 [2, 4, 6, 8]:
数据中心化是统计分析和机器学习中的重要预处理步骤,有助于我们关注数据的相对变化而非绝对位置。