我们从本章的三个基本词汇开始:均值(mean)、方差(variance)和概率(probability)。在写公式之前,让我先粗略地解释一下它们的含义:
平均值指平均值或期望值
方差 σ 2 \sigma^2 σ2 衡量与平均值 m m m 的平均平方距离
n n n 种不同结果的概率都是正数 p 1 , ⋯ , p n p_1, \cdots, p_n p1,⋯,pn 相加为 1 1 1。
当然,平均数很容易理解。我们从这里开始。但是现在我们有两种不同的情况,你们必须弄清楚。一方面,我们可以从完成的试验中得到结果(样本值)。另一方面,我们可能从未来的试验中得到预期的结果(期望值)。让我举几个例子:
样本值 随机抽取 5 5 5 名新生,年龄分别为 18 、 17 、 18 、 19 、 17 18、17、18、19、17 18、17、18、19、17
样本均值 1 5 ( 18 + 17 + 18 + 19 + 17 ) = 17.8 \frac{1}{5}(18 + 17 + 18 + 19 + 17) = 17.8 51(18+17+18+19+17)=17.8
概率 大一新生的年龄分别是 17 17 17 岁( 20 % 20\% 20%)、 18 18 18 岁( 50 % 50\% 50%)、 19 19 19 岁( 30 % 30\% 30%)。
随机选择一个大一新生的预期年龄 E [ x ] = ( 0.2 ) 17 + ( 0.5 ) 18 + ( 0.3 ) 19 = 18.1 \text{E}[x] = (0.2) 17 + (0.5) 18 + (0.3) 19 = 18.1 E[x]=(0.2)17+(0.5)18+(0.3)19=18.1
17.8 17.8 17.8 和 18.1 18.1 18.1 都是正确的平均值。样本均值 N N N 个采样点 x 1 , ⋯ , x N x_1, \cdots, x_N x1,⋯,xN 从一个完成的试验开始。它们的平均值是 N N N 个观测样本的平均值:
样本均值 m = μ = 1 N ( x 1 + x 2 + ⋯ + x N ) (1) m = \mu = \frac{1}{N} (x_1 + x_2 + \cdots + x_N) \tag{1} m=μ=N1(x1+x2+⋯+xN)(1)
x x x 的期望值开始于年龄 x 1 , ⋯ , x n x_1, \cdots, x_n x1,⋯,xn 的概率 p 1 , ⋯ , x n p_1, \cdots, x_n p1,⋯,xn:
期望值 m = E [ x ] = p 1 x 1 + p 2 x 2 + ⋯ + p n x n (2) m = \text{E}[x] = p_1 x_1 + p_2 x_2 + \cdots + p_n x_n \tag{2} m=E[x]=p1x1+p2x2+⋯+pnxn(2)
这就是 p ⋅ x p \cdot x p⋅x。注意 m = E [ x ] m = \text{E}[x] m=E[x] 告诉了我们期望什么, m = μ m= μ m=μ 告诉我们得到什么。
通过取很多样本(比如说一个很大的 N N N),样本结果将接近概率。“大数定律(Law of Large Numbers)”认为,随着样本量 N N N 的增加,样本均值以 1 1 1 的概率收敛于其期望值 E [ x ] \text{E}[x] E[x]。一枚均匀硬币出现背面的概率为 p 0 = 1 2 p_0=\frac{1}{2} p0=21,出现正面的概率为 p 1 = 1 2 p_1=\frac{1}{2} p1=21。然后 E [ x ] = ( 1 2 ) 0 + ( 1 2 ) 1 \text{E} [x] = (\frac{1}{2}) 0 + (\frac{1}{2}) 1 E[x]=(21)0+(21)1。 N N N 次抛硬币中正面出现的比例是样本均值,接近期望 E [ x ] = 1 2 \text{E}[x] =\frac{1}{2} E[x]=21。
这并不意味着如果我们看到的反面多于正面,那么下一个样本很可能是正面。几率仍然是 50 % 50\% 50%。前 100 100 100 次或 1000 1000 1000 次投掷确实会影响样本均值。但是 1000 1000 1000 次抛硬币不会影响它的极限——因为你要除以 N → ∞ N \rightarrow \infty N→∞。
方差 σ 2 \sigma^2 σ2 表示到期望均值 E [ x ] \text{E}[x] E[x] 的期望距离(平方)。样本方差 S 2 S^2 S2 表示离样本均值的实际距离(平方)。平方根是标准差 σ σ σ 或 S S S。
样本方差 S 2 = 1 N − 1 [ ( x 1 − m ) 2 + ⋯ + ( x N − m ) 2 ] (3) S^2 = \frac{1}{N-1} [(x_1-m)^2 + \cdots + (x_N-m)^2] \tag{3} S2=N−11[(x1−m)2+⋯+(xN−m)2](3)
样本年龄 x = 18 , 17 , 18 , 19 , 17 x=18,17,18,19,17 x=18,17,18,19,17 有均值 m = 17.8 m = 17.8 m=17.8。样本有方差 0.7 0.7 0.7:
S 2 = 1 5 − 1 [ ( . 2 ) 2 + ( − . 8 ) 2 + ( . 2 ) 2 + ( 1.2 ) 2 + ( − . 8 ) 2 ] = 1 4 ( 2.8 ) = 0.7 S^2 = \frac{1}{5-1} [(.2)^2 + (-.8)^2 + (.2)^2 + (1.2)^2 + (-.8)^2] = \frac{1}{4}(2.8) = 0.7 S2=5−11[(.2)2+(−.8)2+(.2)2+(1.2)2+(−.8)2]=41(2.8)=0.7
当我们计算平方时,负号消失了。请注意!统计学家除以 N − 1 = 4 N - 1 = 4 N−1=4(而不是 N = 5 N = 5 N=5),因此 S 2 S^2 S2 是 σ 2 \sigma^2 σ2 的无偏估计。样本均值中已经包含了一个自由度。
一个重要的恒等式来自于将每个 ( x − m ) 2 (x-m)^2 (x−m)2 分成 x 2 − 2 m x + m 2 x^2- 2mx + m^2 x2−2mx+m2:
sum of ( x i − m ) 2 = ( sum of x i 2 ) + 2 m ( sum of x i ) + ( sum of m 2 ) = ( sum of x i 2 ) + 2 m ( N m ) + N m 2 sum of ( x i − m ) 2 = ( sum of x i 2 ) − N m 2 (4) \begin{aligned} \text{sum of } (x_i - m)^2 &= (\text{sum of } x_i^2) + 2m(\text{sum of } x_i) + (\text{sum of } m^2) \\ &= (\text{sum of } x_i^2) + 2m(Nm) + N m^2 \\ \text{sum of } (x_i - m)^2 &= (\text{sum of } x_i^2) - N m^2 \end{aligned} \tag{4} sum of (xi−m)2sum of (xi−m)2=(sum of xi2)+2m(sum of xi)+(sum of m2)=(sum of xi2)+2m(Nm)+Nm2=(sum of xi2)−Nm2(4)
这是一个通过添加 x 1 2 + ⋯ + x N 2 x_1^2 + \cdots + x_N^2 x12+⋯+xN2 来找寻 ( x 1 − m ) 2 + ⋯ + ( x N − m ) (x_1-m)^2+\cdots+(x_N-m) (x1−m)2+⋯+(xN−m) 的等价方式。
现在从概率 p i p_i pi (绝不会是负值)开始,而不再是样本。我们找到期望值而不是样本值。方差 σ 2 \sigma^2 σ2 是统计学中的关键数字。
方差 σ 2 = E [ ( x − m ) 2 ] = p 1 ( x 1 − m ) 2 + ⋯ + p n ( x n − m ) 2 (5) \sigma^2 = \text{E} [(x-m)^2] = p_1 (x_1-m)^2 + \cdots + p_n (x_n-m)^2 \tag{5} σ2=E[(x−m)2]=p1(x1−m)2+⋯+pn(xn−m)2(5)
我们对期望值 m = E [ x ] m = \text{E}[x] m=E[x] 的距离进行平方。我们没有样本,只期望。我们知道概率,但我们不知道实验结果。
到目前为止,我们有 n n n 种可能的结果 x 1 , ⋯ , x n x_1,\cdots,x_n x1,⋯,xn。如果样本年龄为 17 、 18 、 19 17、18、19 17、18、19 岁时,只有 n = 3 n = 3 n=3。如果我们用天而不是年来衡量年龄,那么就会有一千种可能的年龄(太多了)。最好允许 17 17 17 到 20 20 20 岁之间的每个数字——一个可能年龄的连续体。那么年龄 x 1 , x 2 , x 3 x_1, x_2, x_3 x1,x2,x3 岁的概率 p 1 , p 2 , p 3 p_1, p_2, p_3 p1,p2,p3 必须移动到概率分布(probability distribution) p ( x ) p(x) p(x) 在 17 ≤ x ≤ 20 17 \le x \le 20 17≤x≤20 的连续范围内。
解释概率分布的最好方法是举两个例子。它们是均匀分布(uniform distribution)和正态分布(normal distribution)。均匀分布很容易。正态分布非常重要。
均匀分布
假设年龄均匀分布在 17.0 17.0 17.0 到 20.0 20.0 20.0 之间。这些数字之间的所有年龄都是“同等可能的”。当然,任何一个确切的年龄都没有机会。你得到 x = 17.1 x = 17.1 x=17.1 或 x = 17 + 2 x=17+ \sqrt{2} x=17+2 的概率为零。你可以真实地提供(假设我们的均匀分布)一个新生年龄小于 x x x 的概率 F ( x ) F(x) F(x):
年龄小于 x = 17 x=17 x=17 的概率为 F ( 17 ) = 0 F(17)=0 F(17)=0, x ≤ 17 x\le 17 x≤17 永远不会发生
年龄小于 x = 20 x=20 x=20 的概率为 F ( 20 ) = 1 F(20)=1 F(20)=1, x ≤ 20 x\le 20 x≤20 会发生
年龄小于 x x x 的概率为 F ( x ) = 1 3 ( x − 17 ) F(x)=\frac{1}{3}(x-17) F(x)=31(x−17), F F F 从 0 0 0 到 1 1 1
公式 F ( x ) = 1 3 ( x − 17 ) F(x) = \frac{1}{3}(x-17) F(x)=31(x−17) 给出在 x = 17 x= 17 x=17 处 F = 0 F = 0 F=0;那么 x < 17 x < 17 x<17 就不会发生。它给出在 x = 20 x= 20 x=20 处 F ( x ) = 1 F(x)=1 F(x)=1;那么 x ≤ 20 x \le 20 x≤20 是肯定的。在 17 17 17 和 20 20 20 之间,这个均匀模型的累积分布(cumulative distribution) F ( x ) F(x) F(x) 的图呈线性增长。
画出 F ( x ) F(x) F(x) 的图和它的导数 p ( x ) = p(x) = p(x)= 概率密度函数(probability density function)。
你可以说 p ( x ) d x p(x) \text{d}x p(x)dx 是样本落在 x x x 和 x + d x x+\text{d}x x+dx 之间的概率。这是极其真实的(infinitesimally true): p ( x ) d x p(x) \text{d}x p(x)dx 等于 F ( x + d x ) − F ( x ) F(x+\text{d}x) - F(x) F(x+dx)−F(x)。以下是完整描述:
F = integral of p Probability of a ≤ x ≤ b = ∫ a b p ( x ) d x = F ( b ) − F ( a ) (6) F = \text{integral of } p \quad \text{ Probability of} a \le x \le b = \int_{a}^{b} p(x) \text{d}x = F(b) - F(a) \tag{6} F=integral of p Probability ofa≤x≤b=∫abp(x)dx=F(b)−F(a)(6)
F ( b ) F(b) F(b) 是 x ≤ b x \le b x≤b 的概率。我减去 F ( a ) F(a) F(a) 使 x ≥ a x \ge a x≥a 保持不变。这样有 a ≤ x ≤ b a \le x \le b a≤x≤b。
一个概率分布的均值 m m m 和方差 σ 2 \sigma^2 σ2 是多少?之前我们添加了 p i x i p_i x_i pixi 来获得均值(期望均值)。对于一个连续分布我们对 x p ( x ) x p(x) xp(x) 积分:
均值 m = E [ x ] = ∫ x p ( x ) d x = ∫ x = 17 20 ( x ) ( 1 3 ) d x = 18.5 m = \text{E}[x] = \int x p(x) \text{d} x = \int_{x=17}^{20} (x) (\frac{1}{3}) \text{d}x = 18.5 m=E[x]=∫xp(x)dx=∫x=1720(x)(31)dx=18.5
对于均匀分布,均值 m m m 介于 17 17 17 和 20 20 20 之间。那么随机值 x x x 低于中点 m = 18.5 m = 18.5 m=18.5 的概率为 F ( m ) = 1 2 F(m) = \frac{1}{2} F(m)=21。
在 MATLAB 中, x = rand ( 1 ) x = \text{rand}(1) x=rand(1) 在 0 0 0 和 1 1 1 之间均匀地选择一个随机数。期望均值是 m = 1 2 m=\frac{1}{2} m=21。 0 0 0 到 x x x 的区间有 F ( x ) = x F(x) = x F(x)=x 的概率,低于均值 m m m 的区间有 F ( m ) = 1 2 F(m) =\frac{1}{2} F(m)=21 的概率。
方差是到均值距离的平均平方。当有 N N N 个结果时, σ 2 \sigma^2 σ2 是 p i ( x i − m ) 2 p_i (x_i - m)^2 pi(xi−m)2 的和。对于连续随机变量 x x x,求和变成积分。
方差 σ 2 = E [ ( x − m ) 2 ] = ∫ p ( x ) ( x − m ) 2 d x (7) \sigma^2 = \text{E} [(x-m)^2] = \int p(x) (x-m)^2 \text{d}x \tag{7} σ2=E[(x−m)2]=∫p(x)(x−m)2dx(7)
当年龄在 17 ≤ x ≤ 20 17 \le x \le 20 17≤x≤20 之间均匀分布时,积分可以转移至 0 ≤ x ≤ 3 0 \le x \le 3 0≤x≤3:
σ 2 = ∫ 17 20 1 3 ( x − 18.5 ) 2 d x = ∫ 0 3 1 3 ( x − 1.5 ) 2 d x = 1 9 ( x − 1.5 ) 3 ∣ x = 0 x = 3 = 2 9 ( 1.5 ) 3 = 3 4 \sigma^2 = \int_{17}^{20} \frac{1}{3} (x - 18.5)^2 \text{d}x = \int_0^3 \frac{1}{3}(x-1.5)^2 \text{d}x = \frac{1}{9} (x-1.5)^3 |_{x=0}^{x=3} = \frac{2}{9} (1.5)^3 = \frac{3}{4} σ2=∫172031(x−18.5)2dx=∫0331(x−1.5)2dx=91(x−1.5)3∣x=0x=3=92(1.5)3=43
这是一个典型的例子,这是均匀 p ( x ) , 0 p(x), 0 p(x),0 到 a a a 的完整图像。
Uniform distribution for ( 0 ≤ x ≤ a ) Density p ( x ) = 1 a Cumulative F ( x ) = x a Mean m = a 2 halfway Variance σ 2 = ∫ 0 a 1 a ( x − a 2 ) 2 d x = a 2 12 (8) \begin{aligned} \text{Uniform distribution for } (0 \le x \le a) \\ \text{ Density } p(x) = \frac{1}{a} \\ \text{ Cumulative } F(x) = \frac{x}{a} \\ \text{ Mean } m = \frac{a}{2} \text{ halfway} \\ \text{ Variance } \sigma^2 = \int_{0}^{a} \frac{1}{a} (x-\frac{a}{2})^2 \text{d}x = \frac{a^2}{12} \end{aligned} \tag{8} Uniform distribution for (0≤x≤a) Density p(x)=a1 Cumulative F(x)=ax Mean m=2a halfway Variance σ2=∫0aa1(x−2a)2dx=12a2(8)
均值是 a a a 的倍数,方差是 a 2 a^2 a2 的倍数。对于 a = 3 a=3 a=3,有 σ 2 = 9 12 = 3 4 \sigma^2=\frac{9}{12}=\frac{3}{4} σ2=129=43。对于一个在 0 0 0 和 1 1 1 之间的随机数(均值 1 2 \frac{1}{2} 21),方差是 σ 2 = 1 12 \sigma^2 = \frac{1}{12} σ2=121。
\begin{aligned} \end{aligned}