方差描述了一组数据距离他们平均值的离散程度。(Variance measures the dispersion of a set of data points around their mean)
例如,如果一个班的平均分是50分,可能有两种极端情况:
这样,我们就可以通过对比两个班的方差,来计算哪个班的成绩比较稳定。
方差分为两种:
总体方差的符号为 σ 2 \sigma^2 σ2,样本方差的符号为 S 2 S^2 S2
我们把重点放在分子上: ∑ i = 1 n ( x i − x ˉ ) 2 \sum^{n}_{i=1} (x_i-\bar{x})^2 ∑i=1n(xi−xˉ)2
x i − x ˉ x_i-\bar{x} xi−xˉ : 距离平均值越小的数据,该结果越小,距离平均值越大的数据,该值越大。
那为什么又要加一个平方呢? ( x i − x ˉ ) 2 (x_i-\bar{x})^2 (xi−xˉ)2,主要有两个目的:
总体方差公式如下:
σ 2 = ∑ i = 1 N ( x i − μ ) 2 N \sigma^2 = \frac{\sum_{i=1}^{N} (x_i -\mu)^2}{N} σ2=N∑i=1N(xi−μ)2
其中, μ \mu μ 为总体数据的平均值, N N N 为总数, x i x_i xi 为每个数据的值
样本方差的公式如下:
S 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 S^2 = \frac{\sum^{n}_{i=1} (x_i-\bar{x})^2}{n-1} S2=n−1∑i=1n(xi−xˉ)2
其中, x ˉ \bar{x} xˉ 为样本数据的平均值, n n n 为样本的总数, x i x_i xi 为每个数据的值
简单来说,如果不减1的话,那么样本方差一定小于总体方差。
数学证明如下(假设样本方差不减1):
由上式子可以看出,除非当 X ˉ = μ \bar{X}=\mu Xˉ=μ 时,否则一定有
而在实践中,我们无法得知总体数据的平均值,所以就通过对 n − 1 n-1 n−1 的方式将样本方差稍微增大,以减少与实际方差的误差。
2 n ∑ i = 1 n ( X i − μ ) = 2 n ( ( X 1 − μ ) + ( X 2 − μ ) + ⋯ + ( X n − μ ) ) = 2 ( X 1 + X 2 + ⋯ + X n ) n − 2 n ∗ n ∗ μ = 2 X ˉ − 2 μ = 2 ( X ˉ − μ ) \begin{aligned} \frac{2}{n} \sum^{n}_{i=1}(X_i - \mu) = & \frac{2}{n} ((X_1 - \mu) + (X_2 - \mu) + \cdots + (X_n - \mu)) \\\\ = & 2\frac{(X_1 + X_2 +\cdots + X_n)}{n} - \frac{2}{n} * n* \mu \\ \\ = & 2\bar{X} - 2\mu \\ \\ = & 2(\bar{X} - \mu) \end{aligned} n2i=1∑n(Xi−μ)====n2((X1−μ)+(X2−μ)+⋯+(Xn−μ))2n(X1+X2+⋯+Xn)−n2∗n∗μ2Xˉ−2μ2(Xˉ−μ)
学过数学的都知道,把方差开平方就是标准差。
那么为什么有了方差,还要引入标准差呢,或者说,为什么开了方,就是标准差呢?
其实,这是为了保证使数据的量纲保持一致。举例来说:
一个班的平局身高为170cm。该班身高的标准差为10cm,方差为100cm
从这个例子就可以看出,通过标准差,我们我可以看出,该班学生的身高大概围绕着170cm上下10cm进行浮动。但是看方差却看不出个所以然
相对标准偏差(Relative Standard Deviation)也可以称为相对标准差,变异系数,标准偏差系数(Coefficient of Variation,CV)。
有了标准差了,为什么又要搞一个相对标准偏差呢?
来看下面这个例子:
假设一个汉堡在美国的不同地区的价格不一样,分别为:1,2,3,4,5,6,7,8,9,10
若现在的美元兑中国的汇率是1:6,那么使用RMB买,价格为:6,12,18,24,30,36,42,48,54,60
那么根据这两个数据,我们很容易得到两组数据:
地区 | 平均值 | 方差 | 标准差 |
---|---|---|---|
美国 | 5.5 | 8.25 | 2.87228 |
中国 | 33 | 297 | 17.23369 |
此时,你拿着这组数据说,RMB买买汉堡时,离散程度(波动程度)要远大于美元。这显然是不合适的。 所以此时,为了针对单位不一致时可以更准确的说明两组数据的离散程度,就引入了相对标准偏差。计算公式也很简单,只需要用标准差除以平均值就是相对标准偏差
此时,我们再对上述两组数据进行比较:
地区 | 平均值 | 方差 | 标准差 | 相对标准偏差 |
---|---|---|---|---|
美国 | 5.5 | 8.25 | 2.87228 | 2.87228 / 5.5 = 0.522 |
中国 | 33 | 297 | 17.23369 | 17.23369 / 33 = 0.522 |
通过对比相对标准偏差,我们可以看到,其实这两组数据的离散程度是一致的
讨论完上面的,就可以开始说正态分布了。
正态分布,英文为Normal Distribution,顾名思义:正常的分布。
生活中大部分数据分布并不是均匀的,例如:收入水平、考试成绩。这些数据都有一个特征:中间数据量多,两边数据量少。最终形成如下图所示的分布情况:
如果实际举例,横坐标为工资,那纵坐标就是人数。中间的 μ \mu μ 为平均工资。
正态分布函数图像的方程式如下:
f ( x ) = 1 2 π σ exp ( − ( x − μ ) 2 2 σ 2 ) f(x) = \frac{1}{\sqrt{2\pi} \sigma} \exp(-\frac{(x-\mu)^2}{2\sigma^2}) f(x)=2πσ1exp(−2σ2(x−μ)2)
该公式中,包含一个自变量 x x x,两个常量 μ \mu μ 和 σ \sigma σ ,其中 μ \mu μ 是指总体平均值, σ \sigma σ是标准差。该公式记做:
X ∼ N ( μ , σ 2 ) X \sim N (\mu, \sigma^2) X∼N(μ,σ2)
读作X服从正态分布。
我们根据下图这个例子:
绿色的线表示婴儿出生时的身高(单位英尺)分布,蓝色的线表示成人的身高分布。这两个数据都符合正态分布。
其中可以看出,绿色的平均值 20,即 μ 绿 = 20 \mu_绿 = 20 μ绿=20,而蓝色的平均值是70,即 μ 蓝 = 70 \mu_蓝=70 μ蓝=70。
所以,正态分布中的平均值 μ \mu μ 是用来决定图的中线在哪里
除此之外可以看出,绿色线的波动范围大概为 ± 5 \pm 5 ±5 英尺,即标准差为5英尺 σ 绿 = 5 \sigma_绿=5 σ绿=5,蓝色线的波动范围大概是 ± 10 \pm 10 ±10英尺,即标准差为10英尺 σ 蓝 = 10 \sigma_蓝=10 σ蓝=10。
所以,正态分布的宽窄,是由标准差决定的
再看,绿色线波动范围要小,所婴儿出生身高为20英尺的概率很大,而蓝色波动范围大,所以一个成年人身高为70英尺的概率相对就会小。所以蓝色线的高度远低于绿色线
所以,正态分布的标准差越小,这个图像就会越高,标准差越大,就会越矮
那么,另一个问题来了,有多少成年人是在 170 ± 10 170\pm10 170±10上下浮动呢,可以通过该图进行说明:
从图中可以看出,正态分布的主要三块面积为:
这个规则适用于所有的正态分布
Variance, Standard Deviation, Coefficient of Variation: https://youtu.be/wDAd_QHKoOg
Understanding the Normal Distribution [Statistics Tutorial]: https://youtu.be/IhtmW28slDw
StatQuest: The Normal Distribution, Clearly Explained!!!: https://youtu.be/rzFX5NWojp0