一文看不懂方差和标准差
flyfish
高度(在肩部)为:600mm,470mm,170mm,430mm和300mm。
找出均值(Mean),方差(Variance)和标准偏差((Standard Deviation)。
mean在就是average的意思表示平均水平
第一步是找到均值:
Mean = 600 + 470 + 170 + 430 + 300 5 = 1970 5 = 394 \begin{aligned} \text { Mean } &=\frac{600+470+170+430+300}{5} \\ &=\frac{1970}{5} \\ &=394 \end{aligned} Mean =5600+470+170+430+300=51970=394
平均高度是394毫米。 看绿色的线段,我们把它画在图表上。
要计算方差,需要对每个差进行平方,然后对结果进行平均.
方差(Variance)
σ 2 = 20 6 2 + 7 6 2 + ( − 224 ) 2 + 3 6 2 + ( − 94 ) 2 5 = 42436 + 5776 + 50176 + 1296 + 8836 5 = 108520 5 = 21704 \begin{aligned} \sigma^{2} &=\frac{206^{2}+76^{2}+(-224)^{2}+36^{2}+(-94)^{2}}{5} \\ &=\frac{42436+5776+50176+1296+8836}{5} \\ &=\frac{108520}{5} \\ &=21704 \end{aligned} σ2=52062+762+(−224)2+362+(−94)2=542436+5776+50176+1296+8836=5108520=21704
方差是21704
标准偏差=标准差
标准差就是方差的平方根
标准偏差(Standard Deviation)
σ = 21704 = 147.32 … \begin{aligned} \sigma &=\sqrt{21704} \\ &=147.32 \ldots \end{aligned} σ=21704=147.32…
约等于147
我们在一个标准偏差(147毫米)范围内显示高度
因此,使用标准差,我们可以通过“标准”方式了解什么是正常的,什么是特大或超小。
结论是罗特韦尔犬是高大的狗,腊肠有点短。
标准差是衡量数字分布的一种方法
所以把上面的计算方法变成公式是
把差之后的数,直接加起来,行不行?
把差之后的数,算绝对值,再加起来,行不行?
假设有这样的两组4个数
第一组是 9 、 9 、 1 、 1 9、9、1、1 9、9、1、1
第二组是 12 、 6 、 − 1 、 3 12、6、-1、3 12、6、−1、3
计算第一组
均 值 = ( 9 + 9 + 1 + 1 ) / 4 = 5 均值 =( 9+9+1+1)/4=5 均值=(9+9+1+1)/4=5
计算各个数与均值差多少
9 − 5 = 4 9 − 5 = 4 1 − 5 = ( − 4 ) 1 − 5 = ( − 4 ) \begin{array}{l} 9-5=4 \\ 9-5=4 \\ 1-5=(-4) \\ 1-5=(-4) \end{array} 9−5=49−5=41−5=(−4)1−5=(−4)
可视化看一下
直接加起来0
4 + 4 − 4 − 4 4 = 0 \frac{4+4-4-4}{4}=0 44+4−4−4=0
用绝对值的方法算是4
∣ 4 ∣ + ∣ 4 ∣ + ∣ − 4 ∣ + ∣ − 4 ∣ 4 = 4 + 4 + 4 + 4 4 = 4 \frac{|4|+|4|+|-4|+|-4|}{4}=\frac{4+4+4+4}{4}=4 4∣4∣+∣4∣+∣−4∣+∣−4∣=44+4+4+4=4
用平方的方法算是4
计算第二组
( 12 + 6 + ( − 1 ) + 3 ) / 4 = 5 (12+6+(-1)+3)/4=5 (12+6+(−1)+3)/4=5
计算各个数与均值差多少
12 − 5 = 7 6 − 5 = 1 − 1 − 5 = ( − 6 ) 3 − 5 = ( − 2 ) \begin{array}{l} 12-5=7 \\ 6-5=1 \\ -1-5=(-6) \\ 3-5=(-2) \end{array} 12−5=76−5=1−1−5=(−6)3−5=(−2)
直接加起来是0
用绝对值的方法算是4
∣ 7 ∣ + ∣ 1 ∣ + ∣ − 6 ∣ + ∣ − 2 ∣ 4 = 7 + 1 + 6 + 2 4 = 4 \frac{|7|+|1|+|-6|+|-2|}{4}=\frac{7+1+6+2}{4}=4 4∣7∣+∣1∣+∣−6∣+∣−2∣=47+1+6+2=4
用平方的方法算是4.74
我们希望的是当差异分布得越广,标准差就越大。用平方算,这是其中一个理由。
教科书《概率论与数理统计》浙江大学第四版的答案是
E { ∣ X − E ( X ) ∣ } E\{|X-E(X)|\} E{∣X−E(X)∣}能度量随机变量与其均值 E ( X ) E(X) E(X)的偏离程度。但由于上式带有绝对值,运算不方便,通常用量 E { [ X − E ( X ) ] 2 } E\left\{[X-E(X)]^{2}\right\} E{[X−E(X)]2}来度量随机变量 X X X与其均值 E ( X ) E(X) E(X)的偏离程度。
这样定义就有了
设 X X X是一个随机变量,若 E { [ X − E ( X ) ] 2 } E\left\{[X-E(X)]^{2}\right\} E{[X−E(X)]2}存在,则称 E { [ X − E ( X ) ] 2 } E\left\{[X-E(X)]^{2}\right\} E{[X−E(X)]2}为 X X X的方差,记为 D ( X ) D(X) D(X)或Var(X)。
即 D ( X ) = Var ( X ) = E { [ X − E ( X ) ] 2 } D(X)=\operatorname{Var}(X)=E\left\{[X-E(X)]^{2}\right\} D(X)=Var(X)=E{[X−E(X)]2},而 σ ( X ) = D ( X ) = E { [ X − E ( X ) ] 2 } \sigma(X)=\sqrt{D(X)}=\sqrt{E\left\{[X-E(X)]^{2}\right\}} σ(X)=D(X)=E{[X−E(X)]2}称为标准差或均方差。
他说的运算不方便是怎么回事呢?
人手工算还是计算机算,在什么情况下运算不方便?
看看其他人相关的回答真的很精彩
why-is-it-so-cool-to-square-numbers-in-terms-of-finding-the-standard-deviation
why-square-the-difference-instead-of-taking-the-absolute-value-in-standard-devia
Revisiting a 90-year-old debate: the advantages of the mean deviation
罗纳德·费雪(Ronald Fisher 1890-1962)
现代统计学与现代演化论的奠基者之一,最大似然估计就是他发明的。
第一次世界大战时期他也发表了许多与生物统计相关的论文,包括《孟德尔遗传假定下的亲戚之间的相关性》(The Correlation Between Relatives on the Supposition of Mendelian Inheritance)。这篇论文在1916年完成,并在1918年发表,它同时建立了以生物统计为基础的遗传学,以及著名的统计学分法变异数分析(analysis of variance,简写为ANOVA,也称方差分析)。方差一词就是从他的论文《The Correlation Between Relatives on the Supposition of Mendelian Inheritance》 提出的。
标准差的公式有两个
总体标准差(Population Standard Deviation)和样本标准差(Sample Standard Deviation)
如果这些数据只是样本呢,就是我们有20只狗,我们只测量了5只
公式就放生了变化
原来的公式叫总体标准差
现在公式要变了叫样本标准差 公式如下
这可是高手云集要回答的问题
为什么样本方差(sample variance)的分母是 n-1?
如何理解统计学中自由度这个概念?
证明请参考
另一种证明
参考
https://www.mathsisfun.com/data/standard-deviation.html