数据的离散程度
如下两组数据:
A:1,2,5,8,9
B:3,4,5,6,7
两组数据的均值都是 5,但是 B 组的数据更接近 5。
很多时候有描述集中趋势的统计量是不够的,还要有描述数据的离散程度的统计量。
极差
极差 = 最大值 - 最小值,简单地描述数据的范围大小。如:
A:9 - 1 = 8
B:7 - 3 = 4
可以看出 A 的极差比 B 的极差大,所以 A 组数据比 B 组数据要分散。
但是只用极差来衡量数据离散程度也会存在不足,容易受到异常值的影响。
方差
在统计学上,更常地使用方差来描述数据的离散程度。
公式:
X为变量,为变量的均值,N为变量的数量。
方差越大,数据离中心越远越离散。
方差简化公式(使用这个公式可以简化运算):
标准差
对于前面例子的数据 [1, 2, 5, 8, 9],求出来的方差是10,但是这个方差值是否说明这一组数据非常离散呢?
由于方差的单位和原始数据的单位不一样,如果原始数据的单位是 m,那么方差的单位就是 m^2,这样比较没多大意义。
为了保持单位的一致性,我们引入一个新的统计量:标准差。
公式:
这样原始数据和标准差的单位就一致了。
标准差越大,表示数据越分散。