均值、方差、标准差

1 中间值和均值

表现"中间值"的统计名词:

  • a.均值:   mean,数列的算术平均值,反应了数列的集中趋势,等于有效数值的合除以有效数值的个数.
  • b.中位值:  median,等于排序后中间位置的值,当数列长度为偶数时,取中间两个值的均值.
  • c.众数:   mode,等于数列出现次数最多的数字,当多个数字都出现最高次数时,多个数字都是众数.

在统计学中,为了区分"样本(抽样)概念"和"总体概念",将均值区分为样本均值和总体均值,而它们的实际大小是相同的.

总体均值: μ = ∑ i = 1 N X i N \mu = \frac{\sum_{i=1}^{N}X_i}{N} μ=Ni=1NXi

样本均值: x ˉ = ∑ i = 1 n X i n \bar{x} = \frac{\sum_{i=1}^{n}X_i}{n} xˉ=ni=1nXi

2 总体方差

方差(variance) σ 2 \sigma^2 σ2 是衡量随机变量或一组数据离散程度的度量

总体方差公式 σ 2 = ∑ i = 1 N ( X i − μ ) 2 N \sigma^2 = \frac{\sum_{i=1}^{N}(X_i-\mu)^2}{N} σ2=Ni=1N(Xiμ)2

公式解析:

  • 因为和样本数无关,所以分母为样本数
  • 累加每个值和均值差值的平方,对应于每个值相对于均值的偏差,对应于离散程度,平方是对离散程度的加剧,同时能让差值总为正数,以符合偏差的概念意义。
  • 显然,如果所有数值都乘以n倍,总体方差会乘以 n 2 n^2 n2
    总体方差的使用:[2,2,3,3]和[0,0,5,5]两组数据拥有相同的均值、中位值,但是离散程度却不相同,见下面程序解答。
import numpy as np
a1 = np.array([0,0,5,5])
a2 = np.array([2,2,3,3])
print(a1.var(),a2.var())
print(a1.std(),a2.std())

在这里插入图片描述

基于概率模型的总体方差

某种概率模型中得到0的概率为40%,得到1的概率为60%,这个模型实际上是一种伯努利验证,运行足够多次模型后,所有得到的值的方差为是多少呢?
均值、方差、标准差_第1张图片

样本方差

均值、方差、标准差_第2张图片
均值、方差、标准差_第3张图片
均值、方差、标准差_第4张图片

你可能感兴趣的:(数学,均值算法,概率论,算法)