总体标准差、样本标准差、标准误差

总体标准差、样本标准差、标准误差

  • 前言
  • 总体标准差
  • 样本标准差
  • 标准误差

前言

我们之前学的标准差,指的是总体标准差,但是在现实中,由于样本数量很大,且都具有随机性,我们不可能得到全部的样本,所以要计算出总体标准差是不现实的。
通常情况下,我们只能从某个事物中进行抽样,然后从抽样样本中估计总体标准差。

总体标准差

公式:

σ = ∑ i = 1 n ( x i − μ ) 2 n \sigma = \sqrt {\frac {\sum_ {i=1}^ {n} (x_i - \mu)^2} {n}} σ=ni=1n(xiμ)2

x 为某个样本, x ˉ \bar{x} xˉ 为总体样本的均值,n为总体样本的数量。

样本标准差

公式
S = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 S = \sqrt{\frac{\sum_{i=1}^ {n} (x_i - \bar{x})^2}{n-1}} S=n1i=1n(xixˉ)2

x 为某个抽样样本, x ˉ \bar{x} xˉ 为抽样样本的均值,n为抽样样本的数量。

可以看出,总体标准差和样本标准差的区别是,一个分母是n,一个分母是(n - 1)。

为什么样本标准差的分母是(n -1 )?
维基百科的说法是:在统计学中样本的均差多是除以自由度 (n - 1),意思是样本能够自由选择的程度。当选到只剩一个时,它就不可能再有自由了,所以自由度是 (n - 1)。

意思是在抽样完成后,平均值 就已经确定了,在从 n 个样本逐个选取过程中,如果已经选取了 (n - 1) 个样本,那么最后剩下的一个就是能够确定平均值 的样本。也就是如果剩下的样本数大于 1 时,就还有可以挑选的自由,当只剩下一个时,就别无选择了。所以说,n 个样本中,只有 (n - 1) 个样本可以自由变化。

现实中,我们很难获取到全部的样本,因此,要从抽样样本来预估总体样本,也就是要把抽样样本当作总体样本来看待,这时抽样样本的数量就不能是 n ,这里的 n 代表是总体样本数量,这是不能确定的数,而 n 个样本中,可以自由选择的是 (n - 1) 个样本,所以分母是 (n - 1) 。

在机器学习中,分母通常是 n,其实无论分母是 n 还是 (n - 1),对模型的训练并无影响。

标准误差

标准误差指的是样本均值的标准差,衡量的是样本均值的离散程度。

因为每一次抽样得到的平均值都是不一样的,需要进行多次抽样后,再用多个样本均值来估计总体均值,那么样本均值的离散程度越大,抽样误差就越大。

所以用标准误差来衡量抽样误差的大小。

你可能感兴趣的:(数学,人工智能,概率论)