总体标准差、样本标准差、标准误差

我们之前学的标准差,指的是总体标准差,但是在现实中,由于样本数量很大,且都具有随机性,我们不可能得到全部的样本,所以要计算出总体标准差是不现实的。
 
通常情况下,我们只能从某个事物中进行抽样,然后从抽样样本中估计总体标准差。
 

总体标准差

 
公式:
 

x 为某个样本,  为总体样本的均值,n 为总体样本的数量。
 
 

样本标准差

 
公式:
 

x 为某个抽样样本,  为抽样样本的均值,n 为抽样样本的数量。
 
可以看出,总体标准差和样本标准差的区别是,一个分母是 n,一个分母是 (n - 1)。
 
为什么样本标准差的分母是 (n - 1) ?
 
维基百科的说法是:在统计学中样本的均差多是除以自由度 (n - 1),意思是样本能够自由选择的程度。当选到只剩一个时,它就不可能再有自由了,所以自由度是 (n - 1)。
 
意思是在抽样完成后,平均值  就已经确定了,在从 n 个样本逐个选取过程中,如果已经选取了 (n - 1) 个样本,那么最后剩下的一个就是能够确定平均值  的样本。也就是如果剩下的样本数大于 1 时,就还有可以挑选的自由,当只剩下一个时,就别无选择了。所以说,n 个样本中,只有 (n - 1) 个样本可以自由变化。
 
现实中,我们很难获取到全部的样本,因此,要从抽样样本来预估总体样本,也就是要把抽样样本当作总体样本来看待,这时抽样样本的数量就不能是 n ,这里的 n 代表是总体样本数量,这是不能确定的数,而 n 个样本中,可以自由选择的是 (n - 1) 个样本,所以分母是 (n - 1) 。
 
在机器学习中,分母通常是 n,其实无论分母是 n 还是 (n - 1),对模型的训练并无影响。
 
 

标准误差

 
标准误差指的是样本均值的标准差,衡量的是样本均值的离散程度。
 
因为每一次抽样得到的平均值都是不一样的,需要进行多次抽样后,再用多个样本均值来估计总体均值,那么样本均值的离散程度越大,抽样误差就越大。
 
所以用标准误差来衡量抽样误差的大小。
 
 
 

你可能感兴趣的:(数学,统计)