中心极限定理

中心极限定理

1 理解

Theorem: The mean of sample mean( x ‾ \overline{x} x) is equal to the mean of population μ \mu μ. (Independent of the distribution of population and sample size n)

μ x ‾ = μ \mu\overline{x} = \mu μx=μ

Theorem S E = σ x ‾ = σ n SE=\sigma\overline{x} = \frac{\sigma}{\sqrt{n}} SE=σx=n σ

注意, σ x ‾ \sigma\overline{x} σx是样本均值的标准差STD,又叫做标准误差(SE,Standard Error), 它是衡量样本均值的波动程度。

Theorem: If the population is normally distributed, the distribution of sample mean is normal.(Independent of sample size n)

Theorem: If the population is not normally distributed, but the sample size n > 30, the sampling distribution of the sample means approximates normal.

关键点

  • 总体是什么分布。 现实中,我们也很难知道总体的分布。
  • 样本大小n。

在不清楚总体分布的情况下, 我们取N个样本,每个样本的大小为n, 计算这N个样本的均值, 我们会发现,样本的均值的均值等于总体的均值。 当n越大(>30)时, 样本均值的分布越趋近于正太分布。实际上不仅仅是对样本均值而言,对样本其他统计特征(如median、sum、proportion)的分布也是趋近于正太分布的。

2 应用

  • 在不知道总体的分布情况下, 我们可以用样本估计总体。

民意调查之类, 抽取一个样本(如1000), 计算其均值,该均值可用于估计总体的均值(在总体均值附近)。 我的理解是,实际上,当我们取N个样本,计算这N个样本均值的均值能更准确的计算总体的均值。

  • 判断样本是否属于总体。

已知总体均值和STD,给定一个样本(大于30),计算出SE,样本均值分布服从正太分布,判断该样本在该分布出现的概率。假如某个样本的平均值减去总体的平均值,大于3个标准误差。根据99.7%的样本平均值会处于总体平均值3个标准误差的范围内,因此我们可以得出该样本不属于总体。

你可能感兴趣的:(统计知识)