样本均值的抽样分布的均值问题

声明: 仅仅个人小记
为什么用样本均值来作为总体均值的估计?
这样真的好吗?如果好,到底好到什么程度。

目的

本文用来解释下面这句话(本人对下面这句话的逻辑一开始是不接受的,故而写文记录,以分享个人的逻辑理解):
xˉ\bar{x}xˉ落在μ\muμ的2个σxˉ\sigma _{\bar{x}}σxˉ左右范围的概率
等价于
μ\muμ落在xˉ\bar{x}xˉ的2个σxˉ\sigma _{\bar{x}}σxˉ左右范围的概率

正文

正态分布,从正态分布中随机取出一个值,该值落在(μ−σ,μ+σ)\left ( \mu -\sigma ,\mu +\sigma \right )(μσ,μ+σ)的概率为68%,落在(μ−2σ,μ+2σ)\left( \mu -2\sigma, \mu + 2\sigma \right)(μ2σ,μ+2σ)的概率为95.4%,落在(μ−3σ,μ+3σ)\left( \mu - 3\sigma , \mu +3 \sigma \right)(μ3σ,μ+3σ)的概率为99.7%。

我们知道样本均值的抽样分布,随着样本容量n的增大,愈而趋向正态分布(这是中心极限定理(Central Limit Theory)告知我们的),而且该分布的均值正是总体均值,这一点不是估算的,而是本来就是,容易理解。

结合实际,我们生活中采集一批数据,比如100人的身高数据,可以视为总体身高的一个样本数据;1000人的体重数据,可以视为总体体重的一个样本数据;

而根据样本均值的抽样分布知道,样本均值服从样本均值的抽样分布,也就是,100人身高的均值是服从一个近似正态分布的。 利用正态分布的性质,我们可以值多少,100人身高的均值xˉ\bar{x}xˉ落在该分布均值μ\muμ周围的多少范围的概率都是可以很容易得到的。

xˉ\bar{x}xˉ是服从抽样分布的一次取值,故而知道xˉ\bar{x}xˉ落在(μ−2σ,μ+2σ)\left ( \mu-2\sigma,\mu+2\sigma\right)(μ2σ,μ+2σ)的概率为95.4%,故而不等式μ−2σxˉ<xˉ<μ+2σxˉ\mu-2\sigma _{\bar{x}}<\bar{x}<\mu+2\sigma _{\bar{x}}μ2σxˉ<xˉ<μ+2σxˉ成立的概率就是95.4%。这个不等式的语义为xˉ\bar{x}xˉ落在μ\muμ的2个σxˉ\sigma _{\bar{x}}σxˉ左右范围的概率为95.4%。这个不等式里的未知数是μ\muμxˉ\bar{x}xˉ就是本次的样本均值。还有就是σxˉ\sigma _{\bar{x}}σxˉ,这个是根据最大似然估计的思想,认为样本方差就是总体方差。于是不等式可以变换为xˉ−2σxˉ<μ<xˉ+2σxˉ\bar{x}-2\sigma _{\bar{x}}<\mu<\bar{x}+2\sigma _{\bar{x}}xˉ2σxˉ<μ<xˉ+2σxˉ,这个不等式成立的概率为95.4%,语义上完全等价的变为,μ\muμ落在xˉ\bar{x}xˉ周围2个σxˉ\sigma _{\bar{x}}σxˉ的概率为95.4%。计算出σxˉ\sigma _{\bar{x}}σxˉ,得到μ\muμ的95.4%的置信区间,通常随着样本容量n增大,σxˉ\sigma _{\bar{x}}σxˉ越小,也就意味着样本容量越大,用xˉ\bar{x}xˉ来作为μ\muμ的估计是非常合理的。

所以,面对样本均值的抽样分布问题的时候,我们会直接用样本均值作为总体均值的估计,也就是抽样分布的均值的估计。这是一件很合理的事情,也是逻辑上比较有说服力的事情。

当然,样本均值的抽样分布一共有两个参数需要估计,上面所讲的只是均值的估计。至于标准差的估计,只是运用了最大似然估计的方法(我认为这种方法只是一种猜测,不过也还是具有一定的说服力的)。总体σ^=s\hat{\sigma}=sσ^=s(s为样本标准差),根据中心极限定理知道,样本均值的抽样分布的标准差σxˉ=σn\sigma _{\bar{x}}=\frac {\sigma}{\sqrt{n}}σxˉ=nσ

2018年2月5日 16:59:44 By Jack Lu

你可能感兴趣的:(概率与统计)