统计学③——总体与样本

一、总体与样本定义

总体:所研究的所有事件的集合
样本:是从总体中抽出的数量相对较小的集合,可用于做出对总体的结论

二、抽样方法

我们希望抽取的样本分布和总体分布一致,这样用样本估计总体会比较准确,这种样本叫作无偏样本。
统计学③——总体与样本_第1张图片
无偏样本的抽样方法
简单随机抽样:抽签,随机编号生成器,有放回抽样和不放回两种
分层抽样:将总体分为几个层,层内部相似,层与层之间差距较大,再对每一层进行简单随机抽样
整群抽样:将总体分为几个群,群与群之间相似,随机抽取几个群作为样本
系统抽样:随机选取一个数据K,每次到第K个抽样单位就抽一次

三、总体参数的估计

①总体均值
当通过抽样获得无偏样本后,可以直接用样本的均值来估计总体的均值,如下:
统计学③——总体与样本_第2张图片
在这里插入图片描述
②总体方差
方差是否可以直接用样本方差呢?答案是No,因为方差衡量的是分散性,样本相对总体而言,数量较少,可能会将一些异常值排除在外,导致样本的方差要少于总体
统计学③——总体与样本_第3张图片
如果要确切知道总体的方差,并且拥有总体的数据,方差的计算如下:
统计学③——总体与样本_第4张图片
如果需要用样本估计总体的方差,计算如下:
统计学③——总体与样本_第5张图片
之所以用n-1而不是n,,是因为n-1会使得方差稍微大一些,更接近总体方差

③总体比例
样本比例直接估计总体比例
在这里插入图片描述

四、比例抽样分布

当考虑从一个总体中抽取所有大小为n的样本,由这些样本中的某个比例所形成的分布,就叫比例的抽样分布,一般用Ps表示样本比例变量

一般用来求解这类问题:当得知公司生产的糖果有25%的红色的,那么随机抽取100个样本,至少有50%的糖果是红色的概率?

Ps的期望和方差定义为:
在这里插入图片描述
如果n>30时,二项分布可以近似为正态分布
在这里插入图片描述
需要进行连续性修正

五、均值抽样分布

如果考虑从一个总体中抽出所有大小为n的样本,然后用这些样本的均值形成一个分布,那么这个分布就叫均值抽样分布。

一般用来求解这类问题:总体中每个袋子平均有10颗糖,那么随机抽取一个袋子中糖的个数小于8的概率是多少?

期望和方差的计算如下:
在这里插入图片描述
样本的均值期望就是总体的均值,而方差却不等于总体方差,这里是为什么呢?

因为总体方差衡量的是总体样本的分散性,而均值方差衡量的是所有抽取的样本的均值的分散性,是2个不同的东西。用总体的方差/n 表示随着样本数量增多,样本均值方差会越来越小,意味着样本均值越来越接近于总体均值

如果总体符合均值为μ,方差为σ^2的正态分布,那么抽取的样本均值符合如下分布:
在这里插入图片描述
如果总体不是正态分布时,那样本均值还会符合上述分布吗?答案是看情况,如果抽取的样本n很大时,还是符合上述分布的,这里要重点引出中心极限定理:
统计学③——总体与样本_第6张图片
中心极限定理可以运用于:

① 如果总体属于二项分布,用X~B(n,p)表示,n>30,则样本均值的抽样分布近似N(np,pq/n)
② 如果总体属于泊松分布,用Po(λ)表示,n>30,则样本均值的抽样分布近似N(λ,λ/n)

因为均值的抽样分布属于正态分布,就可以通过标准化再差概率表得到特定样本均值的概率了

你可能感兴趣的:(统计学)