146、统计学之总体和样本

一、总体(population)和样本(sample)
总体:研究对象的整个群体。
样本:从总体中选取的一部分。
样本数量:有多少个样本。
样本大小(样本容量):每个样本里包含多少个数据。
抽样分布:将样本平均值的分布可视化。
二、中心极限定理(central limit theorem)

中心极限定理:样本平均值约等于总体平均值,且不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。如下:
1.中心极限定理.png

中心极限定理的作用:
1)用样本来估计总体(民意调查)
2)根据总体信息,判断某个样本是否属于总体(3个标准差,概率97%)
三、如何用样本估计总体
(1)选用正确的抽样方法
因为很多时候我们无法选择所有数据进行调查,这时候一般采用从整体中抽取样本进行调研。
抽样方法:简单随机抽样、分层抽样、整群抽样、系统抽样等。
① 简单随机抽样
简单随机抽样就是通过随机过程选取一个大小为n的样本,所有大小为n的可能样本被选中的可能性都相同。
简单随机抽样有两种具体做法:重复抽样和不重复抽样。
重复抽样:在选取一个抽样单位并记录下这个抽样单位的相关信息之后,再讲这个单位放回总体中。
不重复抽样:抽取样品后不再将其放回样品总体。
② 分层抽样
分层抽样就是将总体按特征划分为不同的层,对每一个层进行随机抽样,然后查看每一个层在总体中所占的比例,最后按照相应比例从每一个层中抽取。
③ 整群抽样
整体抽样就是将总体划分为几个相似的群,先通过简单随机抽样选取群,再对群里的对象进行抽样。
④ 系统抽样
先选取一个数字k,然后每到k个对象就进行抽取,组成样本。
(2)利用样本平均值约等于总体平均值(中心极限定理)
(3)利用总体标准差估计:

标准差:衡量数据集的波动大小
2.总体标准差估计.jpg

标准误差:衡量样本平均值的波动大小
3.标准误差.jpg

估计总体方差公式:
4.估计总体方差公式.png

(4)Python代码实现

随机数random模块:
5.随机数random模块.png

抽奖案例:
6.抽奖案例.png

pandas数据框(DataFrame)的抽样方法:
7.pandas数据框(DataFrame)的抽样方法.png

四、如何避免偏差
1)样本偏差:抽样空间中的条目不齐全,因此未包含目标总体中的所有对象,俗称以偏概全。
避免措施:增大样本数量,样本越大越可靠,基于小样本的结论一般存在以偏概全的问题。
2)幸存者偏差:根据成功的样本采集数据,但由于其幸存者的概率是极小的,不具有代表性。
避免措施:学会多个角度全面观察问题,学会屏蔽噪音。
3)概率偏见:就是根据人们心目中的概率(心理概率)和客观的概率不吻合,而造成的偏差。
避免措施:学好统计与概率,用数学方法去验证,对于不能验证客观概率的时候,多方面咨询专业人士的看法,降低概率偏见的可能性。
4)信息茧房:指人们的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象。
避免措施:避免个性化推荐。

你可能感兴趣的:(146、统计学之总体和样本)