python分层抽样_抽样方法—分层抽样

python分层抽样_抽样方法—分层抽样_第1张图片

接着上文说,简单随机抽样法和分层抽样法的对比有过一个经典的例子。1936年美国总统大选,《文学文摘》杂志对结果进行了调查预测。他们根据当时的电话号码簿及该杂志订户俱乐部会员名单,邮寄一千万份问卷调查表,回收约240万份,结论是兰登取胜,而盖洛普也组织了抽样调查,进行民意测试。他的预测与《文学文摘》截然相反,认为罗斯福必胜无疑。结果,罗斯福赢得了2770万张民众选票,从此盖洛普名声大噪,而盖洛普采用的就是分层抽样法。

乔治·盖洛普

分层抽样法是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样本的方法,可以避免对样本来源集中于某一群体,能够更客观地反映全体投票者的倾向。盖洛普根据白人和黑人的比例,穷人和富人的人口比例,调整调查样本的比例,将人口分为不同层次,按照层次比例分配样本数,而后在每个层次内使用随机抽样的方式进行调查。

具体来说,确定各层样本数的方法有三种:

第一是分层定比。即各层样本数与该层总体数的比值相等。例如,样本大小n=50,总体N=500,则n/N=0.1 即为样本比例,每层均按这个比例确定该层样本数。这种方法存在的问题在于,某些事情所占比例虽低但影响巨大,例如信用卡信用评级,逾期用户是少数,但确实研究重点,要是按照比例抽样会造成样本不足。

第二,非比例分配法。当某个层次包含的个案数在总体中所占比例太小时,为使该层的特征在样本中得到足够的反映,可人为地适当增加该层样本数在总体样本中的比例。正如信用卡信用评级一样,需要提高逾期用户的抽样比例,增加获得的信息量。

第三,奈曼法。即各层应抽样本数与该层总体数及其标准差的积成正比。这个方法是考虑抽样成本的方法,核心思想是用最少的抽样成本获得最全面的信息,标准差小的层可以少抽样,反之则要扩大抽样量,力求获得更多有用的信息。

分层抽样法的难点首先是在于总体信息获得的难度,这一方法前提要获得总体一定的统计信息,用以进行分层,而对于很多调查来说,总体信息是不可知或者难以获得的。其次,是数据分层的依据难以确定, 分层依据是否有足够的区分度,各层内部是否具有足够共性,这都是难点。

行思知识工坊为本人个人工作室,本人软件工程硕士,拥有DB2数据库认证,软考软件设计师、信息系统项目管理师资格、三级企业人力资源管理师资质,多年实战经验,提供基于Python、R和Excel的数据分析服务、人力资源管理咨询、WPS模板制作、PHP程序开发、数据库调优、信息系统项目管理咨询等服务。

更多模板和信息请关注设计师公众号“行思知识工坊”:

python分层抽样_抽样方法—分层抽样_第2张图片

你可能感兴趣的:(python分层抽样)