抽样调查方法简介
§1.简介
调查的设计:收集数据的方式,提问框架,数据处理方法,样本设计
总体(population)目标总体(target population)调查总体(survey population)
抽样:概率机制(probability mechanism)
抽样估计量(survey estimator)
抽样框(sampling frame):样本中元素的列表
§2.简单随机抽样
简单随机抽样(Simple Random Sampling,SRS)
简单,基础,未被广泛使用
样本量为,总体中所有元素个数为,自然地
要求:任何包含个元素的集合在总体的个元素中具有相同抽取概率
根据是否放回分为两类:
有放回的简单随机抽样(Simple Random Sampling with Replacement)
无放回的简单随机抽样(Simple Random Sampling without Replacement)
其中无放回得到的估计量更加精确,下面讨论之。
对于无放回SRS:
总体均值,总体方差
样本均值,样本方差
一个由无放回SRS得到的样本均值,其方差
FPC项说明了无放回SRS更加精确。
特别地,对于抽样,
其中为抽样比率
§3.系统抽样
系统抽样(Systematic Sampling)
简化抽样过程等概率抽样(Euqal Probability Selection Methods,EPSEM)
要求:抽取一个随即起点后,每个元素进行抽取,则名单在目标变量上接近随机
例3.1:总体容量1872,样本容量250,抽样比率250/1872,抽样间距7.488,三种处理方式
①四舍五入;②环形抽样并保留整数位;
③取1000到7488之间的四位随机数作为起点,小数点前移三位,等比率间隔抽样,并保留整数位
§4.分层抽样
分层抽样(Proportionate Sampling)
总体中的一些元素信息是已知的,从而借此提高样本设计质量和样本估计量质量
要求:根据额外信息来将总体分为子总体(subpopulation)或者层(strata)
根据抽样比率(sampling fraction)分为两类:
按比例分层(proportionate stratification)
非比例分层(disproportionate stratification)
用下角标来表示对应的层,有
在每一层中使用SRS,则
1.按比例分层
有,则
方差分解:,第二项为分层样本均值的异质性
设计效应:,则
分层方式体现了一部分的总体信息,从而获得了小于1的设计效应
2.非比例分层
在给定的资源下实现样本估计量精度的最优化,关注研究领域,实现层间比较
要求:使分层抽样中的抽样比率与该层中元素的标准偏差成正比,并且与每加入来自该层的一个原色所需要成本的平方根成反比,即
此外,也可使用内曼配置(Neyman allocation):
注意:不同目标的最优配置可能相互冲突
3.层的选择
条件:
①每层占总体的比例,即已知
②每层中各自抽取样本的方式可以实现
§5.整群抽样和多阶抽样
整群抽样(cluster sampling):所抽取的群中的所有元素都被包含在样本中
两阶段抽样(two-stage sampling):从每一个选取的群中抽取部分元素作为样本
多阶抽样(multi-stage sampling):首先选取一些大的群,然后在其中抽取一些较小的群,如此进行知道最后的元素是从最后一阶段的群中抽取出来的
注意:分层抽样强调同一层中元素的同质性,多阶段抽样强调同一群中被选取元素的代表性,且当同一群中元素异质性较强时,整群抽样更有优势
整群抽样会损失一些精度,但比较经济
例5.1:整体中有个群,所有的群有相同的规模大小,简单随机抽取其中个群,样本容量
抽样比率
均值
方差
①设计效应:
当总体种群的个数比较大时,相当于SRS抽样中个元素均值的方差,即,此时
如果所选取的群具有较高的内部同质性,那么群间具有更强的异质性,此时
②设计效应:
其中是层内的相关系数,以衡量群内部的同质性程度
一般而言,,从而
绝对不会比更小,而负号的表示整群抽样比SRS更加精确;最大取值为,对应于每个群中所有元素都具有相同取值的情形
例5.1:考虑一个两阶段抽样,通过SRS从个群的总体中抽取出个群来,然后在抽取到的每个群中,通过SRS从个元素中抽取出个单位
均值
方差
其中,
如果,那么第一项为零,相当于分层抽样
如果,那么第二项为零,相当于整群抽样
方差
其中,
①当第一阶段的抽样比率非常小时,第二项趋近于零,此时
②末级群抽样(Ultimate Clusters,UCs)
在每一个群,用SRS每次抽取个元素,得到个UCs
先用SRS抽取出个群来,再在每个群中用SRS抽取出一个UC
进一步地,从个UCs种用SRS抽取出个UC,作为近似
给定非常小,从一个群中抽取两个UCs的几率非常小
有
对于一个固定的总样本量且,子样本量(即UC规模)越小,被抽取的群的数量越多,从而样本均值更加精确;然而,群之间的样本越分散,抽样调查的成本也就越高
设定调查成本的结构:
其中,为总成本,为每个群的成本,为每个元素的成本
得最优子样本量:
在其他条件不变的情况下,如果群内的同质性越高,每个元素的成本就越高,群的成本就越低,那么样本就应该在群之间更加分散,即取一个较小的
Tips:
①在实践中,当有所需的分层信息时,多阶段抽样使用的都是分层抽样,而系统抽样也常常被用到
②分层抽样在抽取群的时候,比抽取元素的时候更加重要,因为它在抽取群的时候能够带来更高的精度
③对多阶段抽样中的第一阶段的群进行分层,或称初级抽样单位(Primary Sampling Units,PSUs),从而尽可能多地进行PSU,然后从每一层中选取一个PSU,同时单个PSU无法估计层内部的方差
折叠层法(collapsed strata):将一对相似的层合并,获得更大的层
配对选取(paired selection design):将一对相似的层打散,在每个中间层进行初级选取,在每个层中得到两个PSU
§6.按规模大小成比例的概率抽样
在上一节中,我们假设群的规模是相等的,然而这一假设在实践中很难满足
用表示群中元素的个数,
选择方程(selection equation):
①将个群,按规模分为个层,并在每个层中抽取一个元素
②成比例抽样(Probability Proportional to Size,PPS)
两阶段抽样:
其中,个初级抽样单位PSUs使用PPS抽样,从每个PSU中再抽取个元素
三阶段抽样:
其中,由PPS得到个PSUs,从每个PSU中再抽取个二阶段单位(Second Stage Units,SSUs),最后在每个SSU中抽取个元素
抽取PSU与SSU的过程也可以采用系统抽样
③末级群抽样类似于PPS
在每个PSU中,形成个UCs,共个UCs,再用SRS获得个UCs
此时与PPS近似等价,但会从同一个PSU中抽取多个UCs且概率很小
由于PPS是EPSEM的,得
又末级群抽样近似,得
按估计规模大小成比例的概率抽样(PPES)
实际规模大小未知,记为估计的规模
则
由于并非完全准确,期望的样本量会有一些变化,总样本量称为随机变量
样本总量,比率均值(ratio mean)
的变化系数时,误差可忽略
有
其中,为与的样本协方差
例6.1:考虑一个EPSEM的分层多阶段抽样
,其中为层中PSU的样本量
,其中为层中的总样本量
使用有放回的近似,得
§7.其他概率抽样设计
1.二象抽样(two phase sampling)
亦称双重抽样(double sampling)
在第一期(first phase)搜集一些信息项,然后在第二期(second phase)从初期样本的子样本获得更多的信息项
人们对于一个调查中的不同估计值精确度的需求是难以调和的,这就意味着我们需要不同的样本规模
第一期的样本可以提供第二期抽样时分层的信息,并意味着两期的成本可能存在很大差异,因而在第一期进行较为松弛的筛选
可扩展至多象抽样(multi-phase sampling)
2.重复抽样(replicated sampling)
亦称贯穿抽样(inter-penetrating sampling)
总体由一系列重复抽取的子样本构成,每一个子样本都是使用相同的抽样方法得到的,每一个子样本都能够提供独立的、可比的对总体参数的估计
用于研究变量的非抽样误差(non-sampling errors),比如由不同访问员和编程者得到的结果变动,以及辅助计算变量的标准误
3.面板设计(panel sampling)
截面(cross-section) 时间序列(time-series)
总变化(gross change):元素级别的变化
净变化(net change):加总层面的变化
面板研究(panel survey)或纵贯研究(longitudinal survey)
人们需要在不同时点对相同的个体进行访问:
①被调查者的迁移;②总体的构成发生变化;③反复采访对采访者产生负面影响
解决方法:面板轮换(panel rotation)
§8.抽样框
不仅提供了一个识别和定位总体中元素的方式,而且经常包含很多额外的可以用来分层或者聚类的方式
理想的抽样框,需要将总体中的每一个元素,有且只有一次地列出来,并且不包含其他排列
基什(Kish)提出了对潜在抽样狂问题和解决方案的四重分类:
1.缺失元素(missing elements)
总体中的某些元素未被包含在抽样框内,有两种情况:
①抽样框是不够的(inadequate)
即该抽样框目标不是包含总体,刻意为之
②抽样框是不完整的(incomplete)
即该抽样框未包含本该包含的元素,无意为之
解决方法:
①通过定义,将缺失元素排除在抽样调查的总体之外
②寻找补充性的抽样框来覆盖缺失元素
③寻求一个包含某种形式的链接程序(linking procedure)的方案
将名单当作循环的(circular),缺失元素作为连接点,置于首元素之前和尾元素之后
2.群(cluster)
某些列举是对元素组而言的,而非元素本身
如我们希望对个人或者住户进行抽样,然而抽样框是住所
解决方法:
①将被抽取的群中所有元素包含进去
②从全部群中进行抽样,同时以防应答污染(contamination of response)
考虑基什表选择法(the Kish selection grid)
3.空白或者外来元素(foreign elements)
某些列举并不与抽样调查的总体中的元素相关
用“空白”(blanks)简称空白与外来元素
解决方法:帅选访问(screening interviews)
在抽到blanks时将其忽略,使得样本量小于我们选择的数量
4.重复列举(duplicate listing)
一些总体中的元素不止一次被列举
当抽样框由数个列表组成时,一些元素可能会在多余一个列表中出现
解决方法:
①在总的抽样框内将重复列举去掉
②独特识别(unique identification):即将每一个元素与其中一个列举,以一种清晰定义的方式联系起来,然后将该元素的其他列举置为blanks
③接受所有的选择,在分析中使用甲醛的方式来调整元素不同的选择概率