01抽样调查方法简介

抽样调查方法简介


§1.简介

        调查的设计:收集数据的方式,提问框架,数据处理方法,样本设计

        总体(population)目标总体(target population)调查总体(survey population)

        抽样:概率机制(probability mechanism)

                抽样估计量(survey estimator)

                抽样框(sampling frame):样本中元素的列表


§2.简单随机抽样

        简单随机抽样(Simple Random Sampling,SRS)

        简单,基础,未被广泛使用

        样本量为,总体中所有元素个数为,自然地

        要求:任何包含个元素的集合在总体的个元素中具有相同抽取概率


        根据是否放回分为两类:

        有放回的简单随机抽样(Simple Random Sampling with Replacement)

        无放回的简单随机抽样(Simple Random Sampling without Replacement)

        其中无放回得到的估计量更加精确,下面讨论之。


        对于无放回SRS:

        总体均值,总体方差

        样本均值,样本方差

        一个由无放回SRS得到的样本均值,其方差

        FPC项说明了无放回SRS更加精确。

        特别地,对于抽样,

    其中为抽样比率


§3.系统抽样

        系统抽样(Systematic Sampling)

        简化抽样过程等概率抽样(Euqal Probability Selection Methods,EPSEM)

        要求:抽取一个随即起点后,每个元素进行抽取,则名单在目标变量上接近随机


例3.1:总体容量1872,样本容量250,抽样比率250/1872,抽样间距7.488,三种处理方式

        ①四舍五入;②环形抽样并保留整数位;

        ③取1000到7488之间的四位随机数作为起点,小数点前移三位,等比率间隔抽样,并保留整数位


§4.分层抽样

        分层抽样(Proportionate Sampling)

        总体中的一些元素信息是已知的,从而借此提高样本设计质量和样本估计量质量

        要求:根据额外信息来将总体分为子总体(subpopulation)或者层(strata)


        根据抽样比率(sampling fraction)分为两类:

        按比例分层(proportionate stratification)

        非比例分层(disproportionate stratification)


        用下角标来表示对应的层,有

       

        在每一层中使用SRS,则

    1.按比例分层

        有,则

        方差分解:,第二项为分层样本均值的异质性

        设计效应:,则

        分层方式体现了一部分的总体信息,从而获得了小于1的设计效应

    2.非比例分层

        在给定的资源下实现样本估计量精度的最优化,关注研究领域,实现层间比较

        要求:使分层抽样中的抽样比率与该层中元素的标准偏差成正比,并且与每加入来自该层的一个原色所需要成本的平方根成反比,即

        此外,也可使用内曼配置(Neyman allocation):

        注意:不同目标的最优配置可能相互冲突

    3.层的选择

        条件:

        ①每层占总体的比例,即已知

        ②每层中各自抽取样本的方式可以实现


§5.整群抽样和多阶抽样

        整群抽样(cluster sampling):所抽取的群中的所有元素都被包含在样本中

        两阶段抽样(two-stage sampling):从每一个选取的群中抽取部分元素作为样本

        多阶抽样(multi-stage sampling):首先选取一些大的群,然后在其中抽取一些较小的群,如此进行知道最后的元素是从最后一阶段的群中抽取出来的

        注意:分层抽样强调同一层中元素的同质性,多阶段抽样强调同一群中被选取元素的代表性,且当同一群中元素异质性较强时,整群抽样更有优势

        整群抽样会损失一些精度,但比较经济


例5.1:整体中有个群,所有的群有相同的规模大小,简单随机抽取其中个群,样本容量

        抽样比率

        均值\begin{align*}\overline{Y}_\alpha&=\frac{1}{B}\sum_{\beta=1}^BY_{\alpha\beta},\quad\overline{Y}=\frac{1}{N}\sum_{\alpha=1}^A\sum_{\beta=1}^BY_{\alpha\beta}=\frac{1}{A}\sum_{\alpha=1}^A\overline{Y}_\alpha\\\overline{y}_\alpha&=\frac{1}{B}\sum_{\beta=1}^BY_{\alpha\beta},\quad\overline{y}_c=\frac{1}{n}\sum_{\alpha=1}^a\sum_{\beta=1}^BY_{\alpha\beta}=\frac{1}{a}\sum_{\alpha=1}^a\overline{y}_\alpha\end{align*}

        方差\begin{align*}V(\overline{y}_c)&=(1-\frac{a}{A})\frac{S_a^2}{a},\quad where\quad S_a^2=\frac{1}{A-1}\sum_{\alpha=1}^A(\overline{Y}_\alpha-\overline{Y})^2\\v(\overline{y}_c)&=(1-\frac{a}{A})\frac{s_a^2}{a},\quad where\quad s_a^2=\frac{1}{a-1}\sum_{\alpha=1}^a(\overline{y}_\alpha-\overline{y}_c)^2\end{align*}

     ①设计效应:

        当总体种群的个数比较大时,相当于SRS抽样中个元素均值的方差,即,此时

        如果所选取的群具有较高的内部同质性,那么群间具有更强的异质性,此时

    ②设计效应:

        其中是层内的相关系数,以衡量群内部的同质性程度

        一般而言,,从而

        绝对不会比更小,而负号的表示整群抽样比SRS更加精确;最大取值为,对应于每个群中所有元素都具有相同取值的情形


例5.1:考虑一个两阶段抽样,通过SRS从个群的总体中抽取出个群来,然后在抽取到的每个群中,通过SRS从个元素中抽取出个单位

        均值

        方差

    其中,

        如果,那么第一项为零,相当于分层抽样

        如果,那么第二项为零,相当于整群抽样

        方差

    其中,

    ①当第一阶段的抽样比率非常小时,第二项趋近于零,此时

    ②末级群抽样(Ultimate Clusters,UCs)

        在每一个群,用SRS每次抽取个元素,得到个UCs

        先用SRS抽取出个群来,再在每个群中用SRS抽取出一个UC

        进一步地,从个UCs种用SRS抽取出个UC,作为近似

        给定非常小,从一个群中抽取两个UCs的几率非常小

        有

        对于一个固定的总样本量且,子样本量(即UC规模)越小,被抽取的群的数量越多,从而样本均值更加精确;然而,群之间的样本越分散,抽样调查的成本也就越高

        设定调查成本的结构:

    其中,为总成本,为每个群的成本,为每个元素的成本

        得最优子样本量:

        在其他条件不变的情况下,如果群内的同质性越高,每个元素的成本就越高,群的成本就越低,那么样本就应该在群之间更加分散,即取一个较小的


Tips:

    ①在实践中,当有所需的分层信息时,多阶段抽样使用的都是分层抽样,而系统抽样也常常被用到

    ②分层抽样在抽取群的时候,比抽取元素的时候更加重要,因为它在抽取群的时候能够带来更高的精度

    ③对多阶段抽样中的第一阶段的群进行分层,或称初级抽样单位(Primary Sampling Units,PSUs),从而尽可能多地进行PSU,然后从每一层中选取一个PSU,同时单个PSU无法估计层内部的方差

        折叠层法(collapsed strata):将一对相似的层合并,获得更大的层

        配对选取(paired selection design):将一对相似的层打散,在每个中间层进行初级选取,在每个层中得到两个PSU


§6.按规模大小成比例的概率抽样

        在上一节中,我们假设群的规模是相等的,然而这一假设在实践中很难满足

        用表示群中元素的个数,

        选择方程(selection equation):

    ①将个群,按规模分为个层,并在每个层中抽取一个元素

    ②成比例抽样(Probability Proportional to Size,PPS)

        两阶段抽样:

    其中,个初级抽样单位PSUs使用PPS抽样,从每个PSU中再抽取个元素

        三阶段抽样:

    其中,由PPS得到个PSUs,从每个PSU中再抽取个二阶段单位(Second Stage Units,SSUs),最后在每个SSU中抽取个元素

        抽取PSU与SSU的过程也可以采用系统抽样

    ③末级群抽样类似于PPS

        在每个PSU中,形成个UCs,共个UCs,再用SRS获得个UCs

        此时与PPS近似等价,但会从同一个PSU中抽取多个UCs且概率很小

        由于PPS是EPSEM的,得

        又末级群抽样近似,得


        按估计规模大小成比例的概率抽样(PPES)

        实际规模大小未知,记为估计的规模

        则

        由于并非完全准确,期望的样本量会有一些变化,总样本量称为随机变量

        样本总量,比率均值(ratio mean)

        的变化系数时,误差可忽略

        有

    其中,为与的样本协方差


例6.1:考虑一个EPSEM的分层多阶段抽样

        ,其中为层中PSU的样本量

        ,其中为层中的总样本量

        使用有放回的近似,得\begin{align*}v(y)&=\sum_h a_hs_{yh}^2,\quad s_{yh}^2=\frac{1}{a_h-1}\sum_{\alpha}[y_{h\alpha}-y_h/a_h]^2\\v(x)&=\sum_h a_hs_{xh}^2,\quad s_{xh}^2=\frac{1}{a_h-1}\sum_{\alpha}[x_{h\alpha}-x_h/a_h]^2\\c(x,y)&=\sum_h a_hs_{xyh},\quad s_{xyh}=\frac{1}{a_h-1}\sum_{\alpha}[x_{h\alpha}-x_h/a_h][y_{h\alpha}-y_h/a_h]\end{align*}


§7.其他概率抽样设计

    1.二象抽样(two phase sampling)

        亦称双重抽样(double sampling)

        在第一期(first phase)搜集一些信息项,然后在第二期(second phase)从初期样本的子样本获得更多的信息项

        人们对于一个调查中的不同估计值精确度的需求是难以调和的,这就意味着我们需要不同的样本规模

        第一期的样本可以提供第二期抽样时分层的信息,并意味着两期的成本可能存在很大差异,因而在第一期进行较为松弛的筛选

        可扩展至多象抽样(multi-phase sampling)

    2.重复抽样(replicated sampling)

        亦称贯穿抽样(inter-penetrating sampling)

        总体由一系列重复抽取的子样本构成,每一个子样本都是使用相同的抽样方法得到的,每一个子样本都能够提供独立的、可比的对总体参数的估计

        用于研究变量的非抽样误差(non-sampling errors),比如由不同访问员和编程者得到的结果变动,以及辅助计算变量的标准误

    3.面板设计(panel sampling)

        截面(cross-section)        时间序列(time-series)

        总变化(gross change):元素级别的变化

        净变化(net change):加总层面的变化

        面板研究(panel survey)或纵贯研究(longitudinal survey)

        人们需要在不同时点对相同的个体进行访问:

        ①被调查者的迁移;②总体的构成发生变化;③反复采访对采访者产生负面影响

        解决方法:面板轮换(panel rotation)


§8.抽样框

        不仅提供了一个识别和定位总体中元素的方式,而且经常包含很多额外的可以用来分层或者聚类的方式

        理想的抽样框,需要将总体中的每一个元素,有且只有一次地列出来,并且不包含其他排列

        基什(Kish)提出了对潜在抽样狂问题和解决方案的四重分类:

    1.缺失元素(missing elements)

        总体中的某些元素未被包含在抽样框内,有两种情况:

    ①抽样框是不够的(inadequate)

        即该抽样框目标不是包含总体,刻意为之

    ②抽样框是不完整的(incomplete)

        即该抽样框未包含本该包含的元素,无意为之

        解决方法:

    ①通过定义,将缺失元素排除在抽样调查的总体之外

    ②寻找补充性的抽样框来覆盖缺失元素

    ③寻求一个包含某种形式的链接程序(linking procedure)的方案

        将名单当作循环的(circular),缺失元素作为连接点,置于首元素之前和尾元素之后

    2.群(cluster)

        某些列举是对元素组而言的,而非元素本身

        如我们希望对个人或者住户进行抽样,然而抽样框是住所

        解决方法:

    ①将被抽取的群中所有元素包含进去

    ②从全部群中进行抽样,同时以防应答污染(contamination of response)

        考虑基什表选择法(the Kish selection grid)

    3.空白或者外来元素(foreign elements)

        某些列举并不与抽样调查的总体中的元素相关

        用“空白”(blanks)简称空白与外来元素

        解决方法:帅选访问(screening interviews)

        在抽到blanks时将其忽略,使得样本量小于我们选择的数量

    4.重复列举(duplicate listing)

        一些总体中的元素不止一次被列举

        当抽样框由数个列表组成时,一些元素可能会在多余一个列表中出现

        解决方法:

    ①在总的抽样框内将重复列举去掉

    ②独特识别(unique identification):即将每一个元素与其中一个列举,以一种清晰定义的方式联系起来,然后将该元素的其他列举置为blanks

    ③接受所有的选择,在分析中使用甲醛的方式来调整元素不同的选择概率

你可能感兴趣的:(01抽样调查方法简介)