抽样调查方法简介

§1.简介

调查的设计：收集数据的方式，提问框架，数据处理方法，样本设计

总体（population）目标总体（target population）调查总体（survey population）

抽样：概率机制（probability mechanism）

抽样估计量（survey estimator）

抽样框（sampling frame）：样本中元素的列表

§2.简单随机抽样

简单随机抽样（Simple Random Sampling，SRS）

简单，基础，未被广泛使用

样本量为，总体中所有元素个数为，自然地

要求：任何包含个元素的集合在总体的个元素中具有相同抽取概率

根据是否放回分为两类：

有放回的简单随机抽样（Simple Random Sampling with Replacement）

无放回的简单随机抽样（Simple Random Sampling without Replacement）

其中无放回得到的估计量更加精确，下面讨论之。

对于无放回SRS：

总体均值，总体方差

样本均值，样本方差

一个由无放回SRS得到的样本均值，其方差

FPC项说明了无放回SRS更加精确。

特别地，对于抽样，

其中为抽样比率

§3.系统抽样

系统抽样（Systematic Sampling）

简化抽样过程等概率抽样（Euqal Probability Selection Methods，EPSEM）

要求：抽取一个随即起点后，每个元素进行抽取，则名单在目标变量上接近随机

例3.1：总体容量1872，样本容量250，抽样比率250/1872，抽样间距7.488，三种处理方式

①四舍五入；②环形抽样并保留整数位；

③取1000到7488之间的四位随机数作为起点，小数点前移三位，等比率间隔抽样，并保留整数位

§4.分层抽样

分层抽样（Proportionate Sampling）

总体中的一些元素信息是已知的，从而借此提高样本设计质量和样本估计量质量

要求：根据额外信息来将总体分为子总体（subpopulation）或者层（strata）

根据抽样比率（sampling fraction）分为两类：

按比例分层（proportionate stratification）

非比例分层（disproportionate stratification）

用下角标来表示对应的层，有

在每一层中使用SRS，则

1.按比例分层

有，则

方差分解：，第二项为分层样本均值的异质性

设计效应：，则

分层方式体现了一部分的总体信息，从而获得了小于1的设计效应

2.非比例分层

在给定的资源下实现样本估计量精度的最优化，关注研究领域，实现层间比较

要求：使分层抽样中的抽样比率与该层中元素的标准偏差成正比，并且与每加入来自该层的一个原色所需要成本的平方根成反比，即

此外，也可使用内曼配置（Neyman allocation）：

注意：不同目标的最优配置可能相互冲突

3.层的选择

条件：

①每层占总体的比例，即已知

②每层中各自抽取样本的方式可以实现

§5.整群抽样和多阶抽样

整群抽样（cluster sampling）：所抽取的群中的所有元素都被包含在样本中

两阶段抽样（two-stage sampling）：从每一个选取的群中抽取部分元素作为样本

多阶抽样（multi-stage sampling）：首先选取一些大的群，然后在其中抽取一些较小的群，如此进行知道最后的元素是从最后一阶段的群中抽取出来的

注意：分层抽样强调同一层中元素的同质性，多阶段抽样强调同一群中被选取元素的代表性，且当同一群中元素异质性较强时，整群抽样更有优势

整群抽样会损失一些精度，但比较经济

例5.1：整体中有个群，所有的群有相同的规模大小，简单随机抽取其中个群，样本容量

抽样比率

均值 $\begin{align*}\overline{Y}_\alpha&=\frac{1}{B}\sum_{\beta=1}^BY_{\alpha\beta},\quad\overline{Y}=\frac{1}{N}\sum_{\alpha=1}^A\sum_{\beta=1}^BY_{\alpha\beta}=\frac{1}{A}\sum_{\alpha=1}^A\overline{Y}_\alpha\\\overline{y}_\alpha&=\frac{1}{B}\sum_{\beta=1}^BY_{\alpha\beta},\quad\overline{y}_c=\frac{1}{n}\sum_{\alpha=1}^a\sum_{\beta=1}^BY_{\alpha\beta}=\frac{1}{a}\sum_{\alpha=1}^a\overline{y}_\alpha\end{align*}$

方差 $\begin{align*}V(\overline{y}_c)&=(1-\frac{a}{A})\frac{S_a^2}{a},\quad where\quad S_a^2=\frac{1}{A-1}\sum_{\alpha=1}^A(\overline{Y}_\alpha-\overline{Y})^2\\v(\overline{y}_c)&=(1-\frac{a}{A})\frac{s_a^2}{a},\quad where\quad s_a^2=\frac{1}{a-1}\sum_{\alpha=1}^a(\overline{y}_\alpha-\overline{y}_c)^2\end{align*}$

①设计效应：

当总体种群的个数比较大时，相当于SRS抽样中个元素均值的方差，即，此时

如果所选取的群具有较高的内部同质性，那么群间具有更强的异质性，此时

②设计效应：

其中是层内的相关系数，以衡量群内部的同质性程度

一般而言，，从而

绝对不会比更小，而负号的表示整群抽样比SRS更加精确；最大取值为，对应于每个群中所有元素都具有相同取值的情形

例5.1：考虑一个两阶段抽样，通过SRS从个群的总体中抽取出个群来，然后在抽取到的每个群中，通过SRS从个元素中抽取出个单位

均值

方差

其中，

如果，那么第一项为零，相当于分层抽样

如果，那么第二项为零，相当于整群抽样

方差

其中，

①当第一阶段的抽样比率非常小时，第二项趋近于零，此时

②末级群抽样（Ultimate Clusters，UCs）

在每一个群，用SRS每次抽取个元素，得到个UCs

先用SRS抽取出个群来，再在每个群中用SRS抽取出一个UC

进一步地，从个UCs种用SRS抽取出个UC，作为近似

给定非常小，从一个群中抽取两个UCs的几率非常小

有

对于一个固定的总样本量且，子样本量（即UC规模）越小，被抽取的群的数量越多，从而样本均值更加精确；然而，群之间的样本越分散，抽样调查的成本也就越高

设定调查成本的结构：

其中，为总成本，为每个群的成本，为每个元素的成本

得最优子样本量：

在其他条件不变的情况下，如果群内的同质性越高，每个元素的成本就越高，群的成本就越低，那么样本就应该在群之间更加分散，即取一个较小的

Tips：

①在实践中，当有所需的分层信息时，多阶段抽样使用的都是分层抽样，而系统抽样也常常被用到

②分层抽样在抽取群的时候，比抽取元素的时候更加重要，因为它在抽取群的时候能够带来更高的精度

③对多阶段抽样中的第一阶段的群进行分层，或称初级抽样单位（Primary Sampling Units，PSUs），从而尽可能多地进行PSU，然后从每一层中选取一个PSU，同时单个PSU无法估计层内部的方差

折叠层法（collapsed strata）：将一对相似的层合并，获得更大的层

配对选取（paired selection design）：将一对相似的层打散，在每个中间层进行初级选取，在每个层中得到两个PSU

§6.按规模大小成比例的概率抽样

在上一节中，我们假设群的规模是相等的，然而这一假设在实践中很难满足

用表示群中元素的个数，

选择方程（selection equation）：

①将个群，按规模分为个层，并在每个层中抽取一个元素

②成比例抽样（Probability Proportional to Size，PPS）

两阶段抽样：

其中，个初级抽样单位PSUs使用PPS抽样，从每个PSU中再抽取个元素

三阶段抽样：

其中，由PPS得到个PSUs，从每个PSU中再抽取个二阶段单位（Second Stage Units，SSUs），最后在每个SSU中抽取个元素

抽取PSU与SSU的过程也可以采用系统抽样

③末级群抽样类似于PPS

在每个PSU中，形成个UCs，共个UCs，再用SRS获得个UCs

此时与PPS近似等价，但会从同一个PSU中抽取多个UCs且概率很小

由于PPS是EPSEM的，得

又末级群抽样近似，得

按估计规模大小成比例的概率抽样（PPES）

实际规模大小未知，记为估计的规模

则

由于并非完全准确，期望的样本量会有一些变化，总样本量称为随机变量

样本总量，比率均值（ratio mean）

的变化系数时，误差可忽略

有

其中，为与的样本协方差

例6.1：考虑一个EPSEM的分层多阶段抽样

，其中为层中PSU的样本量

，其中为层中的总样本量

使用有放回的近似，得 $\begin{align*}v(y)&=\sum_h a_hs_{yh}^2,\quad s_{yh}^2=\frac{1}{a_h-1}\sum_{\alpha}[y_{h\alpha}-y_h/a_h]^2\\v(x)&=\sum_h a_hs_{xh}^2,\quad s_{xh}^2=\frac{1}{a_h-1}\sum_{\alpha}[x_{h\alpha}-x_h/a_h]^2\\c(x,y)&=\sum_h a_hs_{xyh},\quad s_{xyh}=\frac{1}{a_h-1}\sum_{\alpha}[x_{h\alpha}-x_h/a_h][y_{h\alpha}-y_h/a_h]\end{align*}$

§7.其他概率抽样设计

1.二象抽样（two phase sampling）

亦称双重抽样（double sampling）

在第一期（first phase）搜集一些信息项，然后在第二期（second phase）从初期样本的子样本获得更多的信息项

人们对于一个调查中的不同估计值精确度的需求是难以调和的，这就意味着我们需要不同的样本规模

第一期的样本可以提供第二期抽样时分层的信息，并意味着两期的成本可能存在很大差异，因而在第一期进行较为松弛的筛选

可扩展至多象抽样（multi-phase sampling）

2.重复抽样（replicated sampling）

亦称贯穿抽样（inter-penetrating sampling）

总体由一系列重复抽取的子样本构成，每一个子样本都是使用相同的抽样方法得到的，每一个子样本都能够提供独立的、可比的对总体参数的估计

用于研究变量的非抽样误差（non-sampling errors），比如由不同访问员和编程者得到的结果变动，以及辅助计算变量的标准误

3.面板设计（panel sampling）

截面（cross-section）时间序列（time-series）

总变化（gross change）：元素级别的变化

净变化（net change）：加总层面的变化

面板研究（panel survey）或纵贯研究（longitudinal survey）

人们需要在不同时点对相同的个体进行访问：

①被调查者的迁移；②总体的构成发生变化；③反复采访对采访者产生负面影响

解决方法：面板轮换（panel rotation）

§8.抽样框

不仅提供了一个识别和定位总体中元素的方式，而且经常包含很多额外的可以用来分层或者聚类的方式

理想的抽样框，需要将总体中的每一个元素，有且只有一次地列出来，并且不包含其他排列

基什（Kish）提出了对潜在抽样狂问题和解决方案的四重分类：

1.缺失元素（missing elements）

总体中的某些元素未被包含在抽样框内，有两种情况：

①抽样框是不够的（inadequate）

即该抽样框目标不是包含总体，刻意为之

②抽样框是不完整的（incomplete）

即该抽样框未包含本该包含的元素，无意为之

解决方法：

①通过定义，将缺失元素排除在抽样调查的总体之外

②寻找补充性的抽样框来覆盖缺失元素

③寻求一个包含某种形式的链接程序（linking procedure）的方案

将名单当作循环的（circular），缺失元素作为连接点，置于首元素之前和尾元素之后

2.群（cluster）

某些列举是对元素组而言的，而非元素本身

如我们希望对个人或者住户进行抽样，然而抽样框是住所

解决方法：

①将被抽取的群中所有元素包含进去

②从全部群中进行抽样，同时以防应答污染（contamination of response）

考虑基什表选择法（the Kish selection grid）

3.空白或者外来元素（foreign elements）

某些列举并不与抽样调查的总体中的元素相关

用“空白”（blanks）简称空白与外来元素

解决方法：帅选访问（screening interviews）

在抽到blanks时将其忽略，使得样本量小于我们选择的数量

4.重复列举（duplicate listing）

一些总体中的元素不止一次被列举

当抽样框由数个列表组成时，一些元素可能会在多余一个列表中出现

解决方法：

①在总的抽样框内将重复列举去掉

②独特识别（unique identification）：即将每一个元素与其中一个列举，以一种清晰定义的方式联系起来，然后将该元素的其他列举置为blanks

③接受所有的选择，在分析中使用甲醛的方式来调整元素不同的选择概率

01抽样调查方法简介

抽样调查方法简介

§1.简介

§2.简单随机抽样

§3.系统抽样

§4.分层抽样

1.按比例分层

2.非比例分层

3.层的选择

§5.整群抽样和多阶抽样

§6.按规模大小成比例的概率抽样

§7.其他概率抽样设计

§8.抽样框

你可能感兴趣的:(01抽样调查方法简介)