不等概不放回抽样——霍维茨汤姆森估计量

最近,看论文看到有个东西,叫霍维茨汤姆森估计量(Horvitz-Thompson estimator)。

它是用于不等概不放回抽样的总体量估计用的,这个估计量是这样子的:

\hat Y=\sum _{i\in s}\frac{y_{i}}{\pi _{i}}

其中i \in s 表示当且仅当单元(有些文献也称为群)y_{i}被抽中在样本(样本大小为n)中,\pi _{i}y_{i}被抽中在样本中的概率,称为包含概率(inclusion probability)。

本文接下来主要讲解下这估计量是怎么来的。

 

不放回抽样的方式下,\pi _{i}表示单元(群)U_{i}被抽中到大小为n的样本中的概率,定义随机变量t_{i},其中i=1,2,\cdots N,如下

t_{i}=\begin{cases} 1, & U_{i}\in s\\ 0, & \text{ otherwise. } \end{cases}

这里我们很容易发现随机变量t_{i}是伯努利(0-1)分布的。

由于是不放回抽样,因此采样所得的n个样本相互是不同的,因此肯定有

\sum_{i=1}^{N}t_{i}=n

根据伯努利分布性质有:

E(t_{i})=\pi_{i}

我们构造一个样本值的一般线性函数:

其中c_{i}是附属于单元U_{i}(只要它被选入样本)的常数,考虑到T的期望,我们得到,

E(T)= \sum_{i=1}^{N}\pi_{i}c_{i}y_{i}

为了是T称为总体量\sum_{i=1}^{N}y_{i}的无偏估计,常数c_{i}应当等于1/\pi_{i}

因此,正如霍维茨 - 汤普森所建议的那样,总体量的无偏估计由下式给出,

\hat{Y}_{HT} = \sum_{i=1}^{N}t_{i}\left(\dfrac{y_{i}}{\pi_{i}}\right)\qquad \text{ or }

\hat{Y}_{HT} = \sum_{i=1}^{n}\dfrac{y_{i}}{\pi_{i}}

这部分内容来自:

霍维茨汤姆森

(很多文献提到这估计量也适合于放回抽样。这里后续再有机会讨论这个问题。)

其他资料:

计算举例

 

 

你可能感兴趣的:(概率论,霍维茨汤姆森,estimator,抽样,不等概)