【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计

目录

一、概述

1.问题的提出

2.比率估计与回归估计的作用和使用条件

3.辅助变量的特点

4.相关符号

二、比率估计量​

1.问题的提出

2.定义

3.比估计与简单估计的比较

4.比率估计的思想

5.比率估计量及其性质

(1)【引理】

(2)【推论】

(3)比率估计的性质

 (4)【定理2.7】

(5)【推论2.10】

6.比率估计量的方差估计

7.比率估计与简单估计精度的比较

8.【例】

9.总结

 三、回归估计

1.回归估计量及其性质

(1)回归估计的含义

(2)回归估计量的性质

 2.回归估计与比率估计、简单估计精度的比较

(1)与简单估计的比较

(2)与比率估计的比较(n较大时)

 3.总结:回归估计的性质

 四、总结

1.各种估计量的比较与选择

2.应该记住的几个基本公式

3.应该了解的几个基本公式


一、概述

1.问题的提出

        调查通常是多指标的:

  • 有时我们希望估计不同变量的参数之比(比率)
  • 有时我们可以利用与目标变量高度相关的其他变量来构造目标度量的更好估计,提高目标变量参数估计的精度。被利用的指标称为辅助变量,构造估计量的方法有比率估计回归估计

2.比率估计与回归估计的作用和使用条件

  • 利用辅助变量提供的信息改进简单估计
  • 比率估计使用的条件:辅助变量与目标变量正相关
  • 回归估计的条件:辅助变量与目标变量线性相关

3.辅助变量的特点

  • 辅助变量须与目标变量高度相关
  • 辅助变量与目标变量之间的相关关系稳定
  • 辅助变量质量好,调查成本低
  • 限制条件:辅助变量的总体总值或总体均值要已知

4.相关符号

        设二维总体\pi _{N}=\left \{ (X_{1},Y_{1}),\cdots, (X_{N},Y_{N}) \right \},样本为(x,y)=\left \{ (x_{1},y_{1}),\cdots, (x_{n},y_{n})\right \}

        设调查指标为Y,辅助变量为X,所用的符号。

总体总量  Y,X
总体均值 \bar{Y},\bar{X} 样本均值 \bar{y},\bar{x}
总体方差 S_{Y}^2,S_{X}^2 样本方差 s_{y}^2,s_{x}^2
总体协方差 S_{XY}=\frac{1}{N-1}\sum_{i=1}^{N}(Y_{i}-\bar{Y})(X_{i}-\bar{X}) 样本协方差 s_{xy}=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\bar{y})(x_{i}-\bar{x})
总体相关系数 \rho =\frac{S_{XY}}{S_{X}S_{Y}} 样本相关系数 \hat{\rho }=\frac{s_{xy}}{s_{x}s_{y}}

二、比率估计量(Ratio estimator)

1.问题的提出

        在许多实际问题中常常涉及两个调查变量(指标)YX。常常要估计总体比率R

        总体比率在形式上总是表现为两个变量总值或均值之比。例如:估计家庭中用于食品的支出在总支出中比重;在校儿童对全体学龄儿童的比重等等。

        比率ratio与比例proportion的区别:比例中总体的规模已知,仅需调查一个指标;比率中需要调查样本的两个指标。

        【问题1】比率R的估计

  • 例如估计家庭中用于食品的支出在总支出中所占的比重,涉及总体中两个不Y同指标的总值或均值,比率中的分子和分母都需要从样本中估计。(与比例估计不同,比例估计时,N已知)

        【问题2】总体均值的比率估计量的构造方法

  • 利用目标变量与辅助变量之间的比例关系,构造比率估计量,提高对目标变量参数估计的精度
  • 例如调查家庭用于食品支出的平均费用,可用家庭总收入作为辅助变量,先计算样本中家庭用于食品支出对总收入的比值(认为该比值在所有家庭中较稳定),然后根据总体家庭平均总收入,可获得所有家庭平均用于食品支出费用的估计

2.定义

        对于简单随机抽样,若\bar{y},\bar{x}是样本两个指标的均值,则总统的这两个指标总值或均值之比值(比率){\color{Red} R=\frac{Y}{X}=\frac{\bar{Y}}{\bar{X}}}{\color{Red} (1)}。比率估计量{\color{Red} \hat{R}=\frac{y}{x}=\frac{\bar{y}}{\bar{x}}} 。

        当调查变量为Y,将X作为辅助变量时,{\color{Red} X/\bar{X}}已知,则\bar{Y}以及Y的比率估计值为

{\color{Red} \left\{\begin{matrix} \hat{\bar{Y_{R}}}=\bar{y_{R}}=\frac{\bar{y}}{\bar{x}}\bar{X}=\bar{X}\hat{R}\\ \hat{Y_{R}}=N\hat{\bar{Y_{R}}}=N\bar{X}\hat{R} \end{matrix}\right.}{\color{Red} (2,3)}

        {\color{Red} (1)(2)(3)}都成为比率估计量,简称比估计。由于(2)(3)中仅与\hat{R}相差常数,所以我们以研究\hat{R}的性质为主。

3.比估计与简单估计的比较

\bar{Y}的简单估计 \bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i} 简单估计只利用了样本中指标y的信息(线性组合,称为简单估计)
\bar{Y}的比估计 \bar{y_{R}}=\frac{\bar{y}}{\bar{x}}\bar{X}=\hat{R}\bar{X} 比估计不仅利用了样本中指标y的信息,同时利用了与y密切相关的x的信息以及辅助变量X的信息(称为复杂估计)

4.比率估计的思想

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第1张图片

  • \bar{x}>\bar{X}\Rightarrow \bar{y}>\bar{Y};\bar{y_{R}}=\hat{R}\bar{X}=\frac{\bar{y}}{\bar{x}}\bar{X}=\bar{y}\frac{\bar{X}}{\bar{x}}<\bar{y},因而\bar{y_{R}}\bar{y}更靠近\bar{Y}
  • \bar{x}<\bar{X}\Rightarrow \bar{y}<\bar{Y};\bar{y_{R}}=\hat{R}\bar{X}=\frac{\bar{y}}{\bar{x}}\bar{X}=\bar{y}\frac{\bar{X}}{\bar{x}}>\bar{y},因而\bar{y_{R}}\bar{y}更靠近\bar{Y}

5.比率估计量及其性质

(1)【引理】

        对于简单随机抽样,n较大时,\hat{\bar{Y_{R}}}=\bar{y_{R}}的期望为E(\bar{y_{R}})=E(\frac{\bar{y}}{\bar{x}}\bar{X})\approx R\bar{X}=\bar{Y}

(2)【推论】

        对于简单随机抽样,n较大时,E(\hat{Y_{R}})\approx N\bar{X}R=N\bar{Y}=Y

(3)比率估计的性质

  • (1)比率估计是有偏估计
  • (2)比率估计是渐进无偏估计。当n充分大时,E(\hat{R})=R
  • (3)比率估计的均方误差MSE(\hat{R})\approx V(\hat{R})
  • (4)V(\hat{R})\approx \frac{1-f}{n{\bar{X}}^2}\frac{\sum_{i=1}^{N}(Y_{i}-RX_{i})^2}{N-1}= \frac{1-f}{n{\bar{X}}^2}(S_{Y}^2+R^2S_{X}^2-2RS_{XY})
  • (5)v(\hat{R})\approx \frac{1-f}{n{\bar{X}}^2}\frac{\sum_{i=1}^{n}(y_{i}-\hat{R}x_{i})^2}{n-1},v_{1}(\hat{R})= \frac{1-f}{n{\bar{X}}^2}(s_{y}^2+\hat{R}^2s_{x}^2-2\hat{R}s_{xy}),v_{2}(\hat{R})= \frac{1-f}{n{\bar{x}}^2}(s_{y}^2+\hat{R}^2s_{x}^2-2\hat{R}s_{xy})

【注】性质4的证明

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第2张图片

 (4)【定理2.7】

        对于简单随机抽样,当n较大时,\hat{Y}_{R}=N\bar{y_{R}}=NR\bar{X}的方差为:

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第3张图片

(5)【推论2.10】

        对于简单随机抽样,当n较大时\bar{y_{R}}=\hat{R}\bar{X}的方差为:

 6.比率估计量的方差估计

        思路:根据定理,直接用Y,X的样本方差s^2,s_{x}^2,样本协方差s_{yx}和样本比率\hat{R}=\frac{\bar{y}}{\bar{x}}替代相应比率估计量方差定理中Y,X的总体方差,总体协方差和总体比率。

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第4张图片

        置信度为1-\alpha的置信区间为:

7.比率估计与简单估计精度的比较

        统计知识告诉我们:有关信息的充分利用,将会提高估计量的精度。因此,有理由认为:\bar{y_{R}}的精度V(\bar{y_{R}})在一般情况下要高于\bar{y}的精度V(\bar{y})

        设相关系数\rho =\frac{Cov(X,Y)}{\sqrt{V(X)}\sqrt{V(Y)}}=\frac{S_{XY}}{S_{X}S_{Y}}\Rightarrow S_{XY}=\rho S_{X}S_{Y}X,Y的变异系数分别为C_{X}=\frac{S_{X}}{\bar{X}},C_{Y}=\frac{S_{Y}}{\bar{Y}},有如下结论:

{\color{Red} \rho >\frac{1}{2}\frac{C_{X}}{C_{Y}}\Rightarrow V(\bar{y}_{R})<V(\bar{y});especially,whenC_{X}\approx C_{Y},\rho >\frac{1}{2},V(\bar{y}_{R})<V(\bar{y})}

{\color{Blue} proof:}

8.【例】

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第5张图片

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第6张图片

 9.总结

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第7张图片

 三、回归估计

        使用回归估计的原因:比率估计使用的前提是Y与辅助变量X之间基本呈正比例关系;若X,Y之间关系密切,但YX的回归线不通过原点,则可以通过回归估计来提高估计的效率。

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第8张图片

1.回归估计量及其性质

(1)回归估计的含义

        前提:存在与主要变量高度相关的其他辅助变量的有效信息。

        已知辅助变量X的总体均值;总体均值\bar{Y}的回归估计量定义为:

{\color{Red} \bar{y}_{lr}=\bar{y}+\beta (\bar{X}-\bar{x})}

其中, \beta =\frac{\partial (\bar{y}_{lr})}{\partial (\bar{x})}是目标变量相对于辅助变量的变化率。

        定义:总体均值\bar{Y}与总体总值Y的回归估计定义为:

\left\{\begin{matrix} \bar{y}_{lr}=\bar{y}+\beta (\bar{X}-\bar{x})\\ \hat{Y}_{lr}=N\bar{y}_{lr} \end{matrix}\right.

特别,\beta =1时的估计称为差估计:\bar{y}_{d}=\bar{y}+(\bar{X}-\bar{x})\beta =0时的估计称为简单估计:\bar{y}_{lr}=\bar{y}\beta =\hat{R}=\frac{\bar{y}}{\bar{x}}时的估计称为比率估计:\bar{y}_{lr}=\bar{y}_{r}。因此,简单估计与比率估计均为回归估计的特例。

(2)回归估计量的性质

        \beta为事先给定的常数\beta _{0}时:\bar{y}_{lr}=\bar{y}+\beta_{0}(\bar{X}-\bar{x}),则\bar{y}_{lr}\bar{Y}无偏估计

        \beta事先给定的常数\beta _{0}时:\bar{y}_{lr}可看成是变量Y_{i}+\beta _{0}(\bar{X}-X_{i})的样本均值,其总体均值为\bar{Y},由关于样本均值方差的核心公式可得:

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第9张图片

        \bar{y}_{lr}方差估计为:

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第10张图片

         \beta _{0}的不同取值会影响V(\bar{y}_{lr})的值,\beta _{0}的最佳值是?可以证明,\beta _{0}YX的总体回归系数为:

方差V(\bar{y}_{lr})达到最小值:

        \beta未知(需要由样本数据估计)的情形:一般情形下总体回归系数\beta未知,此时一个较好的选择是用样本回归系数b替代总体回归系数\beta,构造回归估计:

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第11张图片

 2.回归估计与比率估计、简单估计精度的比较

        \beta需要由样本估计(b=\frac{s_{yx}}{s_{x}^2}=\frac{\sum_{i=1}^{n}(y_{i}-\bar{y})(x_{i}-\bar{x})}{\sum_{i=1}^{n}(x_{i}-\bar{x})^2})的情形:

(1)与简单估计的比较

        由于0\leqslant \rho \leqslant 1,所以n较大时:

 故回归估计优于简单估计。

(2)与比率估计的比较(n较大时)

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第12张图片

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第13张图片

 3.总结:回归估计的性质

        定义主要变量的总体总值Y的回归估计量为\hat{Y}_{lr}=N\bar{y}_{lr}

        辅助变量X的特点:

  • 辅助变量必须与主要变量高度相关
  • 辅助变量与主要变量之间的相关关系整体上相当稳定
  • 辅助变量的信息质量好
  • 辅助变量的总体均值或总值已知,或容易获得

1.对于简单随机抽样,如\beta为常数\beta _{0},则有:

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第14张图片

2.使回归估计量的估计精度最高,即V(\bar{y}_{lr})最小的\beta _{0}为:

3.对于简单随机抽样,若回归系数\beta需要通过样本估计,当n足够大时,\bar{y}_{lr}的数学期望与方差分别为:

 四、总结

1.各种估计量的比较与选择

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第15张图片

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第16张图片

 2.应该记住的几个基本公式

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第17张图片

 3.应该了解的几个基本公式

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第18张图片

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计_第19张图片


 

你可能感兴趣的:(抽样技术,算法,服务器,运维)