如何用自助法或刀切法来估计偏差、方差?

自助法和刀切法(也叫水手刀法)为计算标准误差和置信区间的非参数方法。刀切法耗费较少计算机资源,但自助法有某些统计优势。

1. 刀切法

由Quenouille(1949)提出的刀切法是用来对估计的偏差和方差进行近似的一个简单方法。

符号说明:

  • T_n=T(X_1,...,X_n):估计\theta的一个统计量。
  • bias(T_n)=\mathbb{E}(T_n)-\theta:估计的偏差。
  • T_{(-i)}:去掉第i个观测值之后的统计量。
  • \overline T_n=n^{-1}\sum\limits_{i}T_{(-i)}:计算所有T_{(-i)}的均值。
  • \widetilde{T_i}=nT_n-(n-1)T_{(-i)}伪值(pseudo-value)。
  • \widetilde{s}^2=\frac{\sum\limits_{i=1}^n(\widetilde{T_i}-\frac{1}{n}\sum\limits_{i=1}^n\widetilde{T_i})^2}{n-1}:伪值的样本方差。

定义:

  • 刀切法的偏差估计:b_{jack}=(n-1)(\overline T_n-T_n)
  • 刀切法的修正后统计量:T_{jack}=T_n-b_{jack}=\frac{1}{n}\sum\limits_{i=1}^n\widetilde{T_i}
  • 刀切法的方差估计:v_{jack}=\frac{\widetilde{s}^2}{n}

解释:

  • 偏差:

对于很多统计量,能够表明,对于某些a和b,满足:

bias(T_n)=\frac{a}{n}+\frac{b}{n^2}+O(\frac{1}{n^3})
bias(T_{(jack)})=\frac{b}{n(n-1)}+O(\frac{1}{n^2})=O(\frac{1}{n^2})

T_{jack}的偏差在阶数上小于T_n的偏差。

  • 方差

在关于T的适当条件下(例如T为样本均值的一个光滑函数),能够显示,v_{jack}\mathbb{V}(T_n)的相合估计。

2. 自助法

自助法(bootstrap)是估计一个统计量T_n=g(X_1,...,X_n)的方差和分布的个方法。还能利用自助法来构造置信区间。

  • 自助法方差估计:

(1) 抽样:X_1^*,...,X_n^*\sim \widehat{F_n}

(2) 计算:T_n^*=g(X_1^*,...,X_n^*)

(3) 重复步骤(1)和(2) B 遍,得到:T_{n,1}^*,...,T_{n,B}^*

(4) 令v_{boot}=\frac{1}{B}\sum\limits_{b=1}^B\biggl(T_{n,b}^*-\frac{1}{B}\sum\limits_{r=1}^BT_{n,r}^* \biggl)^2

  • 自助法T_n的CDF近似

G_n(t)=\mathbb{P}(T_n\leq t),\ \widehat{G}^*_n(t)=\frac{1}{B}\sum\limits_{b=1}^B I(T_{n,b}^*\leq t)

 

你可能感兴趣的:(非参数统计,机器学习,算法,人工智能)