Jackknife的想法在我很早的一篇博客《R语言与点估计学习笔记(刀切法与最小二乘估计)》就提到过。其思想以一言蔽之就是:将样本视为总体,在“总体”中不放回地抽取一些“样本”来做统计分析。今天我们来讨论Jackknife应该怎么做以及为什么要这么做。
Jackknife方法利用系统的划分数据集的办法来推测总体样本估计量的一些性质。Quenouille建议用它来估计偏差,随后John Tukey证实它用来估计估计量的方差也是极好的。
假设我们有随机样本\( X_{1},\cdots,X_{n} \),并从中计算统计量T去估计总体的参数\( \mu \)。在Jackknife方法下,我们将给定数据集划分为r组,每组数据量为k。
现在,我们移除样本中第\( j^{th} \)组数据,并用剩下的数据来估计参数\( \mu \),并将估计量记为\( T_{(-j)} \)。\( T_{(-j)} \)的均值\( \overline{T}_{(\cdot)} \)可以用来估计参数\( \mu \),\( T_{(-j)} \)也可以用来获取估计量T更多的信息,但是必须要指出的是Jackknife不会提供比总体样本更多的信息(任何抽样技术都是不会的!!!);当T是无偏估计时,\( T_{(-j)} \)也是,T是有偏的估计量时,\( T_{(-j)} \)也是,但是会有一点点的不同。
我们有时也对T与\( T_{(-j)} \)的不同进行加权处理,得到新的统计量:\[ T_{j}^{*}=rT-(r-1)T_{(-j)} \]这就是许多文献中提到的Jackknife“伪值”,并将这些伪值的均值称为“Jackknifed”T,记为T(J)。显然\( J(T)=rT-(r-1)\overline{T}_{(\cdot)} \)。 通常情况下,我们取k=1,r=n。在某些特定条件下,它是最优的。
现在我们来考虑一下Jackknife对估计量偏差与方差的估计。我们这里采用伪值来考虑问题,认为伪值的偏差就是估计量的偏差,伪值的方差就是估计量的方差。那么我们有\[ Bias=E(J(T))-\mu=E(T)+(r-1)E(T-\frac{1}{r}\sum_{j=1}^{r}T_{(-j)})-\mu \]我们不妨取r=n,k=1,T对\( \mu \)的估计的偏差肯定是\( O(\frac{1}{n}) \)或\( o(\frac{1}{n}) \),忽略高阶量,那么偏差的近似估计量为:\[ bias\approx(n-1)(\overline{T}_{(\cdot)})-T)\\\overline{T}_{(\cdot)})=\frac{1}{n}\sum_{j=1}^{n}T_{(-j)} \]虽然这些伪值不是独立的,但是,我们仍不妨假设他们是独立的,因为这样我们利用伪值估计估计量的方差变得十分简单:\[ \hat{V(T)}_{J}=\frac{\sum_{j=1}^{r}(T_{j}^{*}-J(T))^2}{r(r-1)}=\frac{n-1}{n}\sum_{j=1}^{r}(T_{j}^{*}-J(T))^2 \] 我们以正态总体为例来考虑这个问题。
data.sim <- rnorm(30, 5, 3) (mu.hat <- mean(data.sim))
## [1] 4.339
n <- length(data.sim) mu.jack <- NULL for (i in 1:n) { mu.jack[i] <- mean(data.sim[-i]) } (jack.estimate <- mean(mu.jack))
## [1] 4.339
可以看到,矩估计的估计值为4.3393,Jackknife估计为4.3393,较真值5而言,估计效果还是可以的。我们还可以计算偏差:
(bias <- (n - 1) * (mean(mu.jack) - mu.hat))
## [1] 0
可以看到,这是一个无偏估计,不是吗?
当然,要估计我们采取的估计量的方差也是可以的:
var <- mean((mu.jack - mean(mu.jack))^2) * (n - 1)
print(var)
## [1] 0.4612
可以看到估计量的方差为0.4612与正态总体均值的标准差的理论值0.3相差不大。
我们这里将要说明Jackknife最大的作用——纠正偏差。
我们都知道,我们对参数估计最常用的办法就是矩估计与极大似然估计。然而这两种估计不一定是无偏的。例如\( [0,\theta] \)上的均匀分布\( U(\theta) \)的参数\( \theta \)的极大似然估计就不是无偏的,在比如正态分布\( N(\mu,\sigma) \)中标准差的似然估计也不是无偏的。这些很容易证明,当然,你也可以查阅王兆军的《数理统计讲义》,上面给出了详细的说明。 当然这些偏差我们都可以通过对估计量做一些变换得到无偏估计量,但是这些常数还是不太容易通过普适的办法得到,而大偏差估计往往被视为估计的不足,得到一种在不增加方差的基础上,纠正偏差的办法是很好的,这就是我们现在讨论的Jackknife。
设T(X)是基于样本X的参数\( g(\theta) \)的估计量,且满足\( E_{\theta}T(\textbf{X})=g(\theta)+O(\frac{1}{n}) \),Jackknife偏差修正估计量为\( T_{J}=nT-(n-1)\overline{T}_{(\cdot)} \),Jackknife统计量具有如下性质:\[ E_{\theta}T_{J}(\textbf{X})=g(\theta)+O(\frac{1}{n^2}) \]
证明十分的简单,注意到\( J(T) \)的表达式,利用定义即可证明。(上一小节我们也间接地证明过了这一事实)
我们最后来看一个例子:我们知道均匀分布\( U(\theta) \)的参数\( \theta \)的极大似然估计是渐进无偏而非真正无偏的,我们假设样本为\( x_{1},\cdots,x_{n} \),\( \theta \)的极大似然估计是\( x_{(n)} \)(即样本中的最大值),我们知道\( E(X_{(n)})=\frac{n}{n+1}\theta \),所以似然估计的偏差是\( O(\frac{1}{n}) \),我们使用Jackknife看看能不能缩减方差:
data.sim <- runif(100, 0, 7) theta.hat <- max(data.sim) theta.jack <- NULL for (i in 1:length(data.sim)) { theta.jack[i] <- max(data.sim[-i]) } n <- length(data.sim) theta.jackestimate <- n * theta.hat - (n - 1) * mean(theta.jack) cat("original bias is ", 7 - theta.hat, "after jackknife the bias is ", 7 - theta.jackestimate)
## original bias is 0.002576 after jackknife the bias is -0.1084
我们从上面的运行结果可以清楚的看到Jackknife之后,偏差确实减少了。这也是符合我们的想法的,因为当k变大时,Jackknife估计更接近均值的两倍,即它更接近矩估计,而矩估计是无偏的。当然一味追求无偏是不对的,对于一个有偏估计,其偏差趋于0时,可能导致方差变得很大。
若估计量不够平滑,每次删掉一个数据的Jackknife就会失效,估计也不再具备相合性。
例如:利用Jackknife方法估计从1到100中随机抽出的10个数的中位数的标准差。
n <- 10 x <- sample(1:100, size = n) M <- NULL for (i in 1:n) { y <- x[-i] M[i] <- median(y) } cat("M=", M)
## M= 46 46 40 40 40 46 40 46 46 40
M.ave <- mean(M) print(sqrt((n - 1)/n * sum((M - M.ave)^2)))
## [1] 9
我们可以看到这个估计量的标准差很不对的,因为每次缺省1个值,中位数也就至多会有两个取值,无论你的样本容量取值多大,这都是不对的。Enfro(1993)提出了delete K Jackknife算法解决这个问题。但是这个要求还是很高的,它要求n,k都比较大。那么好的估计方法应该是什么呢?这就要用到我们接下来将要介绍的bootstrap方法。