Easonshi

SC-Bootstrap&Jackknife

这篇来谈谈 Bootstrap 和 Jackknife。先来一个总括：在之前的 MC in Statistic Inference 中，我们假定已知了 population 的分布，并基于此进行样本生成，对于估计的 se、MSE 、置信水平进行估计，或做假设检验；然而这种方法的应用显然有点窄——很多情况下，我们是不知道总体分布，甚至我们能采集到的样本就只有这些，限于种种原因无法采集更多的样本——那么，在不知道总体分布，或者样本量较少的情况下，我们如何对于上述这些进行估计呢？这里就用了 Bootstrap 方法，本质是上一种重抽样的方法：既然我们只知道这些数据，那么我们就把这些数据看做整体（Empirical dist.），基于这些数据再进行多次抽样并计算得我们想要的内容（更加充分运用了这些数据）。补充：1. 我们也把 MC in Statistic Inference 中的方法叫做参数 Bootstrap（因为它也涉及到了重新的多次抽样，不过是从 population 中抽取的）；而这里的方法则叫做非参数 Bootstrap，我们一般讲的 Bootstrap 就是这里的；2. Jackknife 实际上是 Bootstrap 的一种特例：一种类似于「leave-one-off」的思想。

Two Approximations, "Plug-in" Priniciple

理解整个过程：从 population $X\sim F(x)$ 中，我们观测到了 n 个样本 $X=(x_1,...,x_n)$；我们把这些样本看作一个整体再次抽样，实际上是从 Empirical dist. 中进行抽样 $X^*\sim F_n(x)$；这些新的样本又有分布 $F_n^*(x)$。这里就涉及到了两个近似：
\[ F\rightarrow X\overset{(x_i)}{\rightarrow} \hat F\\\hat F\rightarrow X^*\overset{(x_i^*)}{\rightarrow} \hat F^* \]
在进入 Bootstrap 之前，还需要对统计量和分布的关系；以及 "Plug-in" Priniciple 进行理解。

对于一个 parameter $\theta$ 来说，我们可以把它看作是分布 F 上的一个函数 $\theta=t(F)$ 。
这是对于 population 的，而在 sample level，我们认为 statistic/estimator 是 sample($\hat F$) 的一个函数 $\hat\theta=t(\hat F)$

例如，对于期望来说是在 F 上的一个积分；而其估计则是样本的均值。

而 "Plug-in" Priniciple ，简单的理解就是对于我们要估计的参数/统计量，我们用 sample level 上的数来代替 population level 上的数，给出两个例子：

对于均值来说
\[ \theta=\mu=E_F[X]=\int xdF(x)\\\hat\theta=\hat\mu={1\over n}\sum x_i=\int xd\hat F(x)=E_{\hat F}(X) \]
注意这里我们给出了期望和估计值的另一种表示：用$E_{\hat F}(X)$ 来估计$E_{ F}(X)$ 。

对于 standard error of the mean estimator
\[ F\sim(\mu,\sigma^2), E_F(X)=\mu, Var_F(X)=\sigma^2 \]
因为有
\[ \sigma^2=E_F[(X-E_F[X])^2]\\\hat \sigma^2=E_{\hat F}[(X-E_{\hat F}[X])^2]={1\over n}\sum(x_i-\bar x)^2\\ \]
（注意，这里我们用了两次 "Plug-in" Priniciple ，并给出了其具体的表达形式。）所以对于 $se(\bar X)={\sigma \over\sqrt{n}}$ 我们有估计 $\hat {se}(\bar X)={\hat\sigma \over\sqrt{n}}$。

Bootstrap

接下来正式进入 Bootstrap，我们先用它来估计 se, bias：

前面讲过，Bootstrap 就是多次抽样，这样就得到了 Empirical dist. $\hat F(x)$ ，而我们的估计量则是 $t(\hat F)$ 。我们先来看 se，考虑
\[ Var(\hat\theta)=E[(\hat\theta -E[\hat\theta])^2]=E_F\big[(t(\hat F)-E_F[t(\hat F)])^2\big] \]
我们使用 "Plug-in" Priniciple，则
\[ \hat{Var}(\hat\theta)=E_\hat F\big[(t(\hat F^*)-E_\hat F[t(\hat F^*)])^2\big]={1\over B-1}\sum(\hat\theta^{(i)}-\bar{\hat\theta^{*}})^2 \]
其中的 $\bar{\hat\theta^*}$ 为 B 个 Bootstrap 估计量的均值；分母用了$B-1$ 是为了无偏。于是我们得到了 se 的 Bootstrap 估计公式
\[ \hat{se}(\hat\theta)=\sqrt{{1\over B-1}\sum(\hat\theta^{(i)}-\bar{\hat\theta^{*}})^2}\tag{1} \]
对于 bias，由于
\[ bias(\hat\theta)=E[\hat\theta-\theta]=E_F[t(\hat F)-t(F)]\\ \]

\[ \hat{bias}(\hat\theta)=E_\hat F[t(\hat F^*)-t(\hat F)]=E_\hat F[\hat\theta^*]-\hat\theta= \bar{\hat\theta^*}-\hat\theta\tag{2}\\ \]

注意从第一行到第二行（其估计）中，我们用了三次 "Plug-in" Priniciple。其中的 $\bar{\hat\theta^*}$ 为 B 个 Bootstrap 估计量的均值。

还讲了 Bootstrap 方法来估计置信区间，我们把这部分放到后面去讲，接下来，看看一个特例：Jackknife。

Jackknife

这里，我们用了两个例子，来说明该公式与 Bootstrap 下的区别。我们给出 Jackknife 的流程为：对于一个大小为 n 的样本，每次去除第 i 个样本，将剩下的其余样本作为第 i 次重抽样得到的数据；也就是说，在 Jackknife 下，我们只能有 n 个重抽样结果（而在 Bootstrap 下是不限制的）；每个抽样结果的大小为 $n-1$（在 Bootstrap 下为 n）。

来看 bias，以 $\theta=\sigma^2$ 为例，估计量为$\hat \theta={1\over n}\sum(x_i-\bar x)^2$ 。注意到有
\[ bias(\hat\theta)=E[\hat\theta-\theta]=...={1\over n}\sigma^2 \]
我们考虑
\[ E[\hat\theta^{(j)}-\hat\theta]=E[\hat\theta^{(j)}-\theta]-E[\hat\theta-\theta]\\=(-{\sigma^2\over n-1})-(-{\sigma^2\over n})={1\over n-1}bias(\hat\theta) \]
上式第一行到第二行成立，是因为，我们把 $x_j$ 去除，也可以把剩余的观测看做是 population 的$n-1$ 此 realization，因此和总体的估计在形式上是一致的。另，上式只是考虑了编号为 j 的一组抽样，我们将 n 组式子相加，容易得到
\[ \hat{bias}_{Jack}(\hat\theta)=(n-1)(\bar{\hat\theta^*}-\hat\theta)\tag{3} \]
其中 $\bar{\hat\theta^*}$为 n 个估计量的均值。

再来看 se，以 $\theta=EX$为例，$\hat\theta=\bar X$。注意到
\[ se(\hat\theta)=\sqrt{Var(\bar{X})}={\sigma\over\sqrt{n}} \]
另外，我们仔细看这几个估计量，
\[ \hat\theta^{(j)}={1\over n-1}(n\bar{x}-x_i),\\\bar{\hat\theta^*}={1\over n}\sum{n\bar{x}-x_i\over n-1}=\bar{x} \]
则有
\[ \sum(\hat\theta-\bar{\hat\theta^*})^2=\sum ({n\bar{x}-x_i\over n-1}-\bar{x})^2={1\over(n-1)^2}\sum(x_i-\bar{x})^2={s^2\over n-1} \]

显然 ${s\over\sqrt{n}}$ 是$se(\hat\theta)={\sigma\over\sqrt{n}}$ 的无偏估计，比较形式，我们可以得到最终的形式
\[ \hat{se}_{Jack}(\hat\theta)=\sqrt{{n-1\over n}\sum(\hat\theta-\bar{\hat\theta^*})^2}\tag{4} \]
比较（3）（4）和（1）（2），我们可以发现 Jackknife 估计要比 Bootstrap 估计在分子上多一个$n-1$，这可以理解为，the Jackknife sample $x^{(i)}$ is very similar to $x$ compared with Bootstrap replicates。

Bootstrap CI

下面回过头来继续介绍使用 Bootstrap 方法来估计置信区间。主要介绍了 5 中方法：

Standard normal
Basic CI
Percential CI
Bootstrap t CI
Better BCa CI

第一种 Standard normal 中，引入了 pivot quantity
\[ Z={\hat\theta-E[\hat\theta]\over se(\hat\theta)} \]
显然，该量在 n 很大情况下由 CLL 可知是近似标准正态；那么1. 再假设该统计量是无偏的，即$\theta=E[\hat\theta]$ ；2. 使用 Bootstrap 方法估计 se，我们就可以得到 $\theta$ 的一个置信区间
\[ [\hat\theta\pm z_{\alpha/2}\hat{se}(\hat\theta)]\tag{5} \]
其中 $z_{\alpha/2}=\Phi(1-\alpha/2)$ ，即标准正态的上 $\alpha /2$分位数。

第二种 Basic CI中，我们对于偏差进行考虑：
\[ P((\hat\theta-\theta)_{\alpha/2}<\hat\theta-\theta< (\hat\theta-\theta)_{1-\alpha/2})=1-\alpha \]
我们用 $\hat\theta^*-\hat\theta$ 来估计 $\hat\theta-\theta$ ，就有
\[ P((\hat\theta^*-\hat\theta)_{\alpha/2}<\hat\theta-\theta< (\hat\theta^*-\hat\theta)_{1-\alpha/2})\approx 1-\alpha \]
整理可得结果
\[ [2\hat\theta-\hat\theta^*_{1-\alpha/2}, 2\hat\theta-\hat\theta^*_{\alpha/2}]\tag{6} \]
第三种 Percential CI 仅和 Basic CI 有微小的区别：直接使用了 $\hat\theta$ 的分布来估计 $\theta$ ，因此形式为
\[ [\hat\theta^*_{\alpha/2}, \hat\theta^*_{1-\alpha/2}]\tag{7} \]
注意到，这里没有出现 $\hat\theta$ ！

第四种 Bootstrap t CI 是对 Standard normal 的改进——显然，后者的要求过高了（1. 无偏；2. 近似正态）。在 Bootstrap t CI 中，我们引入了一个 t-type statistic ，作为对于（1）中 pivot quantity $Z$ 的改进：
\[ t^{(b)}={\hat\theta^{(b)}-\hat\theta\over\hat{se}(\hat\theta^{(b)})} \]
注意到，在（1）中，我们仅需要用 Bootstrap 方法来估计 $se(\hat\theta)$ 。而在这里，我们需要使用 Bootstrap 生成 B 个 t-type statistic；对于每一个 $t^{(b)}$，我们都需要估计$\hat{se}(\hat\theta^{(b)})$ ，也就是说，我们要在内部再嵌套一个 Bootstrap。显然，Bootstrap t CI 提高了计算的成本，但也避免了简单的 Standard normal 所具有的一些不足；并且带来了后面讲到的二阶性质。

参考（1）中的结果，其最终的形式是
\[ [\hat\theta-t_{1-\alpha/2}^*\hat{se}(\hat\theta), \hat\theta-t_{\alpha/2}^*\hat{se}(\hat\theta)]\tag{8} \]

第五种 Better BCa CI，太过复杂了不做展开，感兴趣可自行搜索。它主要的思想是对于 Percential CI 进行提升。最终形式为
\[ [\hat\theta^*_{1-\alpha/2}, \hat\theta^*_{\alpha/2}]\tag{9} \]
最后，我们从两个维度来比较这些 CI：1. Transformation respecting: given $t(.)$ , whether CI for $\theta$ can be t-transformed directly to CI for $t(\theta)$ ; 2. Second order accuracy

第一点，变换性指出了，在一定的变换下，我们直接对 CI 的 upper 和 lower 进行相应的变换就可以得到 $t(\theta)$ 的 CI（似乎是说，upper 和 lower 似乎和分位数相关？）。第二点，二阶精准意味着
\[ P(\theta<\hat\theta_{lower})={\alpha\over 2}+{C_{lower}\over n}\\P(\theta<\hat\theta_{upper})={\alpha\over 2}+{C_{upper}\over n} \]
这是相较于一阶，也就是说下面的 $n$ 变为 $\sqrt{n}$ ，借助数值的內容刻画了某种「收敛速度」。

	Trans	Second order
Standard normal	✕	✕
Basic	✕	✓
Percentile	✓	✕
Bootstrap t	✕	✓
Better BCa	✓	✓

SC-Bootstrap&Jackknife Easonshi
这篇来谈谈Bootstrap和Jackknife。先来一个总括：在之前的MCinStatisticInference中，我们假定已知了population的分布，并基于此进行样本生成，对于估计的se、MSE、置信水平进行估计，或做假设检验；然而这种方法的应用显然有点窄——很多情况下，我们是不知道总体分布，甚至我们能采集到的样本就只有这些，限于种种原因无法采集更多的样本——那么，在不知道总体分布，或
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option

SC-Bootstrap&Jackknife

Two Approximations, "Plug-in" Priniciple

Bootstrap

Jackknife

Bootstrap CI

你可能感兴趣的:(SC-Bootstrap&Jackknife)