机器学习周志华--自助法bootstrapping中的极限公式

在西瓜书的第二章,讲了几种常用的对数据集进行划分而产生训练集 S \mathit{S} S 和测试集 T \mathit{T} T 的方法,其中就有一个自助法。
自助法:其实就是通过有放回采样产生训练集,没有被采样到的作为测试集。书中描述,给定包含m个样本的数据集 D \mathit{D} D ,每次从 D \mathit{D} D 中采样一个样本,拷贝后放入 D ′ \mathit{D'} D 中,采样m次,得到包含m个样本的数据集 D ′ \mathit{D'} D
明显D中有一部分样本会多次出现,而另一部分样本不出现。
于是估计样本在m次采样中始终不被采到的概率

lim ⁡ m → ∞ ( 1 − 1 m ) m → 1 e ≈ 0.368 \lim_{m\rightarrow \infty }{\left ( 1-\frac{1}{m} \right )}^{m}\rightarrow\frac{1}{e}\approx 0.368 limm(1m1)me10.368

这个公式不算困难,只要你记得下面两个重要的极限公式中的第二个,稍加推导就可以推导出来。
两个重要的极限公式

  1. lim ⁡ m → 0 sin ⁡ m m = 1 \lim_{m\rightarrow 0 } \frac{\sin{m}}{m} = 1 limm0msinm=1
  2. lim ⁡ x → 0 ( 1 + x ) 1 x = e \lim_{x\rightarrow 0 } \left ( 1+x \right )^{\frac{1}{x}} = e limx0(1+x)x1=e

对于书上所给的公式
m = 1 t m = \frac{1}{t} m=t1 ,那么书上的公式就转换如下:

lim ⁡ t → 0 ( 1 − t ) 1 t \lim_{t\rightarrow0} {\left ( 1-t \right )}^{\frac{1}{t}} limt0(1t)t1
= lim ⁡ t → 0 ( ( 1 + ( − t ) ) 1 − t ) − 1 =\lim_{t\rightarrow0}{\left ({\left ( 1+(-t) \right )}^{\frac{1}{-t}}\right )}^{-1} =limt0((1+(t))t1)1
因为这里t趋近于0,那么-t也趋近于0,因此上式也即在-t趋近0的条件下求极限。
所以上式= 1 e ≈ 0.368 \frac{1}{e}\approx0.368 e10.368

你可能感兴趣的:(机器学习,西瓜书,数学,机器学习,概率论,人工智能)