二项检验

文章目录

  • 检验原理
  • $\bar\epsilon$的计算
  • $\hat\epsilon$无偏估计证明

西瓜书2.4节提到了二项检验,看不太懂。参考网上其他人的想法后,记录一下自己的理解。
以下内容也包含着自己对假设检验的理解。

检验原理

对于一个学习器的泛化错误率 ϵ \epsilon ϵ,我们做出一个猜想(假设): ϵ ≤ ϵ 0 \epsilon\le\epsilon_0 ϵϵ0

那么如何知道这个猜想对不对呢?假如我们已知 ϵ \epsilon ϵ的值,那么只需将 ϵ \epsilon ϵ ϵ 0 \epsilon_0 ϵ0比大小就能得知猜想是否正确。但问题是,一个学习器的泛化错误率并不能事先得到。我们只能得到这个学习器的测试错误率 ϵ ^ \hat\epsilon ϵ^

虽然 ϵ \epsilon ϵ未知,但我们可以用 ϵ ^ \hat\epsilon ϵ^检验我们的猜想。这是因为 ϵ ^ \hat\epsilon ϵ^在一定程度上反应了 ϵ \epsilon ϵ的大小。西瓜书上给出这两者的联合概率质量函数 P ( ϵ ^ ; ϵ ) = ( m ϵ ^ ∗ m ) ϵ ϵ ^ ∗ m ( 1 − ϵ ) m − ϵ ^ ∗ m P(\hat\epsilon;\epsilon)=\binom{m}{\hat\epsilon*m}\epsilon^{\hat\epsilon*m}(1-\epsilon)^{m-\hat\epsilon*m} P(ϵ^;ϵ)=(ϵ^mm)ϵϵ^m(1ϵ)mϵ^m由此我们可以证明出 ϵ ^ \hat\epsilon ϵ^ ϵ \epsilon ϵ的无偏估计,证明在这。这就说明,如果 ϵ ≤ ϵ 0 \epsilon\le\epsilon_0 ϵϵ0,那么 ϵ ^ \hat\epsilon ϵ^在大概率上也小于 ϵ 0 \epsilon_0 ϵ0,而在小概率上远大于 ϵ 0 \epsilon_0 ϵ0

假设检验的基本原理是小概率原理,即“概率很小的事件在一次试验中可认为几乎不会发生”。因此,如果“ ϵ ^ \hat\epsilon ϵ^远大于 ϵ 0 \epsilon_0 ϵ0”这个小概率事件发生,我们就认为假设不对。但问题是, ϵ ^ \hat\epsilon ϵ^需要大于多少我们才能怀疑我们的假设不对?

形式化的来说,当 P { ϵ ^ ≥ ϵ ˉ ∣ ϵ ≤ ϵ 0 } < α P\{\hat\epsilon \ge \bar\epsilon|\epsilon \le\epsilon_0\}<\alpha P{ϵ^ϵˉϵϵ0}<α,这个小概率事件( α \alpha α很小,通常为0.1,0.05)发生时,我们拒绝假设" H 0 : ϵ ≤ ϵ 0 H_0:\epsilon \le \epsilon_0 H0:ϵϵ0"。那么现在只要求出 ϵ ˉ \bar \epsilon ϵˉ,我们就能用 ϵ ^ \hat\epsilon ϵ^ ϵ ˉ \bar\epsilon ϵˉ比大小,确定猜想是否正确。

ϵ ˉ \bar\epsilon ϵˉ的计算

ϵ ˉ \bar\epsilon ϵˉ的计算过程应该能反应出 ϵ ≤ ϵ 0 \epsilon \le\epsilon_0 ϵϵ0这一猜想。为了求出这个边界,我们可以求 ϵ = ϵ 0 \epsilon =\epsilon_0 ϵ=ϵ0所对应的 ϵ ˉ \bar\epsilon ϵˉ。因为这样求出的 ϵ ˉ \bar\epsilon ϵˉ { ϵ ^ ≥ ϵ ˉ } \{\hat\epsilon \ge \bar\epsilon\} {ϵ^ϵˉ} ϵ = ϵ 0 \epsilon =\epsilon_0 ϵ=ϵ0来说是一个小概率事件,那么对 ϵ ≤ ϵ 0 \epsilon \le\epsilon_0 ϵϵ0更是一个小概率事件。

这样 ϵ ˉ \bar\epsilon ϵˉ可由以下公式算出
ϵ ˉ = min ⁡ ϵ ^ s . t .   ∑ i = ϵ ^ ∗ m + 1 m ( m i ) ϵ 0 i ( 1 − ϵ 0 ) m − i < α \bar\epsilon=\min\hat\epsilon \\s.t.\ \sum_{i=\hat\epsilon*m+1}^{m}\binom{m}{i}\epsilon_0^{i}(1-\epsilon_0)^{m-i} < \alpha ϵˉ=minϵ^s.t. i=ϵ^m+1m(im)ϵ0i(1ϵ0)mi<α

注意此处的 min ⁡ \min min在书中为 max ⁡ \max max,不过在《机器学习》上已经更正。

ϵ ^ \hat\epsilon ϵ^无偏估计证明

∵ P ( ϵ ^ ; ϵ ) = ( m ϵ ^ ∗ m ) ϵ ϵ ^ ∗ m ( 1 − ϵ ) m − ϵ ^ ∗ m ∴ E ( ϵ ^ ) = ∑ i = 0 m ϵ ^ P ( ϵ ^ ; ϵ ) = 1 m ∑ i = 0 m i ( m i ) ϵ i ( 1 − ϵ ) m − i = 1 m ∑ i = 1 m m ϵ ( m − 1 i − 1 ) ϵ i − 1 ( 1 − ϵ ) m − i = ϵ ∑ i = 1 m ( m − 1 i − 1 ) ϵ i − 1 ( 1 − ϵ ) ( m − 1 ) − ( i − 1 ) = ϵ [ ϵ + ( 1 − ϵ ) ] m − 1 = ϵ ∴ ϵ ^ 是 ϵ 的 无 偏 估 计 \begin{aligned} \because P(\hat\epsilon;\epsilon)&=\binom{m}{\hat\epsilon*m}\epsilon^{\hat\epsilon*m}(1-\epsilon)^{m-\hat\epsilon*m} \\ \therefore E(\hat\epsilon) &= \sum_{i=0}^{m}\hat\epsilon P(\hat\epsilon;\epsilon)\\ & = \frac{1}{m} \sum_{i=0}^{m}i \binom{m}{i}\epsilon^{i}(1-\epsilon)^{m-i}\\ &= \frac{1}{m} \sum_{i=1}^{m} m\epsilon\binom{m-1}{i-1}\epsilon^{i-1}(1-\epsilon)^{m-i}\\ &=\epsilon\sum_{i=1}^{m} \binom{m-1}{i-1}\epsilon^{i-1}(1-\epsilon)^{(m-1)-(i-1)}\\ &=\epsilon[\epsilon + (1-\epsilon)]^{m-1}=\epsilon \end{aligned}\\ \therefore \hat\epsilon是\epsilon的无偏估计 P(ϵ^;ϵ)E(ϵ^)=(ϵ^mm)ϵϵ^m(1ϵ)mϵ^m=i=0mϵ^P(ϵ^;ϵ)=m1i=0mi(im)ϵi(1ϵ)mi=m1i=1mmϵ(i1m1)ϵi1(1ϵ)mi=ϵi=1m(i1m1)ϵi1(1ϵ)(m1)(i1)=ϵ[ϵ+(1ϵ)]m1=ϵϵ^ϵ

你可能感兴趣的:(机器学习)