Ensemble Learning 集成学习

基本概念

通过对多个学习期进行结合,获得比单个学习器更优的结果。

Hoeffding Inequality

Hoeffding Inequality提供了独立随机变量之和偏离期望值的概率的上界。
特殊情况:当随机变量是Bernoulli分布时,假设随机变量 x=1 的概率为p,进行了n次实验,随机变量 x 之和至多为 k 的概率为:
P(H(n)k)=i=0k(n i)pi(1p)(ni)
H(n)nx

k=(pϵ)nϵ>0 时存在上述概率存在以下上界
P(H(n)(pϵ)n)exp(2ϵ2n)

相似的,当 k=(p+ϵ)nϵ>0 时存在上述概率存在以下上界
P(H(n)(p+ϵ)n)exp(2ϵ2n)

结合两者,得
P((pϵ)nH(n)(pϵ)n)12exp(2ϵ2n)
结合Bernoulli分布的期望是 pn ,我们可以得出最后得出 H(n) 在期望值附近的概率上界

多个二分类器集成之后的集成分类器

假设有T个独立的二分类器 hi ,分类标签为 y{1,1} , 真实的分类函数为 f ,假设每个分类器的错误率为 ϵ
即:
P(hi(x)f(x))=ϵ
通过简单的投票法结合这T个分类,即:
H(x)=sign(i=1Thi(x))
则:
P(H(x)=f(x))=k=0T/2(T k)(1ϵ)kϵTk exp(12T(12ϵ)2)
这里用到了上述的Hoeffding inequality。
可以看到,当集成的分类器个数T变多的时候,集成分类器的错误率会程指数下降,但是这个是基于一个基本假设的,即分类器之间是独立的,在实际中,子分类器是很难达到独立的,所以一般要求子分类器的多样性要大一些。

你可能感兴趣的:(机器学习)