机器学习(六)统计学习理论

统计学习理论的意义

统计学习理论提供了机器学习的一个理论基础。通过理论推导,从本质上说明了机器学习为什么会出现过拟合现象,以及过拟合与模型选择、训练数据之间有什么关系。

数学推导

设训练集 S={(xi,yi)}mi=1 S = { ( x i , y i ) } i = 1 m ,所有的 (xi,yi) ( x i , y i ) 独立同分布(Independent and identical distribution),则我们可以定义分类器 hθ h θ 测试误差(这里指的是在训练集上的误差)为(Empirical Risk):

ε^(hθ)=1mi=1mI(hθ(xi)yi) ε ^ ( h θ ) = 1 m ∑ i = 1 m I ( h θ ( x i ) ≠ y i )

其中,函数 I(x) I ( x ) 是一个示性函数,这个误差的定义非常好理解。
接着我们定义分类器 hθ h θ 的增广误差为(Generalization Risk)
ε(hθ) =P(x,y)(h(x)y)=hθ(x,y)yp(x,y)dxdy ε ( h θ ) = P ( x , y ) ( h ( x ) ≠ y )   = ∫ h θ ( x , y ) ≠ y p ( x , y ) d x d y

这里的增广误差是指在真实世界中出现的各种情况的误差的平均。显然,测试误差并不能反映真实情况。那么,测试误差与真实的误差之间有多大的差距呢?前人的研究得到这样的一个结论
P(|ε(hθε^(hθ))|>δ)2e2δ2m P ( | ε ( h θ − ε ^ ( h θ ) ) | > δ ) ≤ 2 e − 2 δ 2 m

也就是说,真实误差与测试误差之间相差大于 δ δ 的概率小于 2e2δ2m 2 e − 2 δ 2 m 。上式右边与训练样本数m是相关的。训练样本越多,测试误差与真实误差之间的差距大于某个值的概率会越小。下面我们来证明上式,先看一个引理。

引理:设 z1,z2,...,zm z 1 , z 2 , . . . , z m m m 个独立随机变量,满足P(zi=1)=ϕ,P(zi=0)=1ϕ  P ( z i = 1 ) = ϕ , P ( z i = 0 ) = 1 − ϕ   (i=1~m)
定义:

ϕ^=1mi=1mzi ϕ ^ = 1 m ∑ i = 1 m z i

则有
P(|ϕ^ϕ|>δ)2e2δ2m P ( | ϕ ^ − ϕ | > δ ) ≤ 2 e − 2 δ 2 m

上式叫做Hoeffiding不等式,Hoeffding不等式是关于一组随机变量均值的概率不等式。证明如下。
证明:定义
zi=I(hθ(xi)yi) z i = I ( h θ ( x i ) ≠ y i )

P(zi=1)=ε(hθ) P ( z i = 1 ) = ε ( h θ )


ε^(hθ)=1mi=1mzi ε ^ ( h θ ) = 1 m ∑ i = 1 m z i

所以
P(|ϕ^ϕ|>δ)2e2δ2m P ( | ϕ ^ − ϕ | > δ ) ≤ 2 e − 2 δ 2 m


假设对一个分类器h来说, hθ h θ 只有有限个取值,设取值个数为 K K 。设H={hθ}θ=1K H = { h θ } θ = 1 → K ,则

P(hθϵH,|ε(hθ)ε(hθ)^|>δ)2Ke2δ2m P ( ∃ h θ ϵ H , | ε ( h θ ) − ε ( h θ ) ^ | > δ ) ≤ 2 K e − 2 δ 2 m

P(hθϵH,|ε(hθ)ε(hθ)^|<δ)12Ke2δ2m P ( ∃ h θ ϵ H , | ε ( h θ ) − ε ( h θ ) ^ | < δ ) ≤ 1 − 2 K e − 2 δ 2 m

2Ke2r2m=δ 2 K e − 2 r 2 m = δ ,则有
r=1mlog(2Kg) r = 1 m log ⁡ ( 2 K g )

P(hθϵH,|ε(hθ)ε(hθ)^|<1mlog(2Kg))1δ P ( ∃ h θ ϵ H , | ε ( h θ ) − ε ( h θ ) ^ | < 1 m log ⁡ ( 2 K g ) ) ≤ 1 − δ

定理:
假设 θ^=argminθ ε^(hθ) θ ^ = a r g m i n θ   ε ^ ( h θ ) , θ=argminθ ε(hθ) θ ∗ = a r g m i n θ   ε ( h θ ) ,则有

P(|ε(hθ^)ε(hθ)|2r)>1δ P ( | ε ( h θ ^ ) − ε ( h θ ∗ ) | ≤ 2 r ) > 1 − δ

P(|ε(hθ^)ε(hθ)|1mlog(2Kg))12δ P ( | ε ( h θ ^ ) − ε ( h θ ∗ ) | ≤ 1 m log ⁡ ( 2 K g ) ) ≥ 1 − 2 δ

这样,我们就可以得到结论:
- 复杂的模型K大,但是 ε(hθ) ε ( h θ ∗ ) ε(hθ^) ε ( h θ ^ ) 变小
- 训练样本数m越多越好

补充:
机器学习(六)统计学习理论_第1张图片

VC维(Vapnik-Chervonenkis维)

衡量 θ θ 取无限值的分类器负责度
对m个样本任意的标(标签总数 2m 2 m 个),都有一个 θ θ 能把他们分开。满足上述条件的最大的m,叫做 hθ h θ 的VC维(d=m)。

例子
线性分类器的VC维是 d+1 d + 1 ,假设样本对是 (x,y) ( x , y ) ,则d是x的维度。

定理:若假设空间H的VC维为d,则有:

P(|ε(hθ)ε(hθ)^) 8dlog2med+8log4δm>1δ P ( | ε ( h θ ) − ε ( h θ ) ^ ) ≤ 8 d log ⁡ 2 m e d + 8 log ⁡ 4 δ m   > 1 − δ

你可能感兴趣的:(机器学习,机器学习,统计学习)