统计学习理论的意义
统计学习理论提供了机器学习的一个理论基础。通过理论推导,从本质上说明了机器学习为什么会出现过拟合现象,以及过拟合与模型选择、训练数据之间有什么关系。
数学推导
设训练集 S={(xi,yi)}mi=1 S = { ( x i , y i ) } i = 1 m ,所有的 (xi,yi) ( x i , y i ) 独立同分布(Independent and identical distribution),则我们可以定义分类器 hθ h θ 测试误差(这里指的是在训练集上的误差)为(Empirical Risk):
ε^(hθ)=1m∑i=1mI(hθ(xi)≠yi) ε ^ ( h θ ) = 1 m ∑ i = 1 m I ( h θ ( x i ) ≠ y i )
其中,函数
I(x) I ( x ) 是一个示性函数,这个误差的定义非常好理解。
接着我们定义分类器
hθ h θ 的增广误差为(Generalization Risk)
ε(hθ) =P(x,y)(h(x)≠y)=∫hθ(x,y)≠yp(x,y)dxdy ε ( h θ ) = P ( x , y ) ( h ( x ) ≠ y ) = ∫ h θ ( x , y ) ≠ y p ( x , y ) d x d y
这里的增广误差是指在真实世界中出现的各种情况的误差的平均。显然,测试误差并不能反映真实情况。那么,测试误差与真实的误差之间有多大的差距呢?前人的研究得到这样的一个结论
P(|ε(hθ−ε^(hθ))|>δ)≤2e−2δ2m P ( | ε ( h θ − ε ^ ( h θ ) ) | > δ ) ≤ 2 e − 2 δ 2 m
也就是说,真实误差与测试误差之间相差大于
δ δ 的概率小于
2e−2δ2m 2 e − 2 δ 2 m 。上式右边与训练样本数m是相关的。训练样本越多,测试误差与真实误差之间的差距大于某个值的概率会越小。下面我们来证明上式,先看一个引理。
引理:设 z1,z2,...,zm z 1 , z 2 , . . . , z m 是 m m 个独立随机变量,满足P(zi=1)=ϕ,P(zi=0)=1−ϕ P ( z i = 1 ) = ϕ , P ( z i = 0 ) = 1 − ϕ (i=1~m)
定义:
ϕ^=1m∑i=1mzi ϕ ^ = 1 m ∑ i = 1 m z i
则有
P(|ϕ^−ϕ|>δ)≤2e−2δ2m P ( | ϕ ^ − ϕ | > δ ) ≤ 2 e − 2 δ 2 m
上式叫做Hoeffiding不等式,Hoeffding不等式是关于一组随机变量均值的概率不等式。证明如下。
证明:定义
zi=I(hθ(xi)≠yi) z i = I ( h θ ( x i ) ≠ y i )
P(zi=1)=ε(hθ) P ( z i = 1 ) = ε ( h θ )
而
ε^(hθ)=1m∑i=1mzi ε ^ ( h θ ) = 1 m ∑ i = 1 m z i
所以
P(|ϕ^−ϕ|>δ)≤2e−2δ2m P ( | ϕ ^ − ϕ | > δ ) ≤ 2 e − 2 δ 2 m
假设对一个分类器h来说, hθ h θ 只有有限个取值,设取值个数为 K K 。设H={hθ}θ=1→K H = { h θ } θ = 1 → K ,则
P(∃hθϵH,|ε(hθ)−ε(hθ)^|>δ)≤2Ke−2δ2m P ( ∃ h θ ϵ H , | ε ( h θ ) − ε ( h θ ) ^ | > δ ) ≤ 2 K e − 2 δ 2 m
P(∃hθϵH,|ε(hθ)−ε(hθ)^|<δ)≤1−2Ke−2δ2m P ( ∃ h θ ϵ H , | ε ( h θ ) − ε ( h θ ) ^ | < δ ) ≤ 1 − 2 K e − 2 δ 2 m
设
2Ke−2r2m=δ 2 K e − 2 r 2 m = δ ,则有
r=1mlog(2Kg)−−−−−−−−−√ r = 1 m log ( 2 K g )
P(∃hθϵH,|ε(hθ)−ε(hθ)^|<1mlog(2Kg)−−−−−−−−−√)≤1−δ P ( ∃ h θ ϵ H , | ε ( h θ ) − ε ( h θ ) ^ | < 1 m log ( 2 K g ) ) ≤ 1 − δ
定理:
假设 θ^=argminθ ε^(hθ) θ ^ = a r g m i n θ ε ^ ( h θ ) , θ∗=argminθ ε(hθ) θ ∗ = a r g m i n θ ε ( h θ ) ,则有
P(|ε(hθ^)−ε(hθ∗)|≤2r)>1−δ P ( | ε ( h θ ^ ) − ε ( h θ ∗ ) | ≤ 2 r ) > 1 − δ
P(|ε(hθ^)−ε(hθ∗)|≤1mlog(2Kg)−−−−−−−−−√)≥1−2δ P ( | ε ( h θ ^ ) − ε ( h θ ∗ ) | ≤ 1 m log ( 2 K g ) ) ≥ 1 − 2 δ
这样,我们就可以得到结论:
- 复杂的模型K大,但是
ε(hθ∗) ε ( h θ ∗ ) 、
ε(hθ^) ε ( h θ ^ ) 变小
- 训练样本数m越多越好
补充:
VC维(Vapnik-Chervonenkis维)
衡量 θ θ 取无限值的分类器负责度
对m个样本任意的标(标签总数 2m 2 m 个),都有一个 θ θ 能把他们分开。满足上述条件的最大的m,叫做 hθ h θ 的VC维(d=m)。
例子
线性分类器的VC维是 d+1 d + 1 ,假设样本对是 (x,y) ( x , y ) ,则d是x的维度。
定理:若假设空间H的VC维为d,则有:
P(|ε(hθ)−ε(hθ)^) ≤8dlog2med+8log4δm−−−−−−−−−−−−−−−−√>1−δ P ( | ε ( h θ ) − ε ( h θ ) ^ ) ≤ 8 d log 2 m e d + 8 log 4 δ m > 1 − δ