机器学习——第十二章计算学习理论

目录

  • 1 基础知识
  • 2 PAC学习
  • 3 有限假设空间
    • 3.1 可分情形
    • 3.2 不可分情形
  • 4 VC维
  • 5 Rademacher复杂度
  • 6 稳定性

1 基础知识

该理论研究的是关于通过计算来进行学习的理论,目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据法分析结果指导算法设计。

给定样例集D,假设 χ \chi χ中的所有样本服从一个隐含未知的分布 T T T,D中所有样本都是独立地从这个分布上采样而得。
令h为 χ 到 y \chi到y χy的一个映射,泛化误差为
E ( h ; T ) = P x ∼ T ( h ( x ) ≠ y ) E(h;T)=P_{x\sim T}(h(x)\ne y) E(h;T)=PxT(h(x)=y)

h在D上的经验误差为
E ~ ( h ; T ) = 1 m ∑ i = 1 m ∥ ( h ( x i ) ≠ y i ) \tilde E(h;T)=\frac{1}{m}\sum_{i=1}^{m}\parallel (h(x_i)\ne y_i) E~(h;T)=m1i=1m(h(xi)=yi)

由于D是T的独立同分布采样,因此h的经验误差的期望等于其泛化误差。

几个常用不等式:

jesen不等式:对任意凸函数 f ( x ) f(x) f(x),有
f ( E ( x ) ) ≤ E ( f ( x ) ) f(E(x))\le E(f(x)) f(E(x))E(f(x))

Hoeffding 不等式:若 x 1 , x 2 , … , x m x_1,x_2,\ldots,x_m x1,x2,,xm m m m个独立随机变
量,且满足 0 ⩽ x i ⩽ 1 0\leqslant x_i\leqslant1 0xi1,则对任意 ϵ > 0 \epsilon>0 ϵ>0,有

P ( 1 m ∑ i = 1 m x i − 1 m ∑ i = 1 m E ( x i ) ⩾ ϵ ) ⩽ exp ⁡ ( − 2 m ϵ 2 )   , P ( ∣ 1 m ∑ i = 1 m x i − 1 m ∑ i = 1 m E ( x i ) ∣ ⩾ ϵ ) ⩽ 2 exp ⁡ ( − 2 m ϵ 2 )   . P\left(\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\sum_{i=1}^{m}\mathbb{E}(x_{i})\geqslant\epsilon\right)\leqslant\exp(-2m\epsilon^{2})\:,\\P\left(\left|\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\sum_{i=1}^{m}\mathbb{E}(x_{i})\right|\geqslant\epsilon\right)\leqslant2\exp(-2m\epsilon^{2})\:. P(m1i=1mxim1i=1mE(xi)ϵ)exp(2mϵ2),P( m1i=1mxim1i=1mE(xi) ϵ)2exp(2mϵ2).

McDiarmid 不等式:若 x 1 , x 2 , … , x m x_1,x_2,\ldots,x_m x1,x2,,xm m m m个独立随

机变量,且对任意 1 ⩽ i ⩽ m 1\leqslant i\leqslant m 1im,函数 f f f满足
sup ⁡ x 1 , … , x m ,   x i ′ ∣ f ( x 1 , … , x m ) − f ( x 1 , … , x i − 1 , x i ′ , x i + 1 , … , x m ) ∣ ⩽ c i   , \sup_{x_{1},\ldots,x_{m},\:x_{i}^{\prime}}|f(x_{1},\ldots,x_{m})-f(x_{1},\ldots,x_{i-1},x_{i}^{\prime},x_{i+1},\ldots,x_{m})|\leqslant c_{i}\:, x1,,xm,xisupf(x1,,xm)f(x1,,xi1,xi,xi+1,,xm)ci,
则对任意 ϵ > 0 \epsilon>0 ϵ>0,有

P ( f ( x 1 , … , x m ) − E ( f ( x 1 , … , x m ) ) ⩾ ϵ ) ⩽ exp ⁡ ( − 2 ϵ 2 ∑ i c i 2 )   , P ( ∣ f ( x 1 , … , x m ) − E ( f ( x 1 , … , x m ) ) ∣ ⩾ ϵ ) ⩽ 2 exp ⁡ ( − 2 ϵ 2 ∑ i c i 2 )   . P\left(f\left(x_{1},\ldots,x_{m}\right)-\mathbb{E}\left(f\left(x_{1},\ldots,x_{m}\right)\right)\geqslant\epsilon\right)\leqslant\exp\left(\frac{-2\epsilon^{2}}{\sum_{i}c_{i}^{2}}\right)\:,\\P\left(\left|f\left(x_{1},\ldots,x_{m}\right)-\mathbb{E}\left(f\left(x_{1},\ldots,x_{m}\right)\right)\right|\geqslant\epsilon\right)\leqslant2\exp\left(\frac{-2\epsilon^{2}}{\sum_{i}c_{i}^{2}}\right)\:. P(f(x1,,xm)E(f(x1,,xm))ϵ)exp(ici22ϵ2),P(f(x1,,xm)E(f(x1,,xm))ϵ)2exp(ici22ϵ2).

2 PAC学习

令c表示概念,是从样本空间 x 到标记空间 y 的标记 x到标记空间y的标记 x到标记空间y的标记,若对任何样例 ( x , y ) (x,y) (x,y),有 c ( x ) = y c(x)=y c(x)=y成立,称c为目标概念,所有我没希望学得的目标概念所构成的集合称为概念类,用符号 C C C表示。

给定学习算法,它所考虑的所有可能概念的集合称为假设空间,用符号H表示。学习算法会把自认为可能的目标概念击中起来构成H,称为假设,假设h也是从样本空间到标记空间的映射。

可分的(一致的):若目标概念 c ∈ H c\in H cH,则H中存在假设能将所有示例按与真实标记一致的方式完全分开。

不可分的(不一致的):若目标概念 c ∉ H c\notin H c/H,则H中不存在假设能将所有示例完全正确分开。

希望比较大的概率学得误差满足预设上限的模型。

δ \delta δ表示置信度,定义

PAC辨识:
对0 < ϵ , δ < 1 <\epsilon ,\delta<1 <ϵ,δ<1,所有 c ∈ C c\in C cC和分布D,若存在学习算法,其输出假设 h ∈ H h\in H hH满足 P ( E ( h ) ≤ ϵ ) ≥ 1 − δ P(E(h)\le \epsilon )\ge 1-\delta P(E(h)ϵ)1δ
则称学习算法能从假设空间H中PAC辨识概念类C。

PAC可学习:
m m m表示从分布 D \mathcal{D} D中独立同分布采样得到的样例数目 , 0 < ϵ , δ < 1 ,0<\epsilon,\delta<1 ,0<ϵ,δ<1,对所有分布 D \mathcal{D} D,若存在学习算法 S \mathfrak{S} S 和多项式函数 poly ( ⋅ , ⋅ , ⋅ , ⋅ ) (\cdot,\cdot,\cdot,\cdot) (,,,),使得对于任何 m ⩾ m\geqslant mpoly ( 1 / ϵ , 1 / δ (1/\epsilon,1/\delta (1/ϵ,1/δ,size ( x ) (\boldsymbol{x}) (x),size ( c ) ) , S (c)),\mathfrak{S} (c)),S能从假设空间 H \mathcal{H} H中 PAC 辨识概念类 C \mathcal{C} C,则称概念类 C \mathcal{C} C对假设空间 H \mathcal{H} H而言是 PAC 可学习的,有时也简称概念类 C \mathcal{C} C 是 PAC 可学习的。

PAC 学习算法:
若学习算法 S \mathfrak{S} S使概念类 C \mathcal{C} C为 PAC 可学习的,且 S \mathfrak{S} S的运行时间也是多项式函数 poly ( 1 / ϵ , 1 / δ (1/\epsilon,1/\delta (1/ϵ,1/δ, size ( x ) (\boldsymbol{x}) (x),size ( c ) ) (c)) (c)),则称概念类 C \mathcal{C} C是高效 PAC 可学习 (efficiently PAC learnable) 的,称 S \mathfrak{S} S为概念类 C \mathcal{C} C的 PAC 学习算法。

样本复杂度 (Sample Complexity):满足 PAC 学习算法 S \mathfrak{S} S 所需的 m ⩾ m\geqslant m poly ( 1 / ϵ , 1 / δ (1/\epsilon,1/\delta (1/ϵ,1/δ,size ( x ) (\boldsymbol{x}) (x),size ( c ) ) (c)) (c))中最小的 m m m,称为学习算法 S \mathfrak{S} S的样本复杂度。

PAC学习中的一个关键因素是假设空间的复杂度,假设空间越大,其包含任意目标概念的可能性越大,从中找到某个具体目标概念的难度也越大。假设空间分为有限假设空间和无限假设空间。

3 有限假设空间

3.1 可分情形

策略:对于训练集D,只需保留与D一致的假设,提出与D不一致的假设。若训练集D足够大,可不断借助D中的样例剔除不一致的假设,直到仅剩一个假设为止,这个假设就是目标概念c。由于训练集规模有限,假设空间可能存在不止一个与D一致的等效假设,对于这些等效假设,无法根据D对它们的优劣进一步区分。

为解决需要多少样例才能学得目标概念c的有效近似。

对分布D上随机采样而得得任何样例 ( x , y ) (x,y) (x,y),有
P ( h ( x ) = y ) < 1 − ϵ P(h(x)=y)<1-\epsilon P(h(x)=y)<1ϵ

由于 D D D包含 m m m个从 D \mathcal{D} D独立同分布采样而得的样例,因此, h h h D D D表现一
致的概率为

P ( ( h ( x 1 ) = y 1 ) ∧ … ∧ ( h ( x m ) = y m ) ) = ( 1 − P ( h ( x ) ≠ y ) ) m P\left(\left(h(\boldsymbol{x}_1)=y_1\right)\wedge\ldots\wedge\left(h(\boldsymbol{x}_m)=y_m\right)\right)=\left(1-P\left(h\left(\boldsymbol{x}\right)\neq y\right)\right)^m P((h(x1)=y1)(h(xm)=ym))=(1P(h(x)=y))m

< ( 1 − ϵ ) m <(1-\epsilon)^m <(1ϵ)m

仅需保证泛化误差大于 ϵ \epsilon ϵ,且在训练集上表现完美的所有假设出现概率之和不大于 δ \delta δ即可:
P ( h ∈ H : E ( h ) > ϵ ∧ E ^ ( h ) = 0 ) < ∣ H ∣ ( 1 − ϵ ) m < ∣ H ∣ e − m ϵ   , \begin{aligned}P(h\in\mathcal{H}:E(h)>\epsilon\wedge\widehat{E}(h)=0)&<|\mathcal{H}|(1-\epsilon)^{m}\\&<|\mathcal{H}|e^{-m\epsilon}\:,\end{aligned} P(hH:E(h)>ϵE (h)=0)<H(1ϵ)m<Hemϵ,

∣ H ∣ e − m ϵ ⩽ δ | \mathcal{H} | e^{- m\epsilon }\leqslant \delta Hemϵδ ,

可得
m ⩾ 1 ϵ ( ln ⁡ ∣ H ∣ + ln ⁡ 1 δ ) . m\geqslant\frac{1}{\epsilon}\big(\ln|\mathcal{H}|+\ln\frac{1}{\delta}\big). mϵ1(lnH+lnδ1).

3.2 不可分情形

目标概念c往往不存在于假设空间中,对于任何h,假设空间中得任意一个假设都会在训练集上出现错误。

若训练集 D D D包含 m m m个从分布 D \mathcal{D} D上独立同分布采样而得的样例 , 0 < ϵ < 1 ,0<\epsilon<1 ,0<ϵ<1,则对任意 h ∈ H h\in\mathcal{H} hH,有
P ( E ^ ( h ) − E ( h ) ⩾ ϵ ) ⩽ exp ⁡ ( − 2 m ϵ 2 )   , P\big(\widehat{E}(h)-E(h)\geqslant\epsilon\big)\leqslant\exp(-2m\epsilon^2)\:, P(E (h)E(h)ϵ)exp(2mϵ2),

P ( E ( h ) − E ^ ( h ) ⩾ ϵ ) ⩽ exp ⁡ ( − 2 m ϵ 2 )   , P\big(E(h)-\widehat{E}(h)\geqslant\epsilon\big)\leqslant\exp(-2m\epsilon^2)\:, P(E(h)E (h)ϵ)exp(2mϵ2),

P ( ∣ E ( h ) − E ^ ( h ) ∣ ⩾ ϵ ) ⩽ 2 exp ⁡ ( − 2 m ϵ 2 )   . P\Big(\Big|E(h)-\widehat{E}(h)\Big|\geqslant\epsilon\Big)\leqslant2\exp(-2m\epsilon^2)\:. P( E(h)E (h) ϵ)2exp(2mϵ2).
若训练集 D D D包含 m m m个从分布 D \mathcal{D} D上独立同分布采样而得的样
, 0 < ϵ < 1 ,0<\epsilon<1 ,0<ϵ<1,则对任意 h ∈ H h\in\mathcal{H} hH,式(12.18)以至少 1 − δ 1-\delta 1δ的概率成立:
E ^ ( h ) − ln ⁡ ( 2 / δ ) 2 m ⩽ E ( h ) ⩽ E ^ ( h ) + ln ⁡ ( 2 / δ ) 2 m   . \widehat{E}(h)-\sqrt{\frac{\ln{(2/\delta)}}{2m}}\leqslant E(h)\leqslant\widehat{E}(h)+\sqrt{\frac{\ln{(2/\delta)}}{2m}}\:. E (h)2mln(2/δ) E(h)E (h)+2mln(2/δ) .

样例数目 m m m较大时 , h ,h ,h的经验误差是其泛化误差很好的近似。对于有限假设空间 H \mathcal{H} H,我们有

H \mathcal{H} H为有限假设空间, 0 < δ < 1 0<\delta<1 0<δ<1,则对任意 h ∈ H h\in\mathcal{H} hH,有
P ( ∣ E ( h ) − E ^ ( h ) ∣ ⩽ ln ⁡ ∣ H ∣ + ln ⁡ ( 2 / δ ) 2 m ) ⩾ 1 − δ   . P\Big(\Big|E(h)-\widehat{E}(h)\Big|\leqslant\sqrt{\frac{\ln|\mathcal{H}|+\ln(2/\delta)}{2m}}\Big)\geqslant1-\delta\:. P( E(h)E (h) 2mlnH+ln(2/δ) )1δ.

当假设空间给定时,其中必存在一个泛化误差最小得假设,找到此假设得近似也是一个较好得目标,将此目标将PAC学习推广到目标概念不属于假设空间得情况,称为不可知学习。

不可知PAC可学习:令 m m m表示从分布 D \mathcal{D} D中独立同分布采样得到的样例数目, 0 < ϵ , δ < 1 0<\epsilon,\delta<1 0<ϵ,δ<1,对所有分布 D \mathcal{D} D,若存在学习算法 £ 和多项式函数 poly ( ⋅ , ⋅ , ⋅ , ⋅ ) (\cdot,\cdot,\cdot,\cdot) (,,,),使得对于任何 m ⩾ m\geqslant mpoly ( 1 / ϵ , 1 / δ (1/\epsilon,1/\delta (1/ϵ,1/δ,size ( x ) (\boldsymbol{x}) (x),size ( c ) ) , S (c)),\mathfrak{S} (c)),S 能从假设空间 H \mathcal{H} H 中输出满足式的

假设 h : h: h:

P ( E ( h ) − min ⁡ h ′ ∈ H E ( h ′ ) ⩽ ϵ ) ⩾ 1 − δ   , P\big(E(h)-\min_{h'\in\mathcal{H}}E(h')\leqslant\epsilon\big)\geqslant1-\delta\:, P(E(h)hHminE(h)ϵ)1δ,
则称假设空间是不可知 PAC 可学习的。

4 VC维

现实学习任务所面临得通常是无限假设空间,对此种情形得可学习性进行研究,需度量假设空间得复杂性。最常见得办法是考虑假设空间得VC维。
给定假设空间H和示例集D,H中每个假设h都能对D中示例赋予标记。
增长函数:表示假设空间对m个示例所能赋予标记得最大可能结果数。可能结果是越大,假设空间得表达能力越强,对学习任务得适应能力也越强。

Π H ( m ) = max ⁡ { x 1 , … , x m } ⊆ X ∣ { ( h ( x 1 ) , … , h ( x m ) ) ∣ h ∈ H ∣ \Pi_{\mathcal{H}}(m)=\max_{\{\boldsymbol{x}_{1},\ldots,\boldsymbol{x}_{m}\}\subseteq\mathcal{X}}\left|\left\{\left(h\left(\boldsymbol{x}_{1}\right),\ldots,h\left(\boldsymbol{x}_{m}\right)\right)\right|h\in\mathcal{H}\right| ΠH(m)={x1,,xm}Xmax{(h(x1),,h(xm))hH

可使用增长函数来估计经验误差与泛化误差之间的关系:
对假设空间 H , m ∈ N , 0 < ϵ < 1 \mathcal{H},m\in\mathbb{N},0<\epsilon<1 H,mN,0<ϵ<1和任意 h ∈ H h\in\mathcal{H} hH P ( ∣ E ( h ) − E ^ ( h ) ∣ > ϵ ) ⩽ 4 Π H ( 2 m ) exp ⁡ ( − m ϵ 2 8 ) . P\big(\big|E(h)-\widehat{E}(h)\big|>\epsilon\big)\leqslant4\Pi_{\mathcal H}(2m)\exp\big(-\frac{m\epsilon^2}{8}\big). P( E(h)E (h) >ϵ)4ΠH(2m)exp(8mϵ2).
对二分类问题来说,假设空间中的假设对D中示例赋予标记的每种可能结果称为对D的一种对分。

定义VC维:
假设空间 H \mathcal{H} H的 VC 维是能被 H \mathcal{H} H打散的最大示例集的大小,即
V C ( H ) = max ⁡ { m : Π H ( m ) = 2 m }   . \mathrm{VC}(\mathcal{H})=\max\{m:\Pi_{\mathcal{H}}(m)=2^m\}\:. VC(H)=max{m:ΠH(m)=2m}.

VC维等于d表明存在大小为d的示例集能被假设空间打散。

若存在大小为d的示例集能被 H \mathcal{H} H打散,但不存在任何大小为d+1的示例集能被 H \mathcal{H} H打散,则 H \mathcal{H} H的VC维是d。

VC维与增长函数有密切联系

1.若假设空间 H \mathcal{H} H的VC维为d,则
Π H ( m ) ≤ ∑ i = 0 d ( m i ) \Pi_{\mathcal{H}}(m)\le\sum_{i=0}^{d}\begin{pmatrix}m \\ i \end{pmatrix} ΠH(m)i=0d(mi)
可以计算出增长函数的上界。

2.若假设空间 H \mathcal{H} H的VC维为d,则对任意整数 m ≥ d m\ge d md
Π H ( m ) ≤ ( e ∗ m d ) d \Pi_{\mathcal{H}}(m)\le(\frac{e*m}{d})^d ΠH(m)(dem)d
可由以上式子得到基于VC维的泛化误差界。

3.若假设空间 H \mathcal{H} H的 VC 维为 d d d,则对任意 m > d , 0 < δ < 1 m>d,0<\delta<1 m>d,0<δ<1

h ∈ H h\in\mathcal{H} hH
P ( E ( h ) − E ^ ( h ) ⩽ 8 d ln ⁡ 2 e m d + 8 ln ⁡ 4 δ m ) ⩾ 1 − δ   . P\left(E(h)-\widehat{E}(h)\leqslant\sqrt{\frac{8d\ln\frac{2em}{d}+8\ln\frac{4}{\delta}}{m}}\right)\geqslant1-\delta\:. P E(h)E (h)m8dlnd2em+8lnδ4 1δ.

有以下定理:任何VC维有限的假设空间 H \mathcal{H} H都是(不可知)PAC可学习的。

5 Rademacher复杂度

上一节描述的基于VC维的可学习性分析结果具有一定的普适性,但是由于没有考虑数据自身,基于VC维得到的泛化误差界通常比较松。

Rademacher复杂度是另一种刻画假设空间复杂度的途径,在一定程度上考虑了数据分布。

给定训练集D,假设h的经验误差为
E ~ ( h ) = 1 2 − 1 2 m ∑ i = 1 m y i h ( x i ) \tilde E(h)=\frac{1}{2}-\frac{1}{2m}\sum_{i=1}^{m}y_ih(x_i) E~(h)=212m1i=1myih(xi)

函数空间 F \mathcal{F} F关于 Z Z Z的经验 Rademacher 复杂度

R ^ Z ( F ) = E σ [ sup ⁡ f ∈ F 1 m ∑ i = 1 m σ i f ( z i ) ]   . \widehat{R}_{Z}(\mathcal{F})=\mathbb{E}_{\boldsymbol{\sigma}}\Big[\sup_{f\in\mathcal{F}}\frac{1}{m}\sum_{i=1}^{m}\sigma_{i}f(\boldsymbol{z}_{i})\Big]\:. R Z(F)=Eσ[fFsupm1i=1mσif(zi)].
经验 Rademacher 复杂度衡量了函数空间 F \mathcal{F} F与随机噪声在集合 Z Z Z中的相关性。

函数空间 F \mathcal{F} F关于 Z \mathcal{Z} Z上分布 D \mathcal{D} D的 Rademacher 复杂度
R m ( F ) = E Z ⊆ Z : ∣ Z ∣ = m [ R ^ Z ( F ) ]   . R_m(\mathcal{F})=\mathbb{E}_{Z\subseteq\mathcal{Z}:|Z|=m}\Big[\widehat{R}_Z(\mathcal{F})\Big]\:. Rm(F)=EZZ:Z=m[R Z(F)].

基于 Rademacher 复杂度可得关于函数空间 F \mathcal{F} F的泛化误差界。

对实值函数空间 F : Z → [ 0 , 1 ] \mathcal{F}:\mathcal{Z}\to[0,1] F:Z[0,1],根据分布 D \mathcal{D} D Z \mathcal{Z} Z中独立同分布采样得到示例集,以至少 1 − δ 1-\delta 1δ的概率有
E [ f ( z ) ] ⩽ 1 m ∑ i = 1 m f ( z i ) + 2 R m ( F ) + ln ⁡ ( 1 / δ ) 2 m   , \mathbb{E}\big[f(\boldsymbol{z})\big]\leqslant\frac{1}{m}\sum_{i=1}^{m}f(\boldsymbol{z}_{i})+2R_{m}(\mathcal{F})+\sqrt{\frac{\ln(1/\delta)}{2m}}\:, E[f(z)]m1i=1mf(zi)+2Rm(F)+2mln(1/δ) ,
E [ f ( z ) ] ⩽ 1 m ∑ i = 1 m f ( z i ) + 2 R ^ Z ( F ) + 3 ln ⁡ ( 2 / δ ) 2 m   . \mathbb{E}\big[f(\boldsymbol{z})\big]\leqslant\frac{1}{m}\sum_{i=1}^{m}f(\boldsymbol{z}_{i})+2\widehat{R}_{Z}(\mathcal{F})+3\sqrt{\frac{\ln(2/\delta)}{2m}}\:. E[f(z)]m1i=1mf(zi)+2R Z(F)+32mln(2/δ) .

对二分类问题,有以下定理(给出了基于Rademacher复杂度的泛化误差界):

对假设空间 H : X → { − 1 , + 1 } \mathcal{H}:\mathcal{X}\to\{-1,+1\} H:X{1,+1},根据分布 D \mathcal{D} D X \mathcal{X} X中独立同分

布采样得到示例集 D = { x 1 , x 2 , … , x m } , x i ∈ X , 0 < δ < 1 D=\{\boldsymbol x_1,\boldsymbol{x}_2,\ldots,\boldsymbol{x}_m\},\boldsymbol{x}_i\in\mathcal{X},0<\delta<1 D={x1,x2,,xm},xiX,0<δ<1,对任意 h ∈ H h\in\mathcal{H} hH,

以至少 1 − δ 1-\delta 1δ的概率有

E ( h ) ⩽ E ^ ( h ) + R m ( H ) + ln ⁡ ( 1 / δ ) 2 m   , E ( h ) ⩽ E ^ ( h ) + R ^ D ( H ) + 3 ln ⁡ ( 2 / δ ) 2 m   . E(h)\leqslant\widehat{E}(h)+R_{m}(\mathcal{H})+\sqrt{\frac{\ln(1/\delta)}{2m}}\:,\\E(h)\leqslant\widehat{E}(h)+\widehat{R}_{D}(\mathcal{H})+3\sqrt{\frac{\ln(2/\delta)}{2m}}\:. E(h)E (h)+Rm(H)+2mln(1/δ) ,E(h)E (h)+R D(H)+32mln(2/δ) .

可知道基于VC维的泛化误差界是分布无关,数据独立的,基于Rademacher复杂度的泛化误差界与分布有关,通常比基于VC维的泛化误差界更紧一些。

关于Rademacher复杂度与增长函数有定理如下:
假设空间的Rademacher复杂度 R m ( H ) R_m(\mathcal{H}) Rm(H)与增长函数 Π H ( m )  满足 R m ( H ) ⩽ 2 ln ⁡ Π H ( m ) m \Pi_{\mathcal{H}}(m)\text{ 满足}\\R_{m}(\mathcal{H})\leqslant\sqrt{\frac{2\ln\Pi_{\mathcal{H}}(m)}{m}} ΠH(m) 满足Rm(H)m2lnΠH(m) .

6 稳定性

希望获得与算法有关的分析结果,可以通过稳定性分析来获得结果。

稳定性考察的是算法在输入发生变化时,输出是否会随之发生较大的变化。

定义训练集的两种变化:

∙ D \ i \bullet D^{\backslash i} D\i表示移除 D D D中第 i i i个样例得到的集合
D ∖ i = { z 1 , z 2 , … , z i − 1 , z i + 1 , … , z m } , D^{\setminus i}=\{\boldsymbol{z}_1,\boldsymbol{z}_2,\ldots,\boldsymbol{z}_{i-1},\boldsymbol{z}_{i+1},\ldots,\boldsymbol{z}_m\}, Di={z1,z2,,zi1,zi+1,,zm},
∙ D i \bullet D^{i} Di表示替换 D D D中第 i i i个样例得到的集合
D i = { z 1 , z 2 , … , z i − 1 , z i ′ , z i + 1 , … , z m } , D^i=\{\boldsymbol{z}_1,\boldsymbol{z}_2,\ldots,\boldsymbol{z}_{i-1},\boldsymbol{z}_i^{\prime},\boldsymbol{z}_{i+1},\ldots,\boldsymbol{z}_m\}, Di={z1,z2,,zi1,zi,zi+1,,zm},
其中 z i ′ = ( x i ′ , y i ′ ) , x i ′ \boldsymbol{z}_i^{\prime}=(\boldsymbol{x}_i^{\prime},y_i^{\prime}),\boldsymbol{x}_i^{\prime} zi=(xi,yi),xi服从分布 D \mathcal{D} D并独立于 D . D. D.

下面定义关于假设 E D \mathfrak{E}_D ED的几种损失。

  • 泛化损失
    ℓ ( L , D ) = E x ∈ X , z = ( x , y ) [ ℓ ( L D , z ) ]   . \ell(\mathcal{L},\mathcal{D})=\mathbb{E}_{\boldsymbol{x}\in\mathcal{X},\boldsymbol{z}=(\boldsymbol{x},y)}\big[\ell(\mathcal{L}_{D},\boldsymbol{z})\big]\:. (L,D)=ExX,z=(x,y)[(LD,z)].

  • 经验损失

ℓ ^ ( L , D ) = 1 m ∑ i = 1 m ℓ ( L D , z i )   . \widehat{\ell}(\mathcal{L},D)=\frac{1}{m}\sum_{i=1}^{m}\ell(\mathcal{L}_{D},\boldsymbol{z}_{i})\:. (L,D)=m1i=1m(LD,zi).

  • 留一损失

ℓ l o o ( L , D ) = 1 m ∑ i = 1 m ℓ ( L D ∖ i , z i )   . \ell_{loo}(\mathcal{L},D)=\frac{1}{m}\sum_{i=1}^{m}\ell(\mathcal{L}_{D\setminus i},\boldsymbol{z}_{i})\:. loo(L,D)=m1i=1m(LDi,zi).

定义算法的均匀稳定性:
对任何 x ∈ X , z = ( x , y ) x\in\mathcal{X},\boldsymbol{z}=(\boldsymbol{x},y) xX,z=(x,y),若学习算法 S \mathfrak{S} S满足
∣ ℓ ( L D , z ) − ℓ ( L D ∖ i , z ) ∣ ⩽ β   ,   i = 1 , 2 , … , m , \begin{vmatrix}\ell(\mathfrak{L}_D,\boldsymbol{z})-\ell(\mathfrak{L}_{D^{\setminus i}},\boldsymbol{z})\end{vmatrix}\leqslant\beta\:,\:i=1,2,\ldots,m, (LD,z)(LDi,z) β,i=1,2,,m,
则称 S \mathfrak{S} S关于损失函数 ℓ \ell 满足 β \beta β-均匀稳定性,

显然,若算法 S \mathfrak{S} S关于损失函数 ℓ \ell 满足 β \beta β-均匀稳定性,则有
∣ ℓ ( L D , z ) − ℓ ( L D i , z ) ∣ ⩽ ∣ ℓ ( L D , z ) − ℓ ( L D i , z ) ∣ + ∣ ℓ ( L D i , z ) − ℓ ( L D ∖ i , z ) ∣ ⩽ 2 β   , \begin{aligned}&\left|\ell(\mathcal{L}_{D},\boldsymbol{z})-\ell(\mathcal{L}_{D^{i}},\boldsymbol{z})\right|\\&\leqslant\left|\ell(\mathcal{L}_{D},\boldsymbol{z})-\ell(\mathcal{L}_{D^{i}},\boldsymbol{z})\right|+\left|\ell(\mathcal{L}_{D^{i}},\boldsymbol{z})-\ell(\mathcal{L}_{D^{\setminus i}},\boldsymbol{z})\right|\\&\leqslant2\beta\:,\end{aligned} (LD,z)(LDi,z)(LD,z)(LDi,z)+(LDi,z)(LDi,z)2β,

若损失函数 ℓ \ell 有界,则有定理如下:

给定从分布 D \mathcal{D} D上 独立同分布采样得到的大小为 m m m的示例集 D D D,若学习算法 S \mathfrak{S} S满足关于损失函数 ℓ \ell β \beta β-均匀稳定性,且损失函数 ℓ \ell 的上界为 M , 0 < δ < 1 M,0<\delta<1 M,0<δ<1,则对任意 m ⩾ 1 m\geqslant1 m1,以至少 1 − δ 1-\delta 1δ的概率有
ℓ ( L , D ) ⩽ ℓ ^ ( L , D ) + 2 β + ( 4 m β + M ) ln ⁡ ( 1 / δ ) 2 m \ell(\mathcal{L},\mathcal{D})\leqslant\widehat{\ell}(\mathcal{L},D)+2\beta+\left(4m\beta+M\right)\sqrt{\frac{\ln(1/\delta)}{2m}} (L,D) (L,D)+2β+(4mβ+M)2mln(1/δ)
ℓ ( L , D ) ⩽ ℓ l o o ( L , D ) + β + ( 4 m β + M ) ln ⁡ ( 1 / δ ) 2 m   . \ell(\mathcal{L},\mathcal{D})\leqslant\ell_{loo}(\mathcal{L},D)+\beta+(4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}}\:. (L,D)loo(L,D)+β+(4mβ+M)2mln(1/δ) .

你可能感兴趣的:(机器学习,学习,人工智能)