泛化误差上界

1. 损失函数与风险函数

机器学习中,需要通过损失函数来度量模型一次预测的好坏,通常用来表示,常见的损失函数有:

  • 0-1损失函数(指示函数)
  • 平方损失函数
  • 绝对值损失函数
  • 对数似然损失函数

风险函数则是损失函数的平均:
若是在训练样本集上的平均,则称为经验风险或经验损失(Empirical Risk/Loss),记作。给定训练集,则:

若是在样本空间上的期望,则为期望风险或期望损失(Expected Risk/Loss),记作。模型的输入、输出是随机变量,遵循联合分布,则:

模型训练的终极目的是为了降低期望风险。但由于联合分布是未知的,所以期望风险只存在理论意义。
根据大数定律,当样本容量趋于无穷时,经验风险趋于期望风险。因此,在实际训练时,我们可以用经验风险去近似期望风险。针对样本容量大小,存在两种训练策略:经验风险最小策略和结构风险最小策略。
当样本容量足够大时,经验风险最小策略就能保证较好的训练效果,即:

如果训练样本有限,经验风险最小策略就会产生“过拟合”,可在经验风险的基础上增加表示模型复杂度的正则化项(罚项),即结构风险最小策略(Structural Risk Minimization, SRM):

其中,表示模型复杂度,是定义在假设空间上的泛函,越复杂,越大,比如在多项式函数空间,多项式系数的平方和可作为度量函数复杂度的指标。是正则化系数,用于权衡经验风险和模型复杂度。
正则化方法符合奥卡姆剃刀原理:在所有可能的模型中,能够很好解释已有数据,且最简单的模型才是最好的模型。这样的模型泛化能力强。

2. 泛化能力与泛化误差上界

泛化能力是指模型对未知数据的预测能力,可以通过泛化误差来度量。泛化误差即期望误差,由于其只存在理论意义,我们只能从理论上寻找泛化误差的概率上界。
首先我们可以有一个定性的认识:样本越多,泛化上界越小;假设空间越大,泛化上界越大;当样本容量趋近于无穷时,泛化上界趋于0。因此,泛化误差上界应该是一个与样本容量、假设空间容量有关的函数。
我们通过一个最简单的二分类问题来研究泛化误差上界的证明方法。
给定训练集,为样本容量,,。假设空间为有限函数集合,是假设空间容量。损失函数为0-1损失。有如下关于泛化误差上界的定理:

对任意,以下不等式至少以概率成立:

其中,

该不等式左侧即为泛化误差;右侧为泛化误差上界,由经验误差和两部分组成,的单调性与我们的定性认识一致:样本容量越大,越小,且与同阶。
该定理的证明需要用到马尔可夫不等式和霍夫丁(Hoeffding)不等式,霍夫丁不等式的证明又需要用到霍夫丁引理。下面依次进行证明。

3. 相关证明

3.1 马尔可夫不等式

马尔可夫不等式把概率关联到数学期望,给出了随机变量的分布函数的一个上界。

若随机变量,且存在,则有:

证明:
\begin{align} P(X \geq \epsilon) &= \int_{X \geq \epsilon}{p(x) dx} \\ &\leq \int_{X \geq \epsilon}{\frac{x}{\epsilon} p(x) dx} \\ &= \frac{1}{\epsilon} \int_{X \geq \epsilon}{x p(x) dx} \\ &\leq \frac{1}{\epsilon}\int_{- \infty}^{+ \infty}{x p(x) dx} \\ &= \frac{E(X)}{\epsilon} \end{align}
马尔可夫不等式可以用来估计尾部事件的概率上界,例如:表示工资,为平均工资,设表示平均工资的倍。根据马尔可夫不等式,工资超过平均工资倍的概率不超过。
切比雪夫不等式是马尔可夫不等式的特殊情况,其不限定随机变量的范围,应用更广泛。

若随机变量的期望和方差都存在,分别为和,则有:

证明:
\begin{align} P \lbrace \left| X-E(X) \right| \geq \epsilon \rbrace &= P \lbrace \left| X-E(X) \right| ^2 \geq \epsilon ^2 \rbrace \\ & \leq \frac{E \lbrace \left| X-E(X) \right| ^2 \rbrace}{\epsilon ^2} \\ &= \frac{D(X)}{\epsilon ^2} \end{align}
切比雪夫不等式描述了这样一个事实:偏离均值越大,概率越小,事件大多会集中在均值附近。

3.2 霍夫丁引理

对于随机变量,,且,则对于:

证明:
霍夫丁引理的证明主要是使用了下凸函数的性质。对于凸函数,有:

为下凸函数,代入上式:

其中,为取值于的随机变量,且,对上式两边同时求期望:
\begin{align} E(e^{\lambda X})&\leq\frac{b-E(X)}{b-a}e^{\lambda a}+\frac{E(X)-a}{b-a}e^{\lambda b}\\ &=\frac{b}{b-a}e^{\lambda a}+\frac{-a}{b-a}e^{\lambda b}\\ &=\frac{-a}{b-a}e^{\lambda a}(-\frac{b}{a}+e^{\lambda(b-a)}) \end{align}
令,,上式可变形为:

令,上式可变形为:

对于在0处进行泰勒展开:

其中,
\begin{align} L(h)|_{h=0}&=0\\ L'(h)|_{h=0}&=-q+\frac{qe^h}{1-q+qe^h}\\ &=0\\ L''(h)&=\frac{qe^h(1-q+qe^h)-(qe^h)^2}{(1-q+qe^h)^2}\\ &=\frac{qe^h}{1-q+qe^h}-(\frac{qe^h}{1-q+qe^h})^2\\ &\leq\frac{1}{4} \end{align}
代入上式,可得:

进而有:

3.3 霍夫丁不等式

设是独立随机变量,且;,对任意,以下不等式成立:

证明:
\begin{align} P[\overline{X}-E[\overline{X}]\geq t]&=P[e^{\lambda(\overline{X}-E[\overline{X}])}\geq e^{\lambda t}]\\ &\leq\frac{E[e^{\lambda(\overline{X}-E[\overline{X}])}]}{e^{\lambda t}}\quad\quad\text{马尔科夫不等式}\\ &=e^{-\lambda t}E[ e^{\lambda (\frac{1}{N}\sum_{i=1}^{N}(X_i)-E[\frac{1}{N}\sum_{i=1}^{N}(X_i)])}]\\ &=e^{-\lambda t}E[e^{\frac{\lambda}{N}\sum_{i=1}^{N}{(X_i-E[X_i ])}}]\\ &=e^{-\lambda t}E[\prod_{i=1}^{N}{e^{\frac{\lambda}{N}(X_i-E[X_i ])}}]\\ &=e^{-\lambda t}\prod_{i=1}^{N}{E[e^{\frac{\lambda}{N}(X_i-E[X_i ])}]} \end{align}
由于,且,由霍夫丁引理可知:

代入上式有:
\begin{align} P \left[\overline{X}-E\left[\overline{X}\right] \geq t\right] &\leq e^{-\lambda t} \prod_{i=1}^{N}{e^{\frac{\lambda^2(b_i-a_i)^2}{8N^2}}} \\ &= e^{-\lambda t +\frac{\lambda^2}{8N^2}\sum_{i=1}^{N}{(b_i-a_i)^2}} \end{align}
令,为了得到一个最好的概率上界,可求最小值:

从而有:

同理可得:

命题得证。

3.4 假设空间有限的二分类问题的泛化误差上界

给定训练集,为样本容量,,。假设空间为有限函数集合,是假设空间容量。损失函数为0-1损失。其泛化误差上界满足如下定理:

对任意,以下不等式至少以概率成立:

其中,

证明:
损失函数为0-1损失,因此损失函数的取值区间为,从而对任意,由霍夫丁不等式可知:

由于假设空间是一个有限集合,因此:
\begin{align} P\left(\exists f\in F:R_{exp}(f)-R_{emp}(f)\geq\epsilon\right)&=P\left(\bigcup_{f\in F}\lbrace R_{exp}(f)-R_{emp}(f)\geq\epsilon\rbrace\right)\\ &\leq\sum_{f\in F}{P(R_{exp}(f)-R_{emp}(f)\geq\epsilon)}\\ &\leq de^{-2N\epsilon^2} \end{align}
等价于:

令,则:

即至少以概率有,其中。
命题得证。

你可能感兴趣的:(泛化误差上界)