【斯坦福---机器学习】复习笔记之经验风险最小化

这一讲开始将是学习理论(Learning Theory)方面的内容.

Bias/variance trade-off(偏差-方差权衡)
回到线性回归问题,如图:
【斯坦福---机器学习】复习笔记之经验风险最小化_第1张图片
泛化误差(generalization error):可能出现的错误并不再已有的数据集中
上图中,左右两幅图的泛化误差都比较大.
左边是欠拟合(underfit)的,即使能够拟合很大一部分数据,但还是可能出现偏差(bias).
右边是过拟合(overfit)的, 在有限小数据,拟合程度是很好的,但是对于一个新的输入,很有可能会有很大的误差,这种称作模型有很大的方差(variance).

所以,经常要在偏差和方差中间做权衡,如果选择的模型太简单参数太少,可能会有很大的偏差(但是很小的方差),如果模型太复杂,参数太多又可能会有很大的方差(但很小的偏差). 上面给出的例子中中间的二次函数比左边的线性函数和右边的五次函数拟合得都好.

引理:(联合界,the union bound)假设A1,A2,…,Ak为k个不同的事件(可能独立也可能不独立).那么,这里写图片描述

引理(Hoeffding不等式):假设Z1,…,Zm为m个独立同分布(iid,independent and identically distributed)的随机变量,服从于伯努利分布, 也就是说这里写图片描述,并且这里写图片描述为这些随机变量的期望,这里写图片描述,那么有这里写图片描述

为了简化阐述,考虑二元分类问题,这里写图片描述在这讨论的都可以推广,包括回归和多元分类问题.

假设给定数据集,这里写图片描述,样本是IID(独立同分布)的,对于猜想h,定义训练误差(trainning error,也叫做empirical risk和empirical error)为:这里写图片描述
其实这就是错误分类的概率.
定义泛化误差为:这里写图片描述,就是说给定一个新样本,h会分类错误的概率.

考虑线性分类,怎样找到一个合适的参数这里写图片描述,一个方法就是最小化训练误差,然后选择这里写图片描述 把这个过程称为经验风险最小化(ERM,empirical risk minimization),推出的猜想为这里写图片描述

定义猜想类(Hypotheses class)为学习算法考虑到的所有分类器集合.
经验风险最小化现在可以考虑为在猜想类函数中最小化,也就是说学习算法在猜想类中选择一个猜想这里写图片描述

考虑有限个猜想,这里写图片描述由k个猜想组成,这里写图片描述就是从输入映射到{0,1}的k个函数,经验风险最小化从这k个函数中选择一个使得训练误差是最小的.
训练误差可以写成这里写图片描述
应用Heffding不等式得到这里写图片描述
假设m很大,对于特定的猜想函数很大概率上训练误差接近泛化误差,但是我们需要证明对于所有的猜想类都是同时成立的,假设事件Ai为这里写图片描述
已经有这里写图片描述,使用联合边界定理,有
【斯坦福---机器学习】复习笔记之经验风险最小化_第2张图片
两边同时减1,得
这里写图片描述
也就是说在内,对于所有的猜想函数,至少有这里写图片描述的概率这里写图片描述这里写图片描述视一个可信的估计. 这称为一致收敛(uniform convergence)结果, 因为这是对所有这里写图片描述都同时成立的边界.

基于上面的讨论,有三个数量,m,这里写图片描述和出错的概率,给定其中两个就能够推出另外一个.

比如给定这里写图片描述和某个这里写图片描述,m需要多大来保证概率在这里写图片描述之内,计算得到这里写图片描述,这就告诉了我们为了保证一定的错误率需要多大的数据集.

样本复杂性(sample complexity):为了达到一定程度性能而需要的数据集数量.

同样的,我们可以固定m和这里写图片描述,得到这里写图片描述

把所有的这些放到一起得到一个定理:
【斯坦福---机器学习】复习笔记之经验风险最小化_第3张图片

【斯坦福---机器学习】复习笔记之经验风险最小化_第4张图片

你可能感兴趣的:(MachineLearning)