西瓜书12-计算学习理论

chapter 12 计算学习理论

计算学习理论研究的目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。
给定样例集D={(x1,y1),(x2,y2),…,(xm,ym)},本章主要讨论二分类问题,Y={-1,+1},假设所有样本服从一个隐含未知的分布D’,D中所有样本都是独立地从这个分布上采样而得,即独立同分布样本。
令h为从x到y的映射,其泛化误差为:
在这里插入图片描述
经验误差为:
在这里插入图片描述
由于D是D’的独立同分布采样,因此h的经验误差的期望等于其泛化误差,本章后面部分将研究经验误差与泛化误差之间的逼近程度,若h在数据集D上的经验误差为0,则称h与D一致,否则称其与D不一致,对任意两个映射h1,h2,可通过其“不合”来度量他们之间的差别:
在这里插入图片描述
几个常用不等式:
1、Jensen不等式:对任意凸函数有:在这里插入图片描述
2、Hoeffding不等式:若x1,x2,…,xm为m个独立随机变量,且满足0<=xi<=1,则对任意在这里插入图片描述
有:西瓜书12-计算学习理论_第1张图片
3、McDiarmid不等式:
西瓜书12-计算学习理论_第2张图片

12.2 PAC学习

计算学习理论中最基本的是概率近似正确学习理论。
令c表示“概念”,这是从样本空间X到到标记空间Y的映射,它决定示例x的真实标记y,若对任何样例(x,y)有c(x)=y成立,则称c为目标概念,所有我们希望学得的目标概念所构成的集合称为“概念类”,用符号C表示。
给定学习算法,他所考虑的所有可能概念的集合称为“假设空间”,用符号H表示,由于学习算法事先并不知道概念类的真实存在,因此H和C通常是不同的,学习算法会把自认为可能的目标概念集中起来构成H,由于并不能确定它是否真是目标概念,因此称为“假设”,显然,假设h也是从样本空间X到标记空间Y的映射。

给定训练集D,我们希望基于学习算法学得的模型所对应的假设h尽可能接近目标概念c,为什么不能精确到目标概念c呢?这是由于机器学习过程中受到很多因素的制约,例如我们获得的训练集D往往仅包含有限数量的样例,因此,通常会存在一些在D上“等效”的假设,学习算法对他们无法区别。再如,从分布D采样得到D的过程有一定偶然性,即使对同样大小的不同训练集,学得的结果也可能有所不同。
因此,我们希望以比较大的把握学得比较好的模型,也就是说,以较大的概率学得误差满足预设上限的模型,这就是“概念近似正确”的含义,可定义置信度:
西瓜书12-计算学习理论_第3张图片
这样的学习算法能以较大概率学得目标概念c的近似。
西瓜书12-计算学习理论_第4张图片
对计算机算法来说,必须考虑时间复杂度,于是:
西瓜书12-计算学习理论_第5张图片
假定学习算法处理每个样本的时间为常数,则学习算法的时间复杂度等价于样本复杂度,于是,我们对算法时间复杂度的关心就转化为对样本复杂度的关心(样本越复杂,时间复杂度越高)。
西瓜书12-计算学习理论_第6张图片
显然,PAC学习给出了一个抽象地刻画机器学习能力的框架,基于这个框架能对很多重要问题进行理论探讨,例如研究某任务在什么样的条件下可学得较好的模型?某算法在什么样的条件下可进行有效的学习,需多少训练样例才能获得较好的模型?
PAC学习中一个关键因素是假设空间H的复杂度,H包含了学习算法所有可能输出的假设,若在PAC学习中假设空间与概念类完全相同,即H=C,这称为“恰PAC可学习”。直观地看,这意味着学习算法的能力与学习任务“恰好匹配”,然而,这种让所有候选假设都来自概念类的要求看似合理,但却并不实际,因为在现实应用中,我们对概念类C通常一无所知,更别说获得一个假设空间与概念类恰好相同的学习算法。
显然,更重要的是研究假设空间与概念类不同的情形,即H≠C,一般而言,H越大,其包含任意目标概念的可能性越大,但==从中找到某个具体目标概念的难度也越大。H有限时,称H为“有限假设空间”,否则称为“无限假设空间”。

下面的不再写了,有点难懂,以后再说。

你可能感兴趣的:(西瓜书)