计算学习理论
计算学习理论主要研究关于机器学习的一般化概念,比如什么样的问题才能被学习,什么样条件下学习才可能成功,怎么样评价一个学习的成功与否主要研究了两个机器学习的一般性框架,可能近似正确(PAC,probably approximate correct)框架和出错界限(mistakeboundary)框架.并提出了学习计算的复杂性,其中有计算复杂性(computational complexity,解决算法以较高概率收敛到成功的计算量),样本复杂性(sample complexity需要多少样本来实习这个学习),出错界限(收敛到成功前可以容忍多少错误分类).
错误率的概念
定义:X为样本空间,c:{X = 0,1}为要学习的概念空间,比如c(x)=1则为男,就是一个要被学习的属性.C是c的集合.D为X的概率分布,训练样本和测试样本都是从概率分布为D中抽取出来的.S为训练样本.H是学习器L对目标概念输出时考虑的目标假设集合(concept hypothesis),即L需要从H中输出一个针对目标概念c学习的目标假设结果h.
如何定义目标假设结果h和真实目标的关系,首先要定义假设h对应于学习的目标概念c和样本的分布D的真实错误率(true error),也称泛化误差(generalization error).其描述为应用h到将来按D抽取实例时的期望的错误率.
/*********************************************************************/
其中第二个等号后面是一个指示函数(indicator function),即集X的子集A的特征函数是函数,定义为其定义为:
/*********************************************************************/
这个真实错误率是高度依赖概率分布D的,如果是均匀分布则错误率为h命中真实实例的概率,如果命中的情况概率分布都为0的话,则错误率为1.
但是h关于c的真实错误率是不能由学习器L观察到的,L只能观察到训练错误率(training error).
两个错误率的关系为
关于学习复杂度主要解决的是训练错误率对真实错误率产生不正确估计的可能性有多大.
PAC概念
现在的训练学习的目标是:通过合理数量的随机抽取训练样本S通过合理的计算量来学习到整体的目标假设H.当然由于概率的存在时不可能完全正确即errorD(h)=0的,因此降低标准使得错误率小于一个可以任意小的常数e,再使得学习器的失败的概率也限定在一个任意小的常数d内.定义为:
³ 考虑定义在长度为n的实例集合X上的一概念类别C,学习器L使用假设空间H。当对所有cÎC,X上的分布D,e和d满足0<e, d<1/2,学习器L将以至少1-d输出一假设hÎH,使errorD(h)£e,这时称C是使用H的L可PAC学习的,所使用的时间为1/e,1/d,n以及size(c)的多项式函数
有限假设空间的样本复杂度
此处讨论一致学习器(consistentlearner),即可能时都输出能完美拟合训练数据S的假设H.
任意一致学习器所需训练样例的界限推导:
变型空间(version space),即所有可以正确分类训练样例S的所有假设h的集合:
首先需要界定变型空间中的错误率在一个界限内,称为e-详尽(e-exhust):
当然这个错误率只是针对训练样本,学习器是无法得到目标概念是否详尽,只有知道确切目标概念的外界观察者(即知道所有的信息)才能知道.但通过一个概率方法可以将训练样例限定在一个范围内使得变型空间未e-详尽
² 定理7.1(变型空间的e-详尽化)
³ 若假设空间H有限,且D为目标概念c的一系列m>=1个独立随机抽取的样例,那么对于任意0=<e<=1,变型空间VSH,S不是e-详尽的概率小于或等于:
意思就是训练样例数m界定了变型空间不是详尽的概率上界.当d小于这个上界时,就有可能在满足了d的条件是却不能满足e-详尽(疑问:概率更小并不表示就能满足详尽?概率更小并不代表不发生?)因此必须满足:
推得:
m随着假设空间H和1/d对数增长,随着错误率1/e线性增长.
由于H的增长,这个变型空间不是详尽的概率上界很容易就会超过1,因此可以给出一个更紧凑的边界