第一章统计学习方法概论(三)泛化能力和生成判别模型

1、泛化能力
  学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力。但这种评价是依赖于测试数据集的。因为测试数据集是有限的,很有可能由此得到的评价结果是不可靠的。统计学习理论试图从理论上对学习方法的泛化能力进行分析。

  泛化误差的定义。如果学到的模型是 f ,那么这个模型对未知数据预测的误差即为泛化误差: Rexp(f)=Ep[L(Y,f(X)]=XYL(y,f(x))P(x,y)dxdy 。泛化误差反映了学习方法的泛化能力。事实上,泛化误差就是所学习到的模型的期望风险。

  学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称为泛化误差上界。具体来说,就是通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。泛化误差上界通常具有以下性质:
它是样本容量的函数,当样本容量增加时候 ,泛化上界趋于0;它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。

  定理1.1(泛化误差上界)对二类分类问题,当假设空间是有限个函数的集合 F={f1,f2,...,fd} 时,对任意一个函数 fF ,至少以概率 1δ ,以下不等式成立: R(f)R(f)+ε(d,N,δ)
其中, ε(d,N,δ)=12N(logd+log1δ) 。左端是泛化误差,右端即为泛化误差上界。在泛化误差上界中,第1项是训练误差,训练误差越小,泛化误差也越小。第二项是N的单调递减函数,当N趋于无穷时候趋于0。训练误差小的模型,其泛化误差也会小。

2、生成模型与判别模型
  监督学习方法分为生成方法和判别方法。所学到的模型分别称为生成模型和判别模型。

  生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型: P(Y|X)=P(X,Y)P(X) 。这样的方法之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有:朴素贝叶斯法和隐马尔科夫模型。

  判别方法由数据直接学习决策函数或者条件概率分布作为预测的模型,即判别模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y,典型的判别模型包括:k近邻法、感知机、决策树、逻辑回归、最大熵模型、支持向量机、提升方法和条件随机场等。

  生成方法的特点:生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法不能使用

  判别方法的特点:判别方法直接学习的是条件概率P(Y|X)或 决策函数f(X),直接面对预测,往往学习的准确率更高。由于直接学习条件概率或者决策函数,可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

你可能感兴趣的:(李航统计学习方法)