机器学习-统计学习方法概论

监督学习

统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)组成。

统计学习方法包括模型的假设空间、模型的选择准则以及模型学习的算法,称其为统计学习方法的三要素:模型(model)、策略(strategy)和算法(algorithm)

计算机科学由三维组成:系统、计算和信息。

模型属于输入空间到输出空间的映射集合,这个集合就是假设空间(hypothesis space)

方法=模型+策略+算法

如果一味追求对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高,也就是过拟合(over-fiting)。过拟合是指学习室选择的模型所包含的参数过多,以至于这一模型对已知数据预测得很好,但对未知数据测得很差的现象,可以说模型选择旨在避免过拟合并提高模型的预测能力。

模型选择的典型方法是正则化(regularization)。正则化是结构风险最小化策略的实现。

另一种常用的模型选择方法是交叉验证(cross validation)。

  • 简单交叉验证
  • K折交叉验证
  • 留一交叉验证

Generalization ability

将学习方法对未知数据的预测能力称为泛化能力(generalization ability)

泛化误差generalization error

泛化误差即学习得到的模型的期望风险计算公式如下:

Rexp(f)=Ep[L(Y,f(X))]=xyL(y,f(x))P(x,y)dxdy

学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称泛化误差上界(generalization error bound)。

生成模型和判别模型

监督学习方法可分为生成方法(generative approach)和判别方法(discriminative approach)。所学到的模型称为生成模型(generative model)和判别模型(discriminative model)

生成方法由数据学习联合**概率分布**P(X,Y),然后求出条件概率分布P(Y|X)作为预测得模型,即生成模型

P(Y|X)=P(X,Y)P(X)

这种方法称为生成方法,表示给定输入X产生输出Y的生成关系。如:朴素贝叶斯和隐马尔科夫模型。

判别方法由数据学习决策函数f(X)或者条件概率P(Y|X)作为预测模型,即判别模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y,典型的判别模型包括:K最近邻、感知机、决策树、logistics回归、最大熵模型、SVM、boosting和条件随机场等。

你可能感兴趣的:(Machine,Learning)