机器学习基础(二十一)—— 分类与回归、生成模型与判别模型

  • 无论是生成模型还是判别模型,都可作为一种分类器(classification)来使用;

1. 分类与回归

  • (1)分类的目标变量是标称型数据(categorical data),0/1,yes/no
  • (2)回归:连续型(numeric data),鲍鱼的年龄,玩具的售价

对于分类问题,监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier)。分类器对新的输入进行输出的预测(predication),称为分类(classification),可能的输出称为类 class。

评价分类器性能的指标一般是分类精确率(accuracy),其定义是:对于给定测试数据集,分类器正确分类的样本数和总样本数之比。也就是损失函数是 0-1 损失时测试数据集上的准确率。

L=1Nn=1N1yng(xn)

回归(Regression)是监督学习的另一个重要问题,回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值也随之发生变化。回归模型正是表示从输入变量到输出变量之间映射的函数,回归问题的学习等价于函数拟合。

回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(least squares)求解。

2. 生成模型与判别模型

  • 生成模型根据联合概率 P(X,Y) 然后求条件概率 P(Y|X) ,其提供了一种生成关系,故可还原联合概率分布 P(X,Y)
  • 判别模型直接学习条件概率 P(Y|X) 或决策函数 f(X)

监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这个模型的一般形式分为两类:

  • (1)决策函数

    Y=f(X)

  • (2)条件概率分布

    P(Y|X)

监督学习方法又可分为生成方法(generative approach)和判别方法(discriminative approach),所学到的模型分别为生成模型(generative model)和判别模型(discriminative model)。

生成方法由数据学习联合概率分布 P(X,Y) ,然后求出条件概率分布 P(Y|X) 作为预测的模型,即生成模型:

P(Y|X)=P(X,Y)P(X)

这样的方法之所以称为生成方法,是因为模型表示了给定输入 X 产生输出 Y 的生成关系。典型的生成模型主要有:

  • 朴素贝叶斯法 P(ci|w)=P(ci)P(w|ci)P(w)

    因为贝叶斯分类器,其实说明了如何通过类条件概率(class-conditional probability) p(w|ci) )以及类先验(prior, p(ci) 来生成数据的过程和方法。

  • 隐马尔科夫模型(存在隐变量

判别方法由数据直接学习决策函数 f(X) 或者条件概率分布 P(X,Y) 作为预测的模型,即判别模型。判别方法关心的是,对给定的输入 X ,应该预测什么样的输出 Y

生成方法的特点:

  • (1)生成方法可以还原出联合概率分布 P(X,Y) ,而判别方法则不能;
  • (2)生成方法的学习收敛速度更快,即当样本容量增加时,学到的模型可以更快地收敛到真实模型;
  • (3)当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用

判别方法的特点:

  • (1)判别方法直接学习的是条件概率 P(Y|X) 或决策函数 f(X) ,直接面对预测,往往学习的准确率更高
  • (2)由于直接学习 P(Y|X) f(X) ,可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

你可能感兴趣的:(机器学习)