机器学习笔记—模式分类(二)参数判别估计法(最大似然估计和贝叶斯参数估计)1

1、我们已经知道了如何根据先验概率P(w1)和类条件概率密度p(x|wi)来设计分类器,但实际应用中通常得不到有关问题的概率结构的全部知识,只有一些模糊而笼统的先验知识和训练样本。这时我们利用训练样本来估计问题中设计的先验概率和类条件概率密度,并把这些估计的结果当作实际的先验概率和类条件概率密度,然后再设计分类器。

2、在典型的有监督模式识别中,估计先验概率没有太大困难,最大困难在于估计类条件概率密度,其主要原因:(1)很多情况下的已有训练样本数总是显得太少(2)当用于表示特征的向量x的维数较大时,会产生严重的计算复杂度问题。但如果先验知识允许我们能够把类条件概率密度进行参数化,并且事先能够知道参数的个数,那么就可以把问题从估计完全未知的类条件概率密度转化为估计参数。

3、参数估计方法中两种常用的方法时最大似然估计和贝叶斯估计,两者有本质的差别。

最大似然估计把带估计的参数看作是确定性的量,只是其取值未知,最佳估计是使得产生已观测到的样本的概率为最大的那个值。

贝叶斯估计则把带估计的参数看成是符合某种先验概率分布的随机变量,对样本进行观测的过程就是把未知参数的先验概率密度p(θ)转换为其后验概率密度p(θ|D),这样就利用了样本的信息修正了对参数的初始估计值;在贝叶斯估计中,一个典型的效果就是,每得到新的观测样本,就使得后验概率密度变得更加尖锐,使其在待估参数的真实值附件形成最大的尖峰,这个现象称为“贝叶斯学习”过程。

无论使用何种参数估计方法,在参数估计完成后我们都使用后验概率P(wi|x)作为分类准则。

4、在这里,有监督学习和无监督学习产生某个样本x的过程都是:首先根据先验概率P(wi)选择自然状态wi,然后在自然状态wi下,独立的(不受其他类别wj的影响)根据类条件概率密度p(x|wi)来选取样本x。

5、对于非参数化的方法通常先对特征空间进行变换,然后在变换空间中再采用参数化的方法;在这些“判别函数分析法”中,最重要的时Fisher线性判别函数,它将本章中的参数化方法,与自适应技术和特征选择方法之间建立起了重要的联系。

你可能感兴趣的:(Fire-机器学习,机器学习,人工智能,最大似然)