机器学习——04朴素贝叶斯(补充)

在朴素贝叶斯中,提到了两种估计概率的算法:一个是极大似然估计,一个是贝叶斯估计。

另外,在b站的视频中,提到了模型的两种估计方法:一个是最大似然估计,一个是奥卡姆剃刀。

对于这四个概念,我不是很清楚的知道什么是什么,也不太知道估计的是什么的概率?

基于一些偏颇的概念,仅记录下来,供以后参考。说明:本文可能有错误!!!

贝叶斯决策

        首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:

其中:p(w):为先验概率,表示每种类别分布的概率;P(X|W):类条件概率,表示在某种类别前提下,某事发生的概率;P(W|X)而为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类。后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它归到这个类别下。

        我们来看一个直观的例子:已知:在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?

        从问题看,就是上面讲的,某事发生了,它属于某一类别的概率是多少?即后验概率。
设:

 男性和女性穿凉鞋相互独立,所以 

(若只考虑分类问题,只需要比较后验概率的大小,P(X)的取值并不重要)。 

 由贝叶斯公式算出:

极大似然估计

问题引出
        但是在实际问题中并不都是这样幸运的,我们能获得的数据可能只有有限数目的样本数据,而先验概率和类条件概率(各类的总体分布),也就是分子都是未知的。根据仅有的样本数据进行分类时,一种可行的办法是我们需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。

        先验概率的估计较简单,1、每个样本所属的自然状态都是已知的(有监督学习);2、依靠经验;3、用训练样本中各类出现的频率估计

        类条件概率的估计(非常难),原因包括:概率密度函数包含了一个随机变量的全部信息;样本数据可能不多;特征向量x的维度可能很大等等。总之要直接估计类条件概率的密度函数很难。解决的办法就是,把估计完全未知的概率密度转化为估计参数。这里就将概率密度估计问题转化为参数估计问题,极大似然估计就是一种参数估计方法。当然了,概率密度函数的选取很重要,模型正确,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。

重要前提
        上面说到,参数估计问题只是实际问题求解过程中的一种简化方法(由于直接估计类条件概率密度函数很困难)。所以能够使用极大似然估计方法的样本必须需要满足一些前提假设

        重要前提:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件),且有充分的训练样本。
 

样本服从正态分布、均匀分布分别估计不同的参数值。这也是sklearn中三种不同的贝叶斯分类器的区别。主要是看服从什么分布。

最大似然估计只考虑某个模型能产生某个给定观察序列的概率。而未考虑该模型本身的概率。这点与贝叶斯估计区别。贝叶斯估计方法将在以后的博文中描述

贝叶斯估计

按照我的理解,就是贝叶斯估计解决的是在最大似然估计的时候概率为0的情况,贝叶斯让它都加上1。这样就不会为0了。

以上两种方法可在上一篇博客中看到这两个估计的举例说明。

贝叶斯估计、最大似然估计、最大后验概率估计

机器学习——04朴素贝叶斯(补充)_第1张图片

 

最大似然估计

奥卡姆剃刀。

贝叶斯定理与奥卡姆剃刀

奥卡姆剃刀,是贝叶斯定理的一种特殊情况。奥卡姆剃刀告诉我们,在多个有相同的解释力的原因中要选出一个简单的;而贝叶斯定理告诉我们更一般的情况,即在解释力和复杂性中找到最好的平衡

贝叶斯定理: 就是先验概率和似然概率乘积最大。

奥卡姆剃刀: 找先验概率最大的。

你可能感兴趣的:(机器学习,机器学习,概率论)