关于李航《统计学习方法》第4章朴素贝叶斯法的一些理解

贝叶斯决策

贝叶斯公式如下:

​ 其中:p(Y)为先验概率,表示每种类别分布的概率;P(X|Y):类条件概率,表示在某一类别情况下,某个事件发生的概率;而P(Y|X)为后验概率,表示某事发生了,并且它属于某一类别的概率。

​ p(X)通常可以利用全概率公式求得(n为y的类别数):

​ 这两个公式大家应该都比较熟悉,这里举个例子:已知:某个商店里的顾客中男性与女性的比例为2:1,男性购买商品的概率为1/2,而女性购买商品的概率为2/3。问题:假如有一个顾客在商店里买了商品,请问他的性别为男性或女性的概率分别是多少?

​ 本题就是典型的某个事情被观测到了,求它属于某一类的概率。即为后验概率,后面再来介绍什么是先验概率和后验概率。

设:x_1 = 购买商品,x_2 = 不购买商品,y_1 = 男性,y_2 = 女性

​ 由题意可得:

假设男性和女性购买商品是相互独立的,可以由全概率公式计算p(x_1):

根据贝叶斯公式可以计算出:

所以,如果这个人购买了商品,那么他是男性的概率为3/5。

​ 拿这个例子来解释下先验和后验,先验表示的是以往的经验,是从经验中获取的概率,比如抛硬币,即使我们一次都没有抛,我们仍然约定出现正面的概率为1/2,这就是先验概率。而后验概率是在某些事件发生了的情况下,通过这个发生的事件去重新估计原来的概率,比如上题,顾客中男女的比例是2:1,这个概率就是先验概率,是从以往的经验(或者顾客访问数据)得到的,如果没有任何事情发生的情况下,问一个顾客进店后他是男性还是女性的概率,就可以说男性的概率为2/3,但是现在发生一个事件,就是这个顾客他买了商品,这时候,顾客是哪个性别的概率就发生了改变,这个改变后的概率就是后验概率,通过贝叶斯公式,我们可以计算出这个后验概率。

​ 以上只是一个简单的例子来说明贝叶斯公式的应用,那么从这个例子我们延伸到书中复杂的公式呢?我们再看下面一个例子:

​ 表格中的训练数据X表示特征变量(这里举例只有一个特征,n个特征类似),取值集合为{1,0},Y为类标记,

使用该数据集来学习一个朴素贝叶斯分类器,并确定 **x=1** 时的类标记。

​ 你可能觉得这和书上的例4.1很相似,并且更为简单,但是你要是细心的话,你会发现,这个数据和上面的例题数据一样。

1 2 3 4 5 6 7 8 9
X 1 0 0 1 1 0 1 0 1
Y 1 1 1 1 1 1 0 0 0

我们计算先验概率

和类条件概率

你看,要求x=1的情况下,y=0或者1的概率,是不和上面例题一模一样?

使用例子学习朴素贝叶斯分类器也就是利用已知数据通过统计获得先验概率,再计算出类条件概率,从而给出新的事件X时,来估计其后验概率P(Y|x)。

补充:这里会有一个问题,比如某个特征条件的值或某个类别缺失,会导致计算出的概率为0,这点书中有提到。这很好理解,由于数据不充分,导致有一些先验概率缺失(经验不足),这样在出现这些事件时来预测后验概率,系统就无法做出决策。

​ 那么怎么解决这个问题呢?我就拿类别信息缺失的情况下来简单说明一下。比如Y的取值为{1,2,3,4,5,6},但是我们搜集到的数据只包含了{1,2,4,5,6},这里根据刚才我们的学习方法,就无法得到p(y=3),这时我们不用像刚才一样去统计数据来估计Y的先验概率(因为得不完全),而我们可以给Y确定一个先验概率分布,比如Dirichlet分布,即:

​ 而通常情况下的情况最符合实际,也就是先验概率最大,可以令其,

​ 有了这个先验概率,我们就可以用上面例题讲到的贝叶斯估计来计算Y的后验分布,取最大的后验概率就可以估计出我们想要的先验概率贝叶斯估计P(Y),也就是书中所描述的:

​ 具体的计算过程就不详细描述了,就是使用贝叶斯公式计算后验概率,和上面例题的计算过程实际上是一样。

​ 这里可能大家会看的比较晕乎,实际上所谓的先验和后验是相对的,比如我们预先规定P(Y=y)~Dirichlet分布,这是先验的,而在已知训练数据发生的情况下,用贝叶斯公式去估计的真实概率,这里这个在这时称为后验概率,因为他是由训练数据发生的情况下对先验的Dirichlet分布进行更新后的概率。但是当我们在使用这个概率对新的数据进行预测时,这个概率实际上就是先验的概率分布了。

你可能感兴趣的:(关于李航《统计学习方法》第4章朴素贝叶斯法的一些理解)