极大似然估计法推出朴素贝叶斯法中的先验概率估计公式如何理解

下面的答案将先照《统计学习方法》一书将问题补充完整,以便手上没这本书的人也能看明白,然后再给出推导过程。
设输入空间为 n 维向量的集合,输出空间为类标记集合 {}。输入为特征向量 x 属于输入空间,输出为类标记 y 属于输出空间。X 是定义在输入空间上的随机向量,Y 是定义在输出空间上的随机向量。P(X,Y) 是 X 和 Y 的联合概率分布。训练数据集

T={}

由 P(X,Y) 独立同分布产生。
朴素贝叶斯通过训练数据集学习联合概率分布 P(X,Y)。具体地,学习以下先验概率分布及条件概率分布。先验概率分布

条件概率分布

于是学习到联合概率分布 P(X,Y)。(注意上式中的上标表示的是向量的第 n 维,而不是第 n 个训练数据点)
条件概率分布 有指数级数量的参数,其估计实际是不可行的。假设可取值有个,j=1,2,...n,Y 可取值有 K 个,那么参数个数为 。
朴素贝叶斯法对条件概率分布作了条件独立性的假设。

朴素贝叶斯法分类时,对给定的输入 x,通过学习到的模型计算后验概率分布,将后验概率最大的类作为输出。后验概率计算根据贝叶斯定理进行:

将条件独立性假设代入上式得:

这是朴素贝叶斯分类的基本公式。于是,朴素贝叶斯分类器可表示为:

注意到分母对所有都是相同的,所以

从上式可以看出,朴素贝叶斯法的学习也就是要估计先验概率和条件分布概率,可以应用极大似然估计法估计相应的概率,下面先给出书上的答案,再写推导过程。
先验概率的极大似然估计是

设第 j 个特征 可能取值的集合为 {},条件概率 的极大似然估计是

式中, 是第 i 个样本的第 j 个特征;是第 j 个特征可能取的第 l 个值;I 为指示函数。

推导过程

把 和 作为参数。



为叙述方便起见,下面以 代表参数集合 {,}。

首先写出 log 似然函数





=\sum_{i=1}^{N}{[\sum_{k=1}^{K}{logp(y=c_{k} )}^{I(y_{i}=c_{k})} +\sum_{j=1}^{n}{\sum_{l=1}^{S_{j}}{logp(x^{(j)} =a_{jl} |y_{i}=c_{k})^{I(x_{i}^{(j)} =a_{jl},y_{i}=c_{k})}} } ]}

在上式中我们是把 {,,} 作为参数,有这么多参数,当然因为有等约束,实际参数会少一点,下面会有应用。
现在我们来求上式的极大似然估计的参数估计值。
先说先验概率 系列参数,上式中只有前半段含有 ,所以在求先验概率估计值时就只管前半部分。

在继续之前,需要把 的约束加入上式中,我们把 代入上式得:


现在我们来求 的估计值。



关于上式最后一步后半部分母的转换 ,可能有人会困惑,既然现在要转回 原形,那之前为什么要使用 的形式?
要注意这里的 已经不是参数,而是由 决定的一个值,在此对 求偏导的函数中, 是包含了 的,写成 的形式是为了表明该表达式包含了 ,以免求偏导时把 当作常数而误消除。

好,继续。


由上式可得:

按照同样的方法,可得:

……

上面所有式子左边和右边分别相加:

可得:

把上式代入前面的 ,可得:

总之,先验概率的 的极大似然估计是:

至此,先验概率的推导完毕。

同理,有兴趣的同学可推导条件概率 ,这里不再赘述

 

转自:

https://www.zhihu.com/question/33959624

李航 统计学习基础

你可能感兴趣的:(极大似然估计法推出朴素贝叶斯法中的先验概率估计公式如何理解)