朴素贝叶斯先验概率公式推导

1.朴素贝叶斯模型

朴素贝叶斯是基于贝叶斯定理和特征条件独立性假设的分类模型;他将待预测的样本划分到后验概率 P(Y|X ) 最大的类别中
模型建立过程如下:
朴素贝叶斯先验概率公式推导_第1张图片
现在我们的问题是如何求解P(Y=Ck), 对于求解P(X=x|Y=Ck)的过程类似,我们只求P(Y=Ck)吧!

2. 先验概率P(Y=Ck)公式推导

先贴上李航书上的公式:
朴素贝叶斯先验概率公式推导_第2张图片
其中:I 是指示函数,当 yi = ck 时,返回1,否则返回0。比如 有4个y值分别是 y1=1, y2=2,y3=1,y4=1, 则
在这里插入图片描述
现在开始我们的表演:
1) Y 表示类别标签,是一个多项式分布,对于多项式分布,其实我们在高中就学过了,它的形式如下
朴素贝叶斯先验概率公式推导_第3张图片
C1,C2,C3,…,Ck 表示Y有K个类别取值;θ1,θ2,θ3,…,θk 则是取到各个类别下的概率
我们把这张表格用一个公式表示(一定要记住这个公式的形式,很常见的!!!)
在这里插入图片描述
可以验证这个公式:小y 是某一类别,当 y = C1 时, 代入得到 P(Y=C1) = θ1
2) 求似然函数
我们知道似然函数是观察值的联合概率分布,又因为样本是独立同分布的,因此可以将联合概率拆成单独概率相乘的形式即:
在这里插入图片描述
因为有N个样本,所以是N个样本概率的连乘。
y1表示第一个样本的类别,y2表示第二个样本的类别,以此类推…
代入公式得到:
朴素贝叶斯先验概率公式推导_第4张图片
连乘之后:
朴素贝叶斯先验概率公式推导_第5张图片
我们令
朴素贝叶斯先验概率公式推导_第6张图片
式子中:M1 其实表示的是在 N 个样本中,有多少是C1类
M2表示的是在 N 个样本中,有多少是C2类
M3表示的是在 N 个样本中,有多少是C3类

显然:M1+M2 + M3 +…+.Mk = N
3) 化简目标函数
我们要最大化似然函数即:
在这里插入图片描述
转化为对数形式:
朴素贝叶斯先验概率公式推导_第7张图片
千万别忘了我们还有一个约束条件:所有的概率之和为1,即
在这里插入图片描述
我们把它转化为拉格朗日函数形式:
在这里插入图片描述
4)求解拉格朗日函数

朴素贝叶斯先验概率公式推导_第8张图片
由于:
在这里插入图片描述
代入,可以求解出 λ
在这里插入图片描述
再次代入到 θ 中:可以依次求解出 θ 的值:

朴素贝叶斯先验概率公式推导_第9张图片
式中:
朴素贝叶斯先验概率公式推导_第10张图片
大家可以自行体会
至此,整个推导过程就结束啦!
朴素贝叶斯先验概率公式推导_第11张图片

你可能感兴趣的:(机器学习)