朴素贝叶斯算法(NB) 概率图模型(1)

文章目录

        • 朴素贝叶斯网络的图表示
        • 条件独立性
        • 朴素贝叶斯算法
        • 极大似然估计与贝叶斯估计的朴素贝叶斯概率估计公式
        • 优缺点
        • 损失

概率图模型分为 贝叶斯网络(Bayesian Network)和 马尔可夫网络(Markov
Network)两大类。
贝叶斯网络可以用一个 有向图结构表示,如 朴素贝叶斯模型、隐马尔可夫模型、主题模型。
马尔可夫网络可以表示成一个 无向图的网络结构,如 最大熵模型、条件随机场。

朴素贝叶斯网络的图表示

概率图中,每个节点的概率可以表示为: P(当前节点|它的父节点) ,写出联合概率分布:如图中所示:

朴素贝叶斯算法(NB) 概率图模型(1)_第1张图片

条件独立性

朴素贝叶斯算法(NB) 概率图模型(1)_第2张图片

朴素贝叶斯算法

给定数据样本 x 时 , 其数据类别为 y j yj yj的概率:即 后验概率 P ( y j ∣ x ) P(y_j|x) P(yjx), 它反映了在看到数据样本x后yj成立的置信度

朴素贝叶斯算法(NB) 概率图模型(1)_第3张图片总结:从上面的公式看出,在数据样本x的条件下,判定某样本为 y j y_j yj 类只取决于各个类条件概率的 p ( x i ∣ y j ) p(x_i|y_j) p(xiyj)的乘积和 p ( y j ) p(y_j) p(yj)的乘积。

极大似然估计与贝叶斯估计的朴素贝叶斯概率估计公式

  1. 在上面的朴素贝叶斯算法中,要计算后验概率需要计算极大似然概率 P ( Y = c k ) P(Y=c_k) P(Y=ck) P ( X j = c k ∣ Y = c k ) P(X_j = c_k| Y=c_k) P(Xj=ckY=ck),可以使用极大似然估计来求这两个概率(其实就是统计)。
  2. 贝叶斯估计是极大似然估计的优化,是为了解决某些类别频数为0时带来的 P ( Y = c k ) P(Y=c_k) P(Y=ck) P ( X j = c k ∣ Y = c k ) P(X_j = c_k| Y=c_k) P(Xj=ckY=ck)为零的情况,因此引入了拉普拉斯平滑。

P ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) + λ N + ∣ C ∣ λ P(Y=c_k) = \frac{\sum_{i=1}^{N} I(y_i=c_k)+\lambda}{N+ |C|\lambda} P(Y=ck)=N+Cλi=1NI(yi=ck)+λ

P ( X j = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c k ) + ∣ V ∣ λ P(Xj=a_{jl} |Y=c_k) = \frac{\sum_{i=1}^{N} I(x_i=a_{jl}, y_i=c_k)+\lambda}{\sum_{i=1}^{N} I(y_i=c_k)+ |V|\lambda} P(Xj=ajlY=ck)=i=1NI(yi=ck)+Vλi=1NI(xi=ajl,yi=ck)+λ

优缺点

优点:简单,对一些短文本的分类效果不错。
缺点:条件独立性假设很强,再多数场景下分类精确度不高。

损失

与KNN算法一样,朴素贝叶斯算法的后验概率最大等价于最小化 0-1 损失的经验风险。

你可能感兴趣的:(概率图模型)