机器学习(附1)贝叶斯系列

机器学习(附1)贝叶斯系列

文章目录

  • 机器学习(附1)贝叶斯系列
  • 前言
  • 一、贝叶斯学派
  • 二、贝叶斯公式(贝叶斯法则、贝叶斯定理、贝叶斯规则)
  • 三、极大似然估计与最大后验概率
    • 极大似然估计
    • 最大后验概率
    • 区别
  • 四、贝叶斯分类器之朴素贝叶斯
    • 1.生成方法和判别方法
    • 2.应用场景
    • 3.数学解释
      • 朴素在哪里
      • 例子
  • 五、隐马尔可夫模型
    • 马尔科夫假设与马尔可夫链
    • 隐含马尔可夫模隐型
    • 算法模型
      • 训练模型:鲍牧-韦尔奇算法
      • 预测模型:维特比算法
  • 六、贝叶斯网络(信念网络)
    • 与马尔可夫模型关系
    • 算法模型
    • 在词分类中的应用
  • 七、总结

前言

机器学习特别是NLP中经常会出现各种叫贝叶斯的方法,百度百科显示的内容如下,本文主要目的是整机器学习中用到的贝叶斯算法家族到底都是什么意思,彼此的关联是什么?

机器学习(附1)贝叶斯系列_第1张图片

一、贝叶斯学派

数理统计一直有两大学派:频率学派和贝叶斯学派。频率学派也叫古典学派,认为世界是确定的,所以直接给事件本身建模。贝叶斯学派认为可以接受预先有个估计,但是需要根据实际的信息来逐步调整,对于同一个事件,不同的人掌握的先验不同的话也可能会出现不同的估计。

二、贝叶斯公式(贝叶斯法则、贝叶斯定理、贝叶斯规则)

条件概率公式描述了在某个时期发生的概率下另外一件事情发生的概率:
P(A|B)=P(AB)/P(B) (1)
P(B|A)=P(AB)/P(A) (2)
全概率公式描述了如何通过联合概率密度,反向求出边缘密度。

  • 如果事件组B1,B2,… 满足
    – B1,B2…两两互斥,即 Bi ∩ Bj = ∅ ,i≠j , i,j=1,2,…,且P(Bi)>0,i=1,2,…;
    – B1∪B2∪…=Ω ,则称事件组 B1,B2,…是样本空间Ω的一个划分
    设 B1,B2,…是样本空间Ω的一个划分,A为任一事件,则:
    全概率公式(3)
    用离散二维随机变量的分布图来描述的话,全概率公式就是把某行或者某列加起来
    机器学习(附1)贝叶斯系列_第2张图片
    现实中更常见的情况是我们对样本类型的分布有一些先验知识,比如知道癌症在某个人群中的发病率,某个词在一类型文章中的出现频率等等,想把先验知识应用到对样本的预测当中。比如癌症的发病率是99%,测试的正确率是99%,如果检测结果阳性,这个人是病人的概率是多大?
    贝叶斯整理了条件概率和全概率公式,解决了这个逆向概率问题,得出了一个在这种场景下可以直接使用的公式:
    将公式(1)和公式(2)中的p(A)p(B) 移动到左边,得到如下结果
    P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B),
    用P(A)*P(B|A) 替换公式(2)的分子,把公式2的分母替换成公式(3),就可以得到贝叶斯公式:
    在这里插入图片描述(4)
    先验知识可以用这个公式直接用于预测,数据量越大,先验知识越准,这个公式也越准。

三、极大似然估计与最大后验概率

参考:https://zhuanlan.zhihu.com/p/40024110

极大似然估计

事件整体的概率可以以子事件的乘积来表示,如果调整模型参数, 让这个乘积达到最大值的话,可以认为这个参数是比较好的,通过这种方式计算的参数叫极大似然估计。一般通过先求对数(把乘积拆开),再求导(求i极值点)来找。
arg max ∑ \sum log(p(x,w,b)

最大后验概率

如果调整模型参数, 使公式(4)的值取最大,这个最大结果叫最大后验概率。
arg max p(w,b|x)

区别

这两种算法看起来都是有道理的,区别在于,当样本数量比较少的时候,极大似然估计的误差比较大,比如只打了一枪命中了,可以认为命中率是100%么。

四、贝叶斯分类器之朴素贝叶斯

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法
参考文章:带你理解朴素贝叶斯分类算法 - 忆臻的文章 - 知乎
https://zhuanlan.zhihu.com/p/26262151

1.生成方法和判别方法

监督学习分为两类:生成方法和判别方法。判别方法的目标是直接产生分类结果,如感知机,决策树等。生成方法需要先还原出联合概率分布,再通过联合概率分布二次计算出预测结果,这样不光可以得到最终判定,还能分析出相似性。如朴素贝叶斯和隐形马尔可夫模型。

2.应用场景

机器学习(附1)贝叶斯系列_第3张图片
假设上图是训练数据,给出了身高体重鞋码与性别的关系,希望得到一个分类器,根据输入三项数据推测出性别。

3.数学解释

朴素贝叶斯就是用贝叶斯公式来预测,把公式换种描述就能看出来在预测什么:

机器学习(附1)贝叶斯系列_第4张图片

朴素在哪里

现实中的特征,尤其是NLP领域,这个特征不管是维度还是种类都是很多的。这里虽然只有三个维度(身高,体重,鞋码),每个维度有三种类型已经是很小的情况了,p(特征|类别)都需要计算2 * 3 * 3 * 2=36种类型不同的值,如果是几千个汉字,几十万个词呢。。。。为了简化这个计算过程,朴素贝叶斯假设了每个样本之间是独立的,因此p(特征|类别)可以简化成:
p(身高,体重,鞋码|男) = p(身高|男) *p(体重|男) *p(鞋码|男)/P(身高,体重,鞋码) 虽然这些不完全的独立的,但是效果还可以。
这样每个环节就简化为最小的条件概率,这也是朴素贝叶斯名称的由来,普普通通的分布,简化之后就像是从雕版印刷进化成了活字印刷,那工作量降低的不是一点点。

你可能感兴趣的:(朴素贝叶斯算法,机器学习)