首先,发两个链接,介绍的比较详细,易懂,精辟,在网上传播度也较高
1.数学之美番外篇:平凡而又神奇的贝叶斯方法
http://blog.csdn.net/xianlingmao/article/details/5528102
2.数学之美系列十九:马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)——google吴军
http://www.kuqin.com/math/20071204/2793.html
3.算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)——张洋
http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html
可直接阅读1.4
4.算法杂货铺——分类算法之贝叶斯网络(Bayesian networks)——张洋
http://www.cnblogs.com/leoo2sk/archive/2010/09/18/bayes-network.html
好,开始
贝叶斯定理,条件概率求解公式:
P(A|B) = P(A^B) / P(B) = P(A)*P(B|A) / P(B)
——P(A),P(B),先验概率
P(B|A),条件概率
一、朴素贝叶斯
对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
朴素贝叶斯基于这样一个假设:特征集里的每个特征都是彼此独立的。由概率知识可知当A,B彼此独立时,P(AB)=P(A)P(B)。
(1)对每个样本数据描述为n维特征向量X={ x1, x2, …, xn},每个分量对应一个属性的取值。
(2)假定有m个类c1,c2,…,cm,给定一个未知的数据样本x,分类法将预测出x属于最有最高后验概率(条件x下)的类。也就是说,如果将x分给某个类,则x属于该类的概率一定大于其他类。
即P(Ci| x) > P( Cj|x), 1<=i<=m, j其他
又,P(Ci | x) = (P( x| Ci) P(Ci))|P( x)
(3)由于P(x)对于所有类为常数,只需算分子最大即可。如果类的先验概率未知,则通常假设这些类是等概率的。类的先验概率可以通过P(Ci)= si/s,其中si是类Ci中的训练样本数,而s是总的样本数。
朴素贝叶斯中对于若干条件概率值不存在的问题,一般通过将所有的概率值加1来解决。
二、贝叶斯网络
当朴素贝叶斯的假设前提不满足,即各特征并非彼此独立时,贝叶斯网络就可以上场了。在很多情况下,特征之间完全独立是没办法做到的。比如解决文本分类时,相邻词的关系、近义词的关系等等。彼此不独立的特征之间的关系没法通过朴素贝叶斯分类器训练得到,同时这种不独立性也给问题的解决方案引入了更多的复杂性。
故,贝叶斯网络引入了一个有向无环图(Directed Acyclic Graph)和一个条件概率表(CPT)集合。DAG的结点V包括随机变量(类别和特征),有向连接E(A->B)表示结点A是结点B的parent,且B与A是有依赖关系的(不独立)。同时引入了一个条件性独立(conditional independence)概念:即图中任意结点v在给定v的parent结点的情况下,与图中其它结点都是独立的,也就是说P(v|par(v),x1,x2...,xn) = P(v|par(v))。这里par(v)表示v的parent结点集,x1,x2,...,xn表示图中其它结点。
因为,我们知道如果已知所有联合概率值(joint distribution),那么任何形式的概率问题都可以迎刃而解。而现实是当特征集合过大(>10)时你几乎无法通过统计得到。而特征集合的大小在"一定程度上"与最终的分类效果是一个正反馈关系。所以,这个问题的解决就是通过我们所引入的条件独立的概念来对各条件概率值进行优化。
(1)naive bayes的tutorial。
http://www.autonlab.org/tutorials/naive02.pdf
(2)bayesian net的tutorial。
http://www.autonlab.org/tutorials/bayesnet09.pdf
三、贝叶斯网络分类器:
贝叶斯分类器是基于贝叶斯学习方法的分类器。在贝叶斯网络中将其中代表类别变量的结点作为根结点,其余所有的变量结点都作为该类别变量结点的子结点,则贝叶斯网络就变成了贝叶斯网络分类器。构造分类器需要根据给定训练样本数据集(训练集)作为输入,通过对训练集进行训练,归纳出分类器,利用分类器对没有分类的数据进行分类。
先验概率独立于训练数据集,而后验概率反映了样本数据对类cj的影响。贝叶斯分类模型参数学习的关键就是如何计算p(ai|a1,a2,…,ai-1,cj)。目前,不同贝叶斯分类模型的区别就在于,它们以不同的方式来求p(ai|a1,a2,…,ai-1,cj)。xi被分到c类,即g(e)=argmax p(c|a1,a2,…,an),称g(e)为贝叶斯分类器。
四、贝叶斯分类器同其他分类器相比具有如下特点:
(1)贝叶斯分类器并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率分布;
(2)一般情况下在贝叶斯分类器中所有的属性都潜在地起作用,即并不是一个或者几个属性决定分类,而是所有的属性都参与分类;
(3)用于贝叶斯分类器分类的对象的属性可以是离散的、连续的,也可以是混合的。