这几天在学习贝叶斯分类,据说它的文本分析很给力,主要是应用简单,所以就小试以下。。。。
首先看一下贝叶斯应用的一个小例子:
一个士兵射击,分别在100,200,300处射击击的概率是0.7,0.2,0.1,而在各处射中目标的概率是0.6,0.2,0.04。现在目标已被击毁,求士兵在200米击中的概率?
这个要用到贝叶斯,设A1,A2,A3分别为士兵在100,200,300处射击,B为击中目标。
则P(A1)=0.7,P(A2)=0.2,P(A3)=0.1。P(B|A1)=0.6,P(B|A2)=0.2,P(B|A3)=0.04。由贝叶斯公式可知
P(A2|B)=(P(A2)*P(B|A2))/(P(A1)*P(B|A1)+P(A2)*P(B|A2)+P(A3)*P(B|A3))=(0.2*0.2)/(0.7*0.6+0.2*0.2+0.1*0.04)=0.08;
以上是贝叶斯的一个小应用,下面就详细的学习贝叶斯(本人是菜鸟,文中大部分内容均是借鉴,如有不对,大家指出)
一贝叶斯公式
由以上我们已经可以看出贝叶斯公式,这里给出更一般的公式:
对于各式的解释,可以见例题,应该就没问题了。
二贝叶斯分类
如果把样本属于某个类别作为条件,样本的特征向量取值作为结果,则模式识别的分类决策过程也可以看作是一种根据结果推测条件的推理过程。它可以分为两种类型:
一确定性分类决策:
特征空间由决策边界划分为多个决策区域,当样本属于某类时,其特征向量一定落入对应的决策区域中,当样本不属于某类时,其特征向量一定不会落入对应的决策区域中;现有待识别的样本特征向量落入了某决策区域中,则它一定属于对应的类。
二随机性分类决策:
特征空间中有多个类,当样本属于某类时,其特征向量会以一定的概率取得不同的值;现有待识别的样本特征向量取了某值,则它按不同概率有可能属于不同的类,分类决策将它按概率的大小划归到某一类别中。
对于随机性分类决策,可以利用贝叶斯公式来计算样本属于各类的后验概率:
三贝叶斯分类器
1最小错误率贝叶斯分类器
当已知类别出现的先验概率P(Wi)和每个类别在样本中的概率为P(x|Wi)时,已经求的后验概率P(Wi|x).对于如此,利用最小错误率贝叶斯分类器的原理,可以做出以下判段:
两类问题时,当P(Wi|x)>P(Wj|x)时,判决属于类别Wi.
对于多类情况,当P(Wi|x)为所有中最大的,则属于Wi。
用图表可以很清晰的看出其分界:
二最大似然比贝叶斯分类器
三最小风险贝叶斯分类器
在最小错误率贝叶斯分类器分类时,仅考虑了样本属于每一类的后验概率最初分类决策,而没有考虑每一种分类决策的风险。例如针对某项检测指标进行癌症的诊断,如果计算出患者癌症和未患癌症的后验率均为50%,如果患者真实情况患了癌症,此时做出未患的诊断则会延误时机,比做出患癌症的诊断带来更为严重的后果。
于是,在这种情况下,要做改进。因此,在获得样本属于每一类的后验概率后,需要综合考虑各种分类决策的多带来的风险,选择分类风险最小的决策,这就是最小风险贝叶斯分类器。
这以上是贝叶斯的一般概念,对于贝叶斯分类器的构造还需要对参数进行估计,(未完待续)