朴素贝叶斯是贝叶斯证据独立的表达形式,属于一种特例。实际应用过程中贝叶斯表达式非常复杂,但是我们希望把它拆分成多个朴素贝叶斯来表达,这样能够快速获得后验概率。
贝叶斯 Thomas Bayes,英国数学家。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献。
贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。其基本思想是:
贝叶斯公式:
P(B[j]|A[i])=P(A[i]|B[j])P(B[j]) / P(A[i])
未知事件中A[i]出现时B[j]出现的后验概率在主观上等于已有事件中B[j]出现时A[i]出现的先验概率值乘以B[j]出现的先验概率值然后除以A[i]出现的先验概率值最终得到的结果。这就是贝叶斯的核心思想:用先验概率估计后验概率。
具体到分类模型中,上述公式可以理解为:将B[j]看作分类的一种,将A[i]看作样本的特征属性之一,此时等号左边为待分类样本中出现特征A[i]时该样本属于类别B[j]的概率P(B[j]|A[i]),而等号右边是根据训练样本统计得到的特征A[i]出现子类别B[j]中的概率P(A[i]|B[j])乘以类别B[j]在训练样本中出现的概率P(B[j])最后除以特征A[i]在训练样本中出现的概率P(A[i])。
以下为基本的概念介绍,有概率论知识基础的可以跳过,这部分主要是为一些不理解上面公式的初始学习者进行指导。
定义1. 一个随机试验E所有可能的结果构成的集合称为该随机试验E样本空间,记为S。样本空间的元素,即E的每个结果,称为样本点。试验E的样本空间S的子集为E的随机事件,简称为事件。
定义2. 设E是随机事件,S是它的样本空间。对于E的每一事件A赋予一个实数,记为P(A),称为事件发生的概率。
定义3. 设A,B是两个事件,且P(A)>0,则称P(B|A)=P(AB)/P(A)为在事件A发生的条件下事件B发生的条件概率,其中P(AB)表示事件A与事件B同时出现的概率,公式P(B|A)=P(AB)/P(A)称为条件概率公式。
根据条件概率公式可知:P(AB)=P(B|A)P(A),若B[1],B[2],……,B[m]为样品空间S的一个划分,且P(B[i])>0, i = 1,2,……,m,则有P(A[i]) = P(A[i]|B[1])P(B[1]) +P(A[i]|B[2])P(B[2]) + …… + P(A[i]|B[m])P(B[m]);故有贝叶斯的另一种形式:
P(B[j]|A[i])=P(A[i]|B[j])P(B[j])/ ∑P(A[i]|B[j])P(B[j])
朴素贝叶斯是基于一个简单假设所建立的一种贝叶斯方法,朴素贝叶斯假定样本的不同特征属性对样本的归类影响时相互独立的。此时若样本A中同时出现特征A[i]与A[k],则样本A属于类别B[j]的概率为:
P(B[j]|A) = P(B[j]|A[i],A[k]) = P(B[j]|A[i])P(B[j]|A[k])
朴素贝叶斯模型:
样本a=(a[1], a[2], ……, a[n]);为n维布尔向量,用来表示样本a中特征A[i]是否出现。
类别B∈{B[1], B[2], ……, B[m]}为m类的分类问题,B[j]表示m个类别中的一个。
训练样本x[1], x[2], ……, x[t],其中x[k]=(x[k][1], x[k][2], ……, x[k][n])为n维布尔向量,训练样本的类别为b[1], b[2], ……, b[t];
现考虑待分类样本y=(y[1], y[2], ……, y[n]);属于每个类别的概率情况。
1、考虑训练样本中类别B[j]的概率值P(B[j])
P(B[j]) = 类别为B[j]的训练样本数 / 总训练样本数t
2、考虑训练样本中特征A[i]在类别B[j]中的出现的相对概率值P(A[i]|B[j])
P(A[i]|B[j]) = 类别为B[j]并包含特征A[i]的训练样本数 / 类别为B[j]的训练样本数
3、根据1、2计算训练样本中特征A[i]的概率值P(A[i])
P(A[i]) = ∑P(A[i]|B[j])P(B[j])
4、根据贝叶斯公式计算待分类样本中出现特征A[i]时样本属于B[j]的相对概率P(B[j]|A[i])
P(B[j]|A[i]) = P(A[i]|B[j])P(B[j]) / P(A[i])
5、根据朴素贝叶斯的假设得出样本y属于类别B[j]的概率P[j]
P[j] = ∏ P(B[j]|A[i])*y[i]
6、同法求出样本y属于其他各个类别的概率从而得到:P[1], P[2], ……, P[m]。然后在对这m个概率值进行归一化,并排序,从而得到待分类样本y属于各个类别的相似度以及最终的归类